阿里巴巴的Page Agent让AI像人类一样“阅读”网页

多年来，构建浏览器自动化工具的开发者们感觉陷入了循环——不断重复造轮子。无论是截取屏幕截图供AI“查看”，还是通过低级协议强制浏览器执行操作，传统方法往往在网页结构发生变化时出现问题。现在，阿里巴巴推出了一种新选择：一个名为Page Agent的开源JavaScript库。它不是从外部破解网页，而是让大型语言模型（LLM）直接查看页面的内部DOM结构。

Page Agent的工作原理：“DOM脱水”的魔力

这里的核心技巧是团队所谓的“DOM脱水”。传统方法通常依赖截图并进行多模态分析——昂贵、缓慢，且容易错过关键的交互细节。Page Agent则反其道而行之。它直接在网页内部运行，将复杂的DOM树压缩成轻量级的纯文本映射，称为FlatDomTree。可以将其视为为AI绘制的高精度交互地图。模型无需处理视觉渲染，只需读取这个简化地图即可执行点击按钮或填写表单等复杂任务。

为什么开发者会喜欢它

由于Page Agent存在于浏览器内部，它自然继承了所有cookie、会话状态和登录凭据。这意味着开发者不再需要在后端费力处理身份验证。该库还设计为与任何支持标准接口的LLM兼容，使其成为工具包中的灵活补充。

那么它在哪些场景下有用呢？想想能够为你导航仪表盘的SaaS产品副驾驶、实际可用的自动化数据收集，或使Web应用更易于访问的工具。Page Agent为传统方法提供了一种更便宜、更高效的替代方案。

并非万能药

当然，Page Agent并非魔法棒。团队坦诚其局限性：它最适合单页内的交互。如果涉及支付或数据篡改等高风险操作，仍需添加严格的服务器端验证。为了保持稳定，Page Agent使用提示触发的权限控制机制——这是自动化流程的基本安全层。

下一步是什么？

Page Agent现已以MIT许可证在GitHub上发布。借助此工具，开发者可以告别昂贵的多模态计算，开始通过实用工程将真正“感知网页”的智能体嵌入到应用中。这标志着AI网页自动化正朝着更轻量、更易用的未来发展。

关键点

DOM脱水：将DOM树压缩为轻量级文本映射，供LLM理解。
浏览器内运行：自动继承cookie、会话和登录凭据。
LLM无关：适用于任何支持标准接口的大型语言模型。
用例：SaaS副驾驶、数据收集、无障碍改进。
局限性：最适合单页交互；敏感操作需要服务器端验证。
开源：以MIT许可证在GitHub上可用。

阿里巴巴的Page Agent让AI像人类一样“阅读”网页

Page Agent的工作原理：“DOM脱水”的魔力

为什么开发者会喜欢它

并非万能药

下一步是什么？

关键点

主要页面

内容分类

其他