跳转到主要内容

阿里巴巴的Page Agent让AI像人类一样“阅读”网页

多年来,构建浏览器自动化工具的开发者们感觉陷入了循环——不断重复造轮子。无论是截取屏幕截图供AI“查看”,还是通过低级协议强制浏览器执行操作,传统方法往往在网页结构发生变化时出现问题。现在,阿里巴巴推出了一种新选择:一个名为Page Agent的开源JavaScript库。它不是从外部破解网页,而是让大型语言模型(LLM)直接查看页面的内部DOM结构。

Page Agent的工作原理:“DOM脱水”的魔力

这里的核心技巧是团队所谓的“DOM脱水”。传统方法通常依赖截图并进行多模态分析——昂贵、缓慢,且容易错过关键的交互细节。Page Agent则反其道而行之。它直接在网页内部运行,将复杂的DOM树压缩成轻量级的纯文本映射,称为FlatDomTree。可以将其视为为AI绘制的高精度交互地图。模型无需处理视觉渲染,只需读取这个简化地图即可执行点击按钮或填写表单等复杂任务。

Image

为什么开发者会喜欢它

由于Page Agent存在于浏览器内部,它自然继承了所有cookie、会话状态和登录凭据。这意味着开发者不再需要在后端费力处理身份验证。该库还设计为与任何支持标准接口的LLM兼容,使其成为工具包中的灵活补充。

那么它在哪些场景下有用呢?想想能够为你导航仪表盘的SaaS产品副驾驶、实际可用的自动化数据收集,或使Web应用更易于访问的工具。Page Agent为传统方法提供了一种更便宜、更高效的替代方案。

Image

并非万能药

当然,Page Agent并非魔法棒。团队坦诚其局限性:它最适合单页内的交互。如果涉及支付或数据篡改等高风险操作,仍需添加严格的服务器端验证。为了保持稳定,Page Agent使用提示触发的权限控制机制——这是自动化流程的基本安全层。

Image

下一步是什么?

Page Agent现已以MIT许可证在GitHub上发布。借助此工具,开发者可以告别昂贵的多模态计算,开始通过实用工程将真正“感知网页”的智能体嵌入到应用中。这标志着AI网页自动化正朝着更轻量、更易用的未来发展。

关键点

  • DOM脱水:将DOM树压缩为轻量级文本映射,供LLM理解。
  • 浏览器内运行:自动继承cookie、会话和登录凭据。
  • LLM无关:适用于任何支持标准接口的大型语言模型。
  • 用例:SaaS副驾驶、数据收集、无障碍改进。
  • 局限性:最适合单页交互;敏感操作需要服务器端验证。
  • 开源:以MIT许可证在GitHub上可用。