AgentCPM-GUI:开源移动应用大语言模型智能体

产品介绍
AgentCPM-GUI是一款基于大语言模型(LLMs)的前沿开源移动智能体。它通过分析截图并执行命令,实现中英文应用的任务自动化。专为提升移动设备生产力而设计,尤其在处理复杂工作流和支持热门中文应用方面表现突出。
核心功能
- 先进的GUI理解:基于海量双语Android数据集预训练,具备卓越的GUI组件识别能力。
- 中文应用优化:针对大众点评、高德地图等30多款主流中文应用进行微调。
- 增强推理能力:采用强化微调(RFT)技术实现深思熟虑的任务执行。
- 高效动作设计:紧凑的JSON格式将平均动作长度缩减至仅9.7个token。
- 截图输入:直接处理屏幕图像,操作直观便捷。
- 多应用适配:可无缝运行于各类Android应用程序。
- 简易安装:提供清晰的文档说明和简单的安装流程。
产品数据
- 支持语言:中文、英文
- 动作token长度:平均9.7个token
- 预训练模型:可供下载
- 支持应用:包括哔哩哔哩、高德地图、大众点评等30多款中文应用





