阿里巴巴发布新一代图形用户界面自动化工具
阿里巴巴Qwen团队推出突破性GUI自动化解决方案
2025年9月1日 - 阿里巴巴Qwen研究团队发布了图形用户界面(GUI)自动化领域的两项开创性产品:Mobile-Agent-v3和GUI-Owl。这些创新旨在克服现代计算界面自动化交互中的长期挑战。
GUI自动化的挑战
尽管图形界面主导了现代计算,但现有的自动化方法严重依赖复杂的脚本和手动规则,效果有限。传统方法往往难以应对现实应用程序的动态特性和多变的屏幕布局。

介绍GUI-Owl:多模态解决方案
GUI-Owl模型代表了界面自动化技术的重大飞跃。基于阿里巴巴的Qwen2.5-VL基础构建,这款多模态智能体整合了大量GUI交互数据的训练,以增强任务理解和执行能力。
主要特点包括:
- 集成的感知、推理、规划和执行功能
- 统一的策略网络实现一致的决策制定
- 操作过程中可见的清晰推理过程
- 适应现实应用程序的变化
开发团队创建了一个复杂的自进化数据生产管道以确保高质量的训练材料。该系统生成真实的应用程序导航工作流,在纳入模型训练方案前需经过人工验证。

Mobile-Agent-v3:多智能体协作框架
配套的Mobile-Agent-v3框架通过专门的智能体协作引入了一种创新的复杂任务自动化方法:
- 管理智能体:负责任务分解和协调
- 工作智能体:处理直接的界面交互
- 反思智能体:分析执行结果以改进性能
- 记录智能体:维护跨操作的上下文信息
这种架构能够基于执行反馈动态更新计划,显著提高复杂工作流的成功率。
性能与应用领域
早期基准测试表明,该解决方案在多种GUI自动化挑战中表现出色,尤其是在跨平台场景中。潜在应用领域包括:
- 企业软件自动化
- 移动应用测试框架
- 无障碍技术增强
- 机器人流程自动化系统
团队已通过技术论文公开其研究成果,并在GitHub上开源了相关组件。
关键点:
- 🚀 GUI-Owl将多模态感知与自适应推理相结合,实现稳健的GUI交互
- 🤖 Mobile-Agent-v3的专业智能体支持复杂任务分解和动态规划
- 📈 两种解决方案在基准测试中均展现出优于现有方法的性能
- 🔍 阿里巴巴的自进化数据管道确保了持续改进能力
- 🌐 开源可用性促进了更广泛的采用和社区开发



