你的手机变聪明了:Gemini AI 现在能像私人助理一样处理任务
你的智能手机学会了新技能

想象一下告诉你的手机“点我常喝的咖啡”,然后看着它像你一样操作星巴克应用——浏览菜单、选择你最喜欢的饮品,甚至在支付前停下来等待你的最终确认。这不再是科幻情节。谷歌基于Gemini的任务自动化已进入测试阶段,标志着我们与设备交互方式的根本转变。
超越语音命令:真正干活的AI
关键区别何在?传统助手检索信息;Gemini执行操作。它不会仅仅告诉你有一辆Uber可以前往机场,而是:
- 自动打开Uber应用
- 识别正确的航站楼(如有歧义会询问)
- 准备好所有步骤直到最后的“确认”按钮
“一开始有点诡异,”早期测试者马克·陈承认,“你给出指令后突然看到手机自己在操作——点击、滑动——但总会在我需要二次确认的地方停下来。”
安全第一:内置人工监督
谷歌已实施多重保障措施:
- 实时视觉反馈:每个操作都会显示在虚拟窗口中供用户监控进度。
- 强制确认停顿:没有用户的明确批准,不会完成任何支付或订单。
- 即时中断功能:每个自动化序列中都会显示醒目的暂停按钮。
该系统目前专攻流程相对标准化的配送和交通类应用。涉及主观判断的复杂任务(如在视觉相似的菜单项间选择)仍需人工决策。
为何这是革命性的
以往的自动化需要深度集成每个应用的API——这是个需要开发者配合的缓慢过程。Gemini的突破在于像人类一样直接与界面交互:
- 滚动列表
- 通过视觉属性识别按钮
- 导航多步骤流程
这种通用方法意味着可能有数千个应用无需特别更新就能实现自动化。
该技术尚未完美——测试者报告遇到不熟悉的应用布局或模糊选项时偶尔会迟疑。但随着算法改进,我们正迈向这样的未来:手机不仅能响应命令,还能可靠地从头到尾执行完整工作流。
关键要点:
- Gemini AI现在能自主执行多应用任务如叫车和订餐
- 每个操作都需要人工批准才会完成交易
- 通过模拟屏幕交互工作而非依赖特殊API接口
- 目前限于交通/配送应用的标准化流程
- 标志着从信息检索到任务执行的重大转变



