Apple 发布 Ferret-UI 2:终极 UI 掌控者!
被屏幕淹没了吗?别怕,Ferret-UI 2 来拯救你了!
手机、平板、电脑、电视——天啊!如果你和大多数人一样,面对无尽的屏幕和日益复杂的界面可能会让你对着最新的设备哭泣。那么,擦干眼泪吧,因为 Apple 刚刚公布了一个重磅消息:Ferret-UI 2 现已推出,它将大大简化你的生活。
那么,究竟什么是 Ferret-UI 2?它是一只可以帮你整理屏幕的小毛茸动物吗?还不完全这样,但差不多!Ferret-UI 2 是一个 超强的 UI 理解模型,它可以处理你能想到的任何平台的用户界面:iPhone、Android、iPad、网页,甚至是智能电视。就像 UI 理解的瑞士军刀,却更酷。

多平台掌控
Ferret-UI 2 的一个突出特点是其 多平台支持。告别之前 Ferret-UI 只能局限于移动设备的时代吧。这个新版本现在能够轻松处理平板、网页屏幕,甚至是智能电视。它是终极变色龙,能够适应任何你使用的屏幕。不论你是在 Apple TV 上看最爱的剧集,还是在安卓手机上滑动应用,Ferret-UI 2 都能为你提供支持。

为高需求而生的高分辨率技术
如果你认为 Ferret-UI 2 仅仅是一招鲜,那就大错特错了。它配备了 动态高分辨率图像编码技术 以及一种叫做 “自适应网格” 的酷炫方法。这意味着什么呢?简单说:这个模型能在 原始分辨率 的 UI 截图中保持它的感知力。它不仅仅是猜测那个按钮在哪儿——它将确道那个按钮在哪儿,甚至精确到像素。够高级吧?当然。

像冠军一样训练
Ferret-UI 2 并不是随便现身的,它经过了使用 高质量数据集 的严格训练,无论是基础任务还是高级任务。对于基础任务,它能将简单的参考和定位数据转换为对话形式。就像是在和你的设备聊天:“嘿,设置按钮在哪儿?”Ferret-UI 2 一清二楚。
至于高级任务呢?它有一个基于 GPT-4o 的“token set visual prompt” 技术。不再需要笨拙的点击指令。相反,Ferret-UI 2 使用 以用户为中心的交互,让你觉得界面像是在读你的心思。
基准测试的精彩表现
关于 Ferret-UI 2 的强大能力并不是说说而已。研究人员对它进行了 45 次基准测试,在五个平台上测试了基础和高级任务。与它的前身 Ferret-UI 相比,新模型在更高级的场景中表现出色,甚至在像 GUIDE 和 GUI-World 这样的公共基准测试中取得好成绩。简而言之:它是个野兽级的模型。
跨平台学习的魔力
Ferret-UI 2 不仅仅是一个单一平台的奇才。凭借其卓越的 跨平台迁移学习 能力,它展示了在 iPhone、iPad 和 Android 设备之间一些惊人的 泛化能力。它就像一个学霸,无论考哪一科目都能考满分。
感觉心动了吗?你可以在 这里 查看该模型地址,或通过 此处 阅读其学术论文。相信我们,这个兔子洞值得你一探究竟!
总结
- Ferret-UI 2 在理解多个平台(包括移动设备、网页和智能电视)的用户界面方面表现出色。
- 它利用了如 动态图像编码 和 自适应网格 等高科技功能,确保了精确度。
- 该模型在 基础 和 高级任务 方面都很出色,得益于尖端的训练技术。
- 它在 45 次基准测试 中碾压了前代产品,证明了它的优越性。
- 跨平台学习能力 使得 Ferret-UI 2 在 iPhone、iPad 和 Android 设备上成就非凡。



