跳转到主要内容

机器人通过新型GeoVLA框架获得3D视觉能力

机器人终于能像人类一样看世界了

Image

想象一下蒙着眼睛在厨房里摸索——这基本上就是当今机器人感知世界的方式。尽管人工智能取得了巨大进步,但大多数机器人视觉系统仍难以掌握基本的空间意识。当前诸如OpenVLA和RT-2等视觉-语言-动作(VLA)模型依赖平面的二维图像,使其本质上无法感知深度和位置。

这种局限在非结构化环境中尤为明显——当深度感知至关重要时。设想一个机械臂试图抓取拥挤桌面上的杯子:若无法理解物体的远近关系,简单任务就会变成令人沮丧的试错过程。

三维感知的突破

月立灵机研究团队开发出了机器人梦寐以求的"智能眼镜"。他们的GeoVLA框架通过两项创新组件实现了真正的3D感知:

  1. 点云嵌入网络(PEN): 像人类大脑解析深度线索那样处理空间数据
  2. 空间感知动作专家(3DAE): 将空间理解转化为精确动作

"我们本质上为机器人补全了缺失的维度,"项目首席研究员孙林博士解释道,"现有系统看到的是平面图片,而GeoVLA构建的是空间心智模型——不仅能识别物体,还能理解它们在三维空间中的实际位置。"

Image

深度感知实测表现

测试结果充分证明了新方法的优越性:

  • LIBERO基准测试97.7%成功率(超越先前所有模型)
  • 在ManiSkill2仿真中处理复杂物体的卓越能力
  • 对意外场景和视角变化的惊人适应性

关键在于GeoVLA的任务分离设计:传统视觉语言模型负责物体识别,而专用组件则处理空间推理和运动规划。

对机器人技术的深远影响

这项技术的应用前景远超实验室演示:

  • 可可靠处理不规则零件的工业机械臂
  • 能在杂乱家居环境中安全行动的家庭助手
  • 更准确理解坍塌结构的搜救机器人

研究团队已将成果公开,邀请全球机器人社区共同推进发展。

核心要点:

  • 问题: 现有机器人视觉缺乏深度感知
  • 解决方案: GeoVLA通过双流架构实现真三维理解
  • 组件构成: PEN负责空间映射 + 3DAE负责运动规划
  • 成果: 受控测试接近完美表现,具备强大现实应用潜力
  • 获取方式: 可通过项目网站获取框架

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

智谱与华为联合发布完全基于国产技术的突破性AI图像模型
News

智谱与华为联合发布完全基于国产技术的突破性AI图像模型

中国AI企业智谱与华为合作推出GLM-Image,这是一款完全基于国产硬件训练的革命性多模态模型。这一创新系统结合了文本与图像生成能力,尤其在汉字渲染和复杂视觉任务方面表现优异。现已作为开源软件发布,有望使先进的AI图像创作更加普及。

January 14, 2026
AI创新国产技术计算机视觉
News

上海麦服仕跻身全国人工智能排行榜前五

总部位于上海的麦服仕凭借创新的智能体中台3.0,在中国权威榜单'2025年AI智能体百强'中斩获第四名。这家静安区的企业通过无代码AI解决方案解决行业痛点,在零售、制造和供应链领域赋能企业,从科技巨头中脱颖而出。他们的成就标志着人工智能正朝着推动实际效率的实用化方向转变。

January 14, 2026
人工智能创新上海科技企业自动化
MIT自动化'运动工厂'赋予AI物理直觉
News

MIT自动化'运动工厂'赋予AI物理直觉

来自MIT、NVIDIA和加州大学伯克利分校的研究人员攻克了视频分析领域的一大难题——教会AI理解物理运动。他们的自动化'FoundationMotion'系统无需人工干预即可生成高质量训练数据,帮助AI系统以惊人准确度掌握轨迹与时机等概念。初期测试显示其性能超越更庞大模型,标志着机器真正理解物体运动规律的进展。

January 12, 2026
计算机视觉AI训练运动分析
中国研究人员教会AI在图像生成中自我纠错
News

中国研究人员教会AI在图像生成中自我纠错

中国高校取得突破性进展,解决了AI的'视觉读写障碍'——图像系统能理解概念却难以正确呈现的问题。他们的UniCorn框架如同内部质检团队,能在创作过程中捕捉并修正错误。早期测试显示其在空间准确性和细节处理方面有显著提升。

January 12, 2026
AI创新计算机视觉机器学习
News

中国科技公司发布将彻底改变汽车设计的AI套件

中国汽车科技公司IAT推出了一套可能彻底改变车辆开发的突破性AI工具。他们的'AI+数字智能创作'系统包含四款针对汽车设计不同方面的专业产品,承诺在提高质量的同时大幅缩短开发时间。此次发布正值北京科技枢纽巩固其作为中国汽车AI强国的地位之际。

January 8, 2026
汽车科技人工智能创新车辆设计
News

科技行业资深人士创立liko.ai,推出更智能的隐私保护家用摄像头

美团前硬件负责人李瑞安(Ryan Li)的新创企业liko.ai已获得商汤科技和科大讯飞关联公司的投资。这家初创公司旨在通过基于边缘的人工智能技术革新家用安防摄像头——该技术在本地而非云端处理视频,既解决了日益增长的隐私担忧,又增添了更智能的检测功能。他们的首批产品预计将于2026年年中面市。

January 7, 2026
智能家居计算机视觉边缘计算