跳转到主要内容

机器人视觉领域重大突破:AI现在能更好地理解3D空间

机器人视觉领域重大突破:AI现在能更好地理解3D空间

在机器人技术的重大进展中,研究人员开发了Evo-0——一种创新的视觉语言动作模型,极大提升了人工智能理解和导航三维空间的能力。这项突破性成果来自上海交通大学剑桥大学的合作研究。

三维理解的挑战

传统视觉语言模型(VLMs)主要依赖2D图像和文本数据进行训练,这限制了它们准确解读现实世界三维环境的能力。这一局限始终是机器人技术发展的障碍,特别是在需要精确空间感知的任务中。

Image

Evo-0的工作原理

Evo-0模型通过整合以下创新方法实现突破:

  • 视觉几何基础模型(VGGT):从多视角RGB图像中提取3D结构信息
  • t3^D令牌:包含深度上下文和空间关系等几何信息
  • 交叉注意力融合模块:将2D视觉令牌与3D令牌相结合

这种架构使机器人无需额外传感器或显式深度输入,就能更好地理解空间布局和物体关系。

性能提升表现

实验结果极具说服力:

  • 精细操作任务中成功率比基线模型高出15%
  • 在开放VLA基准测试(openvla-oft)上实现31%的提升
  • 现实世界空间任务平均提升达28.88%,包括:
    • 目标居中定位
    • 孔洞插入操作
    • 密集抓取作业 该模型尤其擅长理解和控制复杂的空间关系。

实际应用与未来潜力

这项技术的应用前景涵盖多个领域:

  • 需要精密操作的工业自动化系统
  • 在复杂环境中导航的服务型机器人
  • 执行精细作业的自主系统 研究团队强调,Evo-0通过巧妙整合空间信息,为"未来通用机器人策略提供了新的可行路径"。 学术界已注意到这一进展,认为其有望弥合理论AI能力与实际机器人应用之间的鸿沟。

关键要点:

  1. Evo-0标志着AI理解3D空间能力的重大飞跃
  2. 该模型的突破无需额外传感器或硬件改造
  3. 性能提升幅度从15%到31%不等(视任务复杂度而定)
  4. 工业自动化和服务机器人是主要应用场景
  5. 技术在保持训练效率的同时提升了部署灵活性

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

阿里巴巴AI突破性成果斩获NeurIPS 2025最佳论文奖

阿里巴巴通义千问团队凭借创新的'注意力门控'技术,从2万篇投稿中脱颖而出,荣获NeurIPS 2025仅四席的最佳论文奖项。该技术如同AI模型的安检关卡,能在处理前过滤无关数据,显著提升效率和准确性。这项突破已被应用于阿里即将发布的Qwen3-Next模型。

November 28, 2025
NeurIPS2025AIResearchMachineLearning
AntBaiLing发布高效AI模型Ring-mini-sparse-2.0-exp
News

AntBaiLing发布高效AI模型Ring-mini-sparse-2.0-exp

AntBaiLing团队开源了Ring-mini-sparse-2.0-exp,这是一款针对长序列处理优化的高性能推理模型。凭借创新的稀疏注意力机制和混合专家架构,该模型在保持顶尖基准测试结果的同时,实现了三倍的吞吐量提升。

October 27, 2025
AIResearchMachineLearningNaturalLanguageProcessing
Opera Neon推出AI驱动的研究助手ODRA
News

Opera Neon推出AI驱动的研究助手ODRA

Opera为其Neon浏览器发布了全新AI研究助手ODRA,标志着构建AI生态系统的重要一步。该功能利用并行处理实现高效查询解析,成为Opera套件中继现有三个助手后的第四名成员。

October 24, 2025
OperaNeonAIResearchBrowserTechnology
Strella获1400万美元融资,革新AI驱动的客户研究
News

Strella获1400万美元融资,革新AI驱动的客户研究

AI初创公司Strella已完成1400万美元A轮融资,用于加速其语音驱动的客户研究平台发展。该技术将传统8周的研究周期缩短至数天,为亚马逊和多邻国等客户节省90%的时间。

October 17, 2025
AIResearchCustomerFeedbackStartupFunding
西湖大学AI科学家打破研究纪录
News

西湖大学AI科学家打破研究纪录

西湖大学AI系统DeepScientist在两周内完成了人类三年的研究工作,生成了5000多个科学创意并验证了1100个。该系统在三项尖端AI任务中超越了人类纪录,展现了前所未有的研究能力。

October 11, 2025
AIResearchDeepScientistWestLakeUniversity
蚂蚁集团开源医学AI框架MedResearcher-R1
News

蚂蚁集团开源医学AI框架MedResearcher-R1

蚂蚁集团开源了知识驱动的医学研究AI框架MedResearcher-R1。该系统包含知识图谱构建、轨迹生成和评估三大核心模块,旨在推动医疗领域专用AI推理技术的发展。此次发布还包含一个高质量的医学问答数据集供研究人员使用。

September 1, 2025
MedicalAIKnowledgeGraphOpenSource