腾讯新AI模型赋予机器人类人空间智能
腾讯机器人突破性进展连接AI与物理世界
想象一个不仅能看见物体,还能像人类仓库工人一样理解如何抓取、堆叠和操作它们的机器人。这正是腾讯新发布的HY-Embodied-0.5模型所承诺的,该模型由其机器人X实验室与幻方AI团队合作开发。
为何重要 传统AI视觉系统难以应对现实世界的物理规律。它们或许能识别箱子,但无法计算如何抓取而不压坏内容物。HY-Embodied-0.5通过赋予机器研究者所称的"具身智能"改变了这一现状——这种空间感知能力将视觉与物理行动联系起来。
"我们不仅是在调整现有模型,"一位熟悉该项目的腾讯工程师解释道,"这需要从根本上重新思考AI如何处理3D空间和物理交互。"
技术创新
该系统有两个版本:
- MoT-2B:精简的40亿参数模型,专为实时响应优化(适用于仓储机器人)
- MoE-32B:强大的4070亿参数版本,用于复杂推理任务
它们的独特之处在于混合Transformer架构和专有的HY-ViT2.0视觉编码器——这些技术可防止AI在训练过程中"遗忘"关键的物理关系。团队向系统输入了超过1亿个现实世界交互示例,然后借鉴人类学习心理学技术来精炼其理解。
令人瞩目的表现 在与Qwen3-VL-4B和RoboBrain2.5等系统的对比测试中,腾讯的创造独占鳌头。它在感知、推理和规划任务的22项标准基准测试中,拿下了16项。更令人印象深刻的是,旗舰模型在整体能力上比肩谷歌的Gemini3.0Pro——对于第一代具身AI来说,这是惊人的成就。
现实影响
在使用HY-Embodied-0.5的机器人现场演示中:
- 堆叠不规则形状包裹的速度比现有模型快30%
- 动态调整抓取力度以适应易碎物品
- 从意外碰撞和干扰中优雅恢复
"这不仅关乎超越基准测试,"一位未参与该项目的机器人研究者指出,"腾讯破解了让AI理解物理世界具有重量、摩擦力和后果的密码。这将改变从制造业到老年护理机器人的一切。"
关键要点
- 物理智能:HY-Embodied-0.5赋予AI超越平面图像识别的真实3D空间理解
- 双版本:紧凑型MoT-2B适用于响应式应用,巨型MoE-32B用于复杂推理
- 称霸基准测试:在16/22测试中超越对手,媲美谷歌顶级Gemini系统
- 实际应用:已在物流领域展现潜力,并有望应用于医疗保健、建筑和家庭辅助
- 训练突破:采用新技术防止AI学习过程中对物理关系的"灾难性遗忘"





