腾讯新型机器人脑在关键测试中超越竞争对手
腾讯机器人控制模型树立新性能标准
腾讯Robotics X实验室通过新发布的HY-Embodied-0.5模型解决了人工智能领域的一个重大挑战。这个专业系统赋予了机器大多数AI所缺乏的能力:理解和与物理世界互动的能力。
打破虚拟壁垒
虽然当今的AI可以写诗和分析数据,但在基本物理任务上却常常失败。"通用视觉语言模型在屏幕上表现优异,但在三维空间中却举步维艰,"一位腾讯研究员解释道。HY-Embodied-0.5通过彻底的架构革新改变了这一现状——而不仅仅是对现有模型进行微调。
团队开发了两个版本:
- MoT-2B(40亿参数):专为机器人实时响应设计
- MoE-32B(4070亿参数):为复杂推理任务构建
工作原理
该系统的核心采用:
- 一种新颖的混合Transformer设计,保持视觉和语言处理分离
- HY-ViT2.0视觉编码器,用于高细节环境分析
- 在超过1亿个物理交互场景上进行专业训练
"我们基本上赋予了AI空间常识,"研究员指出,"它能理解推箱子需要的力量与抬箱子不同。"
卓越性能
严格测试显示出显著成果:
- 在22项标准评估基准中16项领先
- 超越了Qwen3-VL-4B等类似规模的模型
- 在某些领域媲美谷歌先进的Gemini3.0Pro
在实际仓库测试中,使用该系统的机器人表现出:
- 箱子堆叠准确率提高40%
- 包装速度加快35%
- 相比之前系统掉落物品更少
对机器人技术的意义
这一进步可能最终将智能机器人从受控实验室转移到现实环境。早期应用可能包括:
- 自动化仓库
- 灾害响应无人机
- 精密制造
正如一位工程师所说:"我们不仅教机器思考——我们教它们行动。"
关键点
- 专业设计:专为物理世界交互打造
- 性能验证:在22项标准基准中16项领先
- 实战就绪:在物理任务中显示出实际优势
- 可扩展:提供紧凑和高性能两个版本




