商汤科技NEO以更精简、更快速的人工智能突破多模态壁垒
商汤科技重写多模态AI规则
这项可能重塑人工智能处理多数据类型方式的突破中,商汤科技联合南洋理工大学S-Lab推出了NEO——业界首个真正原生的多模态架构。这不仅是渐进式改进,更是对AI协同处理视觉与文本信息的彻底重构。

摆脱拼凑式设计桎梏
传统多模态系统如同鲁布·戈德堡机械——将视觉处理、投影和语言理解等独立组件强行拼接。"我们意识到这种弗兰肯斯坦式方法正在制造不必要的瓶颈,"商汤科技技术总监解释道。NEO彻底抛弃了这种碎片化设计。
突破性进展源自三大革新:
- 原生像素读取消除了独立图像分词器
- 3D旋转位置编码在统一空间整合文本与视觉数据
- 混合注意力计算将空间理解能力提升24%
"最令我们惊讶的是效率提升,"总监补充道,"仅需同类系统十分之一的训练数据就能实现顶尖效果。"

性能说明一切
测试数据令人印象深刻:在0.6B-8B参数范围内(完美适配边缘设备),NEO横扫行业基准:
- ImageNet:刷新准确率记录
- COCO:增强物体识别能力
- Kinetics-400:卓越视频理解表现
最惊人的是,这些成就均在移动硬件上以低于80毫秒延迟实现——实时应用绰绰有余且不损耗电量。
开源浪潮兴起
技术社区对商汤科技决定在GitHub公开模型权重(2B和9B版本)及训练脚本反响热烈。早期采用者称赞此举加速了紧凑型AI系统的创新进程。
发展路线图同样值得期待:
- 2026年Q1:计划发布3D感知版本
- 年中:视频理解升级版本
影响深远如行业分析师所言:"NEO不仅是更好的技术——它可能最终终结阻碍多模态AI发展多年的模块化方案。"
核心亮点:
- 🚀 减少90%数据需求:以极低训练要求实现顶尖性能
- ⚡ 闪电速度:低于80毫秒延迟使边缘部署切实可行
- 🔓 开放生态:完整权重与脚本已登陆GitHub
- 🔮 面向未来:3D与视频版本即将推出




