跳转到主要内容

商汤科技新AI模型在空间智能领域超越GPT-5

商汤科技在空间智能AI领域取得突破性进展

中国科技巨头商汤科技推出的SenseNova-SI系列模型正引发行业震动,这一可能重塑人工智能与物理空间交互方式的开源模型不仅比肩全球领先产品,更创造了新的性能标杆。

Image

弥补空间认知短板

尽管当前AI模型擅长语言任务和逻辑推理,但在理解三维环境的空间认知能力上始终存在局限。"我们意识到这是根本性缺陷",项目首席研究员李伟博士表示,"真正的具身智能需要像人类一样理解空间"。

解决方案是采用系统性训练方法,通过专为增强空间认知设计的海量数据集进行训练。旗舰产品SenseNova-SI-8B在空间智能基准测试中获得60.99的平均分,表现超越Qwen3-VL-8B等开源模型及OpenAI的GPT-5等商业系统。

Image

超越数字的意义

此次突破的非凡之处不仅在于性能指标的优势,更在于其实现方式。该技术聚焦空间智能六大核心维度:

  • 测量:精确的距离与尺寸估算
  • 重建:构建环境心理模型
  • 关系:理解物体的空间交互方式
  • 视角:从不同角度解析场景
  • 形变:识别变化或扭曲的空间
  • 推理:对空间布局得出逻辑结论

其应用前景远超学术基准测试:自动驾驶车辆可更安全地穿行复杂城市环境;机器人系统能以类人精度操控物体;甚至增强现实应用也将获得显著提升。

建立新标准体系

同步推出的EASI(进化式空间智能评估)开放平台旨在建立统一的AI空间理解测评标准。

商汤通过GitHub(https://github.com/EvolvingLMMs-Lab/EASI)公开了模型及评估工具,展现出通过集体协作而非技术垄断推动领域发展的决心。

The rapid progress suggests we may be approaching a tipping point where AI systems can understand and interact with physical spaces nearly as well as they process language - potentially opening doors to applications we've only begun to imagine.

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

美团LongCat-Next模糊了视觉、听觉与理解的界限

美团研究团队发布突破性AI模型LongCat-Next,将视觉、语音和文本作为平等信息处理。与传统系统以语言为核心不同,该技术将所有感官输入转换为AI原生理解的通用'语言'。早期测试展现出惊人能力——从比专业工具更精准阅读复杂文档,到用类人推理解决视觉数学问题。开源发布或将加速开发能更自然与现实交互的AI。

April 3, 2026
AI创新多模态学习计算机视觉
Stepfun全新Flash模型:极速AI触手可及
News

Stepfun全新Flash模型:极速AI触手可及

Stepfun刚刚推出Step 3.5 Flash系列,为所有Step Plan用户带来闪电般迅捷的AI响应。这款优化模型在保持卓越理解能力的同时,实现了毫秒级处理速度,彻底消除延迟问题。它特别适合移动设备使用和高频交互场景,在视觉分析和长文本处理方面表现尤为突出。开发者还将获得额外福利——开放的API接口让这款高速AI比以往更轻松地集成到各类应用中。

April 2, 2026
AI创新Stepfun实时处理
News

智谱AI新模型实现类人视觉与编程能力

中国AI企业智谱推出突破性模型GLM-5V-Turbo,融合视觉理解与编程能力。这不仅是普通聊天机器人——它能分析设计稿、解读复杂图表,并将草图转化为可运行代码。该模型20万token的上下文窗口可处理大型项目,同时在基准测试中保持顶尖性能。早期测试表明,它能通过简单截图生成完整前端项目,或将彻底改变开发者工作方式。

April 2, 2026
AI编程计算机视觉自动化开发
阿里巴巴全新AI图像模型带来超写实人脸及更多功能
News

阿里巴巴全新AI图像模型带来超写实人脸及更多功能

阿里巴巴发布革命性AI模型Wan2.7-Image,彻底改变图像生成技术。告别千篇一律的'AI面孔',该技术可实现像素级面部定制,包括骨骼结构和眼型等细节。同时掌握艺术化色彩迁移能力,并能生成具有复杂格式的印刷级文档。凭借交互式编辑功能和多主体一致性,该工具将从电商到娱乐等多个行业带来变革。

April 1, 2026
AI图像生成阿里巴巴数字内容创作
Qwen3.5-Omni以多模态掌控力开启AI新时代
News

Qwen3.5-Omni以多模态掌控力开启AI新时代

通义实验室最新AI模型Qwen3.5-Omni以215项尖端成果树立新标杆。这款多模态全能选手无缝处理文本、图像、音频和视频,在音频理解方面超越Gemini-3.1Pro等竞争对手,同时保持顶级的视觉和文本处理能力。其创新的混合注意力MoE架构能以惊人精度处理长篇幅音视频内容。从实时语音控制到个性化声音克隆,Qwen3.5-Omni正在重新定义我们与技术的交互方式。

March 31, 2026
AI创新多模态AI语音技术
阿里巴巴Qwen3.5-Omni以突破性多模态能力超越Gemini
News

阿里巴巴Qwen3.5-Omni以突破性多模态能力超越Gemini

阿里巴巴发布了革命性的多模态AI模型Qwen3.5-Omni,树立了新的行业标杆。该模型在215项任务中表现卓越,能无缝处理图像、视频、音频和文本,在关键领域超越了谷歌的Gemini。其突出优势包括:支持113种语言的卓越语言能力、创新的'语音转代码'功能,以及比竞争对手低90%的定价。此次发布标志着中国在先进AI技术领域的领导地位日益增强。

March 31, 2026
AI创新多模态AI阿里巴巴科技