跳转到主要内容

美团LongCat-Next模糊了视觉、听觉与理解的界限

美团新AI像人类一样感知世界

想象一个人工智能不仅能处理文本,还能以同样自然的流畅度解读图像和声音。这正是LongCat-Next的承诺——美团最新发布的多模态模型,打破了不同类型信息间的人为壁垒。

突破性技术解析

其核心是DiNA(离散原生自回归)架构——可视为赋予AI处理感官输入的通用翻译器。独特之处在于:

  • 全能单脑系统:无论是分析照片、转录语音还是阅读文本,LongCat-Next使用相同的神经通路而非切换专用模块
  • 理解即创造:帮助它解读金融图表的机制同样能生成新图像——这种对称性连开发者都感到惊讶
  • 像素级压缩:通过名为dNaViT的创新技术,模型可将视觉数据压缩28倍而不丢失关键细节(如小号字体或表格数字)

令人瞩目的实际表现

早期基准测试表明这不仅是理论突破:

  • 在复杂财务报告分析上超越专业文档工具
  • 视觉数学问题(MathVista)得分83.1,展现罕见逻辑推理能力
  • 保持顶尖语言能力的同时新增实时语音生成功能

"我们正在超越以语言为中心的AI",美团研究员解释道:"当算法将视觉与听觉视为原生能力而非附加功能时,一切都会改变"

实验室之外的意义

其影响远超技术指标。通过赋予AI类似人类的统一信息处理方式,我们距离以下场景更近一步:

  • 视频会议中即时解析复杂图表
  • 生成结合口头说明与辅助视图的报告
  • 为机器人开发真正的情境感知能力

美团已开源模型及其视觉分词器,邀请开发者体验这个紧凑而强大的架构。正如早期测试者所言:"虽不完美,但终于像在教机器体验世界而非仅仅处理信息"

核心要点:

  • 原生多模态:将图像、语音和文本作为平等输入处理
  • DiNA架构:统一神经框架消除模态切换
  • 惊人多功能性:在理解与生成任务上均表现卓越
  • 开放访问:模型与工具可供社区开发使用

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

你的眼镜现在能召唤单车了:蚂蚁GPASS带来语音操控新体验
News

你的眼镜现在能召唤单车了:蚂蚁GPASS带来语音操控新体验

蚂蚁集团的GPASS技术正将智能眼镜变为个人助手。最新整合功能让用户通过简单语音指令即可解锁共享单车和缴纳停车费——无需手机。通过将语音识别与支付宝支付系统结合,Qwen AI眼镜实现了真正的无接触城市出行。这是可穿戴设备预见日常需求的又一进步。

April 3, 2026
可穿戴技术城市出行语音识别
谷歌Gemma 4以Apache 2.0协议开源,媲美顶级AI模型
News

谷歌Gemma 4以Apache 2.0协议开源,媲美顶级AI模型

谷歌DeepMind发布最新开源AI模型系列Gemma 4,距离前代产品发布正好一年。这家科技巨头不仅宣称性能提升,更通过改用Apache 2.0许可证做出颠覆性举措,允许开发者自由进行商业使用和修改。Gemma 4包含从移动端到工作站的四款专用版本,在编程和数学任务上表现尤为突出,同时支持140多种语言。

April 3, 2026
Gemma4开源AIGoogleDeepMind
谷歌Gemma4实现真正开源:这对开发者意味着什么
News

谷歌Gemma4实现真正开源:这对开发者意味着什么

谷歌对其最新AI模型Gemma4采取了大胆举措,采用Apache 2.0许可证为开发者提供前所未有的自由。这标志着其从以往限制性政策的重大转变,允许商业使用和修改而无需担心法律障碍。新模型不仅性能提升,还能与现有开发者工具无缝集成,有望为小型公司在AI竞赛中创造公平竞争环境。

April 3, 2026
Gemma4开源AI谷歌
微软全新AI转录工具树立准确度新标杆
News

微软全新AI转录工具树立准确度新标杆

微软发布MAI-Transcribe-1语音转文本模型,在25种语言中创下3.9%的词错率记录。这款经济实惠的解决方案(每小时0.36美元)在多语言场景中表现卓越,处理速度优于OpenAI和谷歌等竞争对手。此次发布巩固了微软在实用商业AI应用领域的领先地位。

April 3, 2026
微软人工智能语音识别转录技术
Stepfun全新Flash模型:极速AI触手可及
News

Stepfun全新Flash模型:极速AI触手可及

Stepfun刚刚推出Step 3.5 Flash系列,为所有Step Plan用户带来闪电般迅捷的AI响应。这款优化模型在保持卓越理解能力的同时,实现了毫秒级处理速度,彻底消除延迟问题。它特别适合移动设备使用和高频交互场景,在视觉分析和长文本处理方面表现尤为突出。开发者还将获得额外福利——开放的API接口让这款高速AI比以往更轻松地集成到各类应用中。

April 2, 2026
AI创新Stepfun实时处理
News

智谱AI新模型实现类人视觉与编程能力

中国AI企业智谱推出突破性模型GLM-5V-Turbo,融合视觉理解与编程能力。这不仅是普通聊天机器人——它能分析设计稿、解读复杂图表,并将草图转化为可运行代码。该模型20万token的上下文窗口可处理大型项目,同时在基准测试中保持顶尖性能。早期测试表明,它能通过简单截图生成完整前端项目,或将彻底改变开发者工作方式。

April 2, 2026
AI编程计算机视觉自动化开发