美团发布新型AI模型,具备类人视觉、听觉与理解能力
美团通过统一感知AI实现技术突破
在人工智能领域的重大飞跃中,美团推出的LongCat-Next从根本上改变了机器处理不同类型信息的方式。告别文本、图像和音频分离的系统;这项创新从一开始就将它们视为平等。
突破性技术解析
其核心是DiNA(离散原生自回归)架构,工作原理如同感官数据的通用翻译器:
- 一统江湖的系统:无论是分析财报还是解读家庭照片,LongCat-Next都采用相同的处理方法
- 理解即创造:帮助它阅读文本的机制同样能生成逼真图像
- 太空级压缩:其视觉处理可将图像压缩28倍而不丢失关键细节——完美适用于文档数字化等任务
令人瞩目的实际表现
该模型不仅在理论上令人印象深刻——其成果更对专业单用途系统发起挑战:
- 在阅读复杂财务报表方面超越专用文档分析工具
- 在复杂视觉逻辑测试(MathVista)中获得83.1的高分
- 保持顶尖语言能力的同时新增语音生成功能
"最让我们兴奋的是,"美团工程师解释道,"看到模型能自然地建立不同类型信息间的关联——就像人类边看图解边听解释时的思维过程。"
对未来技术的意义
这项突破预示着我们将迎来这样的未来:AI能够:
- 真正将多媒体内容作为有机整体来理解
- 开发更直观的数字系统交互方式
- 弥合虚拟智能与物理世界应用间的鸿沟
该公司已开源模型及其压缩技术,邀请全球开发者在此基础上前行。
关键要点:
- 原生多模态处理消除了对独立图像/文本/音频系统的需求
- DiNA架构为所有数据类型提供统一框架
- 经证实的性能在多项基准测试中超越专业模型
- 开源发布加速物理世界AI应用的发展




