美团LongCat-Next模糊了视觉、听觉与理解的界限欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

美团LongCat-Next模糊了视觉、听觉与理解的界限

美团AI突破：一统天下的单一模型

美团推出的LongCat-Next可能重塑AI与世界交互的方式——这个模型不仅能处理不同类型的信息，更能以本质上相似的方式感知它们。想象教孩子阅读时告诉他们：文字、图片和声音只是同一核心概念的不同表达形式。这正是美团工程师在人工智能领域实现的突破。

DiNA架构的革新：同一种语言

这项创新的核心是DiNA（离散原生自回归）架构，可视为AI感知输入的通用翻译器：

真正的多模态处理：无论是分析电子表格、解读语音备忘录还是阅读手写笔记，LongCat-Next都使用相同的神经通路
双向理解：该模型不仅能识别图像，还能用处理文本的相同"思维过程"生成图像
高效学习：通过先进压缩技术，它在处理海量视觉数据时仍能保留关键细节

"最令人兴奋的是"，一位不愿具名的美团研究员解释，"看到某个领域的技能会自发提升其他领域的表现。就像学钢琴能提高数学能力——只不过这里是人工实现的。"

实践验证理论

实际性能证明了其价值：

在MathVista（视觉数学题）测试中获得83.1分，超越许多人类受试者
在保持顶尖语言能力的同时新增视觉与听觉功能
特别擅长解读财务报告等复杂文档

最惊人的是，它打破了专业化与通用性不可兼得的传统认知。传统观点认为AI系统必须在"全能通才"与"专项专家"间抉择——而LongCat-Next似乎颠覆了这一规则。

超越科技圈的意义

对企业和开发者而言影响深远：

客服机器人可同步理解语音投诉与附带图片
医疗AI能更有效关联化验结果、医嘱和医学影像
教育工具可根据学生对视觉或文字反馈的偏好调整讲解方式

美团已开源该模型及其视觉处理工具（dNaViT tokenizer），邀请开发者亲身体验这些可能性。虽然尚处早期阶段，这种方法预示着未来AI系统将以更接近人类的方式感知世界——不是将文字、图像和声音视为独立信息流，而是作为有机整体。

关键要点：

原生多模态处理使AI能互换处理文本/图像/语音
DiNA架构实现跨数据类型统一建模
性能基准测试显示其优于专用单模态系统
开源发布推动该方法的广泛实验

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

印度AI初创公司Sarvam获3.5亿美元融资，亚马逊与英伟达参投

新兴印度人工智能公司Sarvam AI宣布获得由Bessemer Venture Partners领投的3.5亿美元融资。科技巨头亚马逊与英伟达作为主要投资者加入，使这家初创公司估值达到15-15.5亿美元。这家总部位于金奈的企业专注于为印度多语言环境定制语音优先AI系统，标志着本土AI发展的重大进展。

April 3, 2026

人工智能科技投资印度初创企业

News