跳转到主要内容

美团LongCat-Next:新一代能像人类一样看、听、理解的AI

美团推出统一AI模型实现技术突破

美团推出的LongCat-Next模型能像处理文本一样自然地解析视觉与听觉信息,这一举措或将重新定义人工智能与世界交互的方式。这不仅是渐进式改进,更是AI同时理解多种数据类型的根本性变革。

工作原理:透过AI之眼观察世界

其核心DiNA(离散原生自回归)架构消除了不同数据类型间的人为壁垒:

  • 一体化的处理系统:文本、图像和音频通过相同参数与机制的流程进行处理
  • 理解与创造的统一:同一数学框架既处理理解任务(如阅读文本)也处理生成任务(如创建图像)
  • 智能压缩技术:dNaViT视觉分词器可将高分辨率图像压缩28倍而不丢失关键细节,完美适用于复杂文档或财务报表分析

"这项技术的特别之处在于",一位熟悉该项目的美团工程师解释:"我们并非简单地为语言模型添加视觉功能。从底层设计开始,LongCat-Next就以统一方式处理所有信息。"

令专家惊叹的实际表现

该模型已展现出令人瞩目的能力:

  • 在密集文本解析任务上超越专业文档分析工具
  • 在视觉数学问题(MathVista)中获得83.1的高分,展现出多模态系统中罕见的逻辑推理能力
  • 在保持顶尖语言理解能力的同时,还可生成具有可定制音色的语音

最令人惊讶的是,这些成果挑战了长期存在的认知——将连续数据(如图像)转换为离散标记必然导致质量下降。LongCat-Next证明通过这种方法不仅能保留信息,甚至还能增强信息。

对AI未来的重要意义

其影响远超出技术指标范畴。多年来,AI系统始终以语言为主要思维模式,难以真正整合其他感官。LongCat-Next预示的未来图景包括:

  • 机器人可以像处理指令一样自然地导航空间
  • 医疗AI能更直观地关联扫描影像与患者病史
  • 创意工具可实现视觉与语言概念的无缝融合

美团已开源该模型及其分词器,邀请开发者共同探索这一新方法。正如一位研究者所言:"我们不仅在构建更好的AI工具——更在创造能像人类一样感知信息的系统。"

关键要点:

  • 统一处理:首个通过相同机制原生处理文本、图像和语音的模型
  • 性能验证:在文档分析和视觉推理任务中超越专用模型
  • 开放访问:模型与分词器均可供开发者构建应用
  • 未来潜力:有望推动跨行业实现更自然的人机交互

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Stepfun全新Flash模型:极速AI触手可及
News

Stepfun全新Flash模型:极速AI触手可及

Stepfun刚刚推出Step 3.5 Flash系列,为所有Step Plan用户带来闪电般迅捷的AI响应。这款优化模型在保持卓越理解能力的同时,实现了毫秒级处理速度,彻底消除延迟问题。它特别适合移动设备使用和高频交互场景,在视觉分析和长文本处理方面表现尤为突出。开发者还将获得额外福利——开放的API接口让这款高速AI比以往更轻松地集成到各类应用中。

April 2, 2026
AI创新Stepfun实时处理
News

智谱AI新模型实现类人视觉与编程能力

中国AI企业智谱推出突破性模型GLM-5V-Turbo,融合视觉理解与编程能力。这不仅是普通聊天机器人——它能分析设计稿、解读复杂图表,并将草图转化为可运行代码。该模型20万token的上下文窗口可处理大型项目,同时在基准测试中保持顶尖性能。早期测试表明,它能通过简单截图生成完整前端项目,或将彻底改变开发者工作方式。

April 2, 2026
AI编程计算机视觉自动化开发
阿里巴巴全新AI图像模型带来超写实人脸及更多功能
News

阿里巴巴全新AI图像模型带来超写实人脸及更多功能

阿里巴巴发布革命性AI模型Wan2.7-Image,彻底改变图像生成技术。告别千篇一律的'AI面孔',该技术可实现像素级面部定制,包括骨骼结构和眼型等细节。同时掌握艺术化色彩迁移能力,并能生成具有复杂格式的印刷级文档。凭借交互式编辑功能和多主体一致性,该工具将从电商到娱乐等多个行业带来变革。

April 1, 2026
AI图像生成阿里巴巴数字内容创作
Qwen3.5-Omni以多模态掌控力开启AI新时代
News

Qwen3.5-Omni以多模态掌控力开启AI新时代

通义实验室最新AI模型Qwen3.5-Omni以215项尖端成果树立新标杆。这款多模态全能选手无缝处理文本、图像、音频和视频,在音频理解方面超越Gemini-3.1Pro等竞争对手,同时保持顶级的视觉和文本处理能力。其创新的混合注意力MoE架构能以惊人精度处理长篇幅音视频内容。从实时语音控制到个性化声音克隆,Qwen3.5-Omni正在重新定义我们与技术的交互方式。

March 31, 2026
AI创新多模态AI语音技术
阿里巴巴Qwen3.5-Omni以突破性多模态能力超越Gemini
News

阿里巴巴Qwen3.5-Omni以突破性多模态能力超越Gemini

阿里巴巴发布了革命性的多模态AI模型Qwen3.5-Omni,树立了新的行业标杆。该模型在215项任务中表现卓越,能无缝处理图像、视频、音频和文本,在关键领域超越了谷歌的Gemini。其突出优势包括:支持113种语言的卓越语言能力、创新的'语音转代码'功能,以及比竞争对手低90%的定价。此次发布标志着中国在先进AI技术领域的领导地位日益增强。

March 31, 2026
AI创新多模态AI阿里巴巴科技
联想天禧AI爪开启公测——亲身体验云端驱动科技
News

联想天禧AI爪开启公测——亲身体验云端驱动科技

联想已启动其创新产品天禧AI爪的公测,为用户提供免费体验云端大模型技术的机会。这款混合边缘云系统能在设备关闭时仍保持任务运行,承诺带来无缝的生产力体验。感兴趣的参与者可通过简单流程申请体验这款融合本地计算与云端资源的尖端工具。

March 31, 2026
AI创新云计算生产力工具