跳转到主要内容

美团推出LongCat-Next AI,实现类人类视听能力

美团突破性推出类人类思维的多模态AI

在可能重新定义人工智能与世界交互方式的重大进展中,美团推出了LongCat-Next——一个像人类处理语言那样自然地处理视觉、声音和文本的模型。这项于4月3日发布的技术,标志着与当前通常分开处理不同类型信息的AI系统的显著不同。

突破背后的技术核心

LongCat-Next的核心是创新的DiNA(离散原生自回归)架构。可以将其视为赋予AI所有感官的通用翻译器:

  • 全能大脑:无论是阅读文本、分析图像还是理解语音,该模型都使用相同的神经通路,而非独立的专用模块。
  • 理解即创造:让它理解段落的同一过程也能生成逼真图像——这种对称性提高了学习效率。
  • 像素级压缩:通过名为dNaViT视觉标记器的先进技术,它能将高分辨率图像压缩28倍而不丢失关键细节(如财务报告中的文字)。

"这不只是渐进式改进,"项目首席研究员张伟博士解释道,"我们通过赋予AI类似人类直觉的能力,从根本上改变了它感知现实的方式。"

性能实测表现

早期基准测试表明LongCat-Next不仅在理论上令人印象深刻——在实际应用中也表现出色:

  • 在密集文本理解上超越专业文档分析模型
  • 视觉数学问题解决(MathVista)获得83.1的高分
  • 在保持顶尖语言能力(C-Eval 86.80)的同时新增实时语音生成功能

这些结果挑战了AI开发中长期存在的假设。"我们证明了将信息分解为离散单元并不意味着丢失丰富性,"张伟指出,"相反,它能让不同模态相互增强。"

为何这是颠覆性突破

当前大多数AI系统本质上是带有感官附加功能的语言模型。LongCat-Next首次成功将感知能力直接构建到AI基础中:

  1. 与机器人和虚拟助手的交互更自然
  2. 更好理解复杂视觉数据(如医学扫描或工程图表)
  3. 有望实现真正统一的AI系统,而非专业工具集合

团队已开源该模型及其视觉标记器,邀请开发者探索从教育到工业自动化的各种应用场景。

关键要点:

  • 原生多模态:通过统一架构处理所有输入类型
  • 小巧而强大:先进压缩技术在保持小体积的同时不丢失细节
  • 开源可用性:降低实际应用门槛
  • 性能领先者:在多项基准测试中超越专业模型

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

微软全新AI转录工具树立准确度新标杆
News

微软全新AI转录工具树立准确度新标杆

微软发布MAI-Transcribe-1语音转文本模型,在25种语言中创下3.9%的词错率记录。这款经济实惠的解决方案(每小时0.36美元)在多语言场景中表现卓越,处理速度优于OpenAI和谷歌等竞争对手。此次发布巩固了微软在实用商业AI应用领域的领先地位。

April 3, 2026
微软人工智能语音识别转录技术
Stepfun全新Flash模型:极速AI触手可及
News

Stepfun全新Flash模型:极速AI触手可及

Stepfun刚刚推出Step 3.5 Flash系列,为所有Step Plan用户带来闪电般迅捷的AI响应。这款优化模型在保持卓越理解能力的同时,实现了毫秒级处理速度,彻底消除延迟问题。它特别适合移动设备使用和高频交互场景,在视觉分析和长文本处理方面表现尤为突出。开发者还将获得额外福利——开放的API接口让这款高速AI比以往更轻松地集成到各类应用中。

April 2, 2026
AI创新Stepfun实时处理
News

智谱AI新模型实现类人视觉与编程能力

中国AI企业智谱推出突破性模型GLM-5V-Turbo,融合视觉理解与编程能力。这不仅是普通聊天机器人——它能分析设计稿、解读复杂图表,并将草图转化为可运行代码。该模型20万token的上下文窗口可处理大型项目,同时在基准测试中保持顶尖性能。早期测试表明,它能通过简单截图生成完整前端项目,或将彻底改变开发者工作方式。

April 2, 2026
AI编程计算机视觉自动化开发
阿里巴巴全新AI图像模型带来超写实人脸及更多功能
News

阿里巴巴全新AI图像模型带来超写实人脸及更多功能

阿里巴巴发布革命性AI模型Wan2.7-Image,彻底改变图像生成技术。告别千篇一律的'AI面孔',该技术可实现像素级面部定制,包括骨骼结构和眼型等细节。同时掌握艺术化色彩迁移能力,并能生成具有复杂格式的印刷级文档。凭借交互式编辑功能和多主体一致性,该工具将从电商到娱乐等多个行业带来变革。

April 1, 2026
AI图像生成阿里巴巴数字内容创作
Qwen3.5-Omni以多模态掌控力开启AI新时代
News

Qwen3.5-Omni以多模态掌控力开启AI新时代

通义实验室最新AI模型Qwen3.5-Omni以215项尖端成果树立新标杆。这款多模态全能选手无缝处理文本、图像、音频和视频,在音频理解方面超越Gemini-3.1Pro等竞争对手,同时保持顶级的视觉和文本处理能力。其创新的混合注意力MoE架构能以惊人精度处理长篇幅音视频内容。从实时语音控制到个性化声音克隆,Qwen3.5-Omni正在重新定义我们与技术的交互方式。

March 31, 2026
AI创新多模态AI语音技术
阿里巴巴Qwen3.5-Omni以突破性多模态能力超越Gemini
News

阿里巴巴Qwen3.5-Omni以突破性多模态能力超越Gemini

阿里巴巴发布了革命性的多模态AI模型Qwen3.5-Omni,树立了新的行业标杆。该模型在215项任务中表现卓越,能无缝处理图像、视频、音频和文本,在关键领域超越了谷歌的Gemini。其突出优势包括:支持113种语言的卓越语言能力、创新的'语音转代码'功能,以及比竞争对手低90%的定价。此次发布标志着中国在先进AI技术领域的领导地位日益增强。

March 31, 2026
AI创新多模态AI阿里巴巴科技