美团新AI模型实现类人视觉与听觉能力欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

美团新AI模型实现类人视觉与听觉能力

美团开创统一感知AI新纪元

想象一个不仅能阅读文本，还能像人类一样自然观察图像和聆听语音的AI。这正是美团通过最新发布的LongCat-Next模型实现的突破，标志着机器理解世界方式的重大飞跃。

突破性技术解析

这项创新的核心是DiNA架构（离散原生自回归），它将所有类型的输入——无论是文字、图片还是声音——视为相同基础构建块的不同表现形式。其独特之处在于：

一体化系统：不再为不同媒体类型配备独立机制，LongCat-Next采用统一的处理方法
双重能力：相同的数学方法使模型既能解读信息又能无缝创作新内容
空间优化设计：其视觉压缩技术可将图像数据缩小28倍而不丢失关键细节，这对文档分析等任务尤为重要

超越专家预期的实际表现

LongCat-Next不仅在理论上令人印象深刻，在实际测试中也超越了专用模型：

文档理解：在从复杂版面和密集文本中提取信息方面胜过专用视觉模型
数学能力：在视觉数学解题测试中获得83.1的高分
语音模仿：可实时生成语音同时保持行业领先的文本理解能力（在C-Eval基准测试中得分86.80）

"最令人惊叹的是"，一位行业分析师指出，"它打破了将连续数据（如图像）转换为离散标记必然牺牲质量的假设。这些结果证明了相反的情况。"

对未来AI发展的意义

这项技术的真正价值在于创建了AI感知的通用语言。当机器能像处理文本一样自然地处理视觉和听觉信息时，我们将迎来：

更直观的人机交互
真正理解环境的智能助手
无需特殊编程即可解读复杂图表或示意图的系统

美团已公开LongCat-Next模型及其dNaViT标记器，为开发者提供了强大工具，可构建与物理世界交互更自然的AI系统。

核心亮点：

原生多模态处理：首个将视觉、语音和文本视为平等输入的AI
经证实的性能：在多项基准测试中超越专用模型
开放访问：技术现已开放供开发者构建应用

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

Stepfun全新Flash模型：极速AI触手可及

Stepfun刚刚推出Step 3.5 Flash系列，为所有Step Plan用户带来闪电般迅捷的AI响应。这款优化模型在保持卓越理解能力的同时，实现了毫秒级处理速度，彻底消除延迟问题。它特别适合移动设备使用和高频交互场景，在视觉分析和长文本处理方面表现尤为突出。开发者还将获得额外福利——开放的API接口让这款高速AI比以往更轻松地集成到各类应用中。

April 2, 2026

AI创新Stepfun实时处理

News

智谱AI新模型实现类人视觉与编程能力

中国AI企业智谱推出突破性模型GLM-5V-Turbo，融合视觉理解与编程能力。这不仅是普通聊天机器人——它能分析设计稿、解读复杂图表，并将草图转化为可运行代码。该模型20万token的上下文窗口可处理大型项目，同时在基准测试中保持顶尖性能。早期测试表明，它能通过简单截图生成完整前端项目，或将彻底改变开发者工作方式。

April 2, 2026

AI编程计算机视觉自动化开发

News

阿里巴巴全新AI图像模型带来超写实人脸及更多功能

阿里巴巴发布革命性AI模型Wan2.7-Image，彻底改变图像生成技术。告别千篇一律的'AI面孔'，该技术可实现像素级面部定制，包括骨骼结构和眼型等细节。同时掌握艺术化色彩迁移能力，并能生成具有复杂格式的印刷级文档。凭借交互式编辑功能和多主体一致性，该工具将从电商到娱乐等多个行业带来变革。

April 1, 2026

AI图像生成阿里巴巴数字内容创作

News

Qwen3.5-Omni以多模态掌控力开启AI新时代

通义实验室最新AI模型Qwen3.5-Omni以215项尖端成果树立新标杆。这款多模态全能选手无缝处理文本、图像、音频和视频，在音频理解方面超越Gemini-3.1Pro等竞争对手，同时保持顶级的视觉和文本处理能力。其创新的混合注意力MoE架构能以惊人精度处理长篇幅音视频内容。从实时语音控制到个性化声音克隆，Qwen3.5-Omni正在重新定义我们与技术的交互方式。

March 31, 2026

AI创新多模态AI语音技术

News

阿里巴巴Qwen3.5-Omni以突破性多模态能力超越Gemini

阿里巴巴发布了革命性的多模态AI模型Qwen3.5-Omni，树立了新的行业标杆。该模型在215项任务中表现卓越，能无缝处理图像、视频、音频和文本，在关键领域超越了谷歌的Gemini。其突出优势包括：支持113种语言的卓越语言能力、创新的'语音转代码'功能，以及比竞争对手低90%的定价。此次发布标志着中国在先进AI技术领域的领导地位日益增强。

March 31, 2026

AI创新多模态AI阿里巴巴科技