跳转到主要内容

美团开源多模态AI模型登顶基准测试榜首

美团开源多模态AI模型创下新标杆

在AI行业的重要举措中,美团将其LongCat-Flash-Omni多模态大模型作为开源项目发布。该模型已在基准测试中超越多个闭源竞争对手,实现了罕见的"开源即SOTA"(State-of-the-Art)突破。

技术突破

LongCat-Flash-Omni模型的突出之处在于其精准处理复杂跨模态任务的能力。例如,当面对结合物理逻辑与空间推理的问题——如描述六边形空间中球的运动轨迹时——该模型能准确建模场景并用自然语言解释动力学原理。

Image

此外,该模型在语音识别方面表现卓越,即使在高噪声环境中也能清晰辨音,并能从模糊图像或短视频片段中提取关键信息生成结构化答案。

创新架构

模型的成功源于其端到端统一架构。与传统多模态模型分别处理各模态不同,LongCat将文本、音频和视觉数据整合到单一表征空间中。这种设计实现了跨模态的无缝对齐与推理。

训练过程中,美团团队采用了渐进式多模态注入策略:先巩固语言基础,再逐步引入图像、语音和视频数据。该方法确保模型在保持强大语言能力的同时提升跨模态泛化性能。

实时性能

LongCat-Flash-Omni最令人印象深刻的特性是其近乎零延迟的交互。得益于Flash推理引擎和轻量化设计,该模型在消费级GPU上即可实现流畅对话。用户通过美团APP或网页版与模型交互时几乎感受不到延迟,达成自然的"所问即所得"体验。

Image

可用性与影响

该模型现已在美团平台免费开放。开发者可通过Hugging Face获取权重参数,普通用户则可直接在应用内测试体验。此举既彰显了美团对其AI基础设施的信心,也表明其推动中国多模态AI生态发展的决心。

随着AI竞争焦点从单模态精度转向多模态协同,LongCat-Flash-Omni既是技术里程碑也是应用场景的重新定义者。它的出现预示着中国AI发展正进入创新新阶段。

核心要点:

  • 开源即SOTA: LongCat-Flash-Omni在基准测试中超越闭源模型
  • 统一架构: 将文本、音频和视觉数据整合到单一表征空间
  • 实时交互: 在消费级硬件上实现近乎零延迟响应
  • 渐进训练: 语言基础与渐进式多模态注入相结合
  • 生态助推: 向开发者和用户免费开放促进广泛采用

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

百度文心ERNIE 5.0以大规模AI升级开创先河

百度发布了其迄今最先进的AI模型ERNIE 5.0,拥有惊人的2.4万亿参数。这款多模态强大模型可同时处理文本、图像、音频和视频,在40多项基准测试中超越竞争对手。通过汇集数百位跨领域专家的智慧,ERNIE 5.0将为个人用户和企业提供更智能的响应和更快的处理能力。

January 22, 2026
人工智能百度多模态AI
美团新AI模型像人类一样思考——现可免费试用
News

美团新AI模型像人类一样思考——现可免费试用

美团LongCat团队发布了其最新AI突破——LongCat-Flash-Thinking-2601模型。这款开源工具通过模拟人类思维过程,在复杂问题解决方面表现出色,数学测试获得满分,并跻身顶级编程AI之列。其独特之处在于创新的'重新思考模式',能像人类一样分解问题。开发者现在可以免费使用这项技术,这可能会改变我们处理AI辅助任务的方式。

January 16, 2026
AI创新开源技术认知计算
News

阿里云新工具包为日常设备注入AI智能

阿里云发布了一款颠覆性的开发工具包,将其强大的AI模型打包成硬件制造商可即插即用的解决方案。该工具包整合了语音、视觉和语言能力,帮助智能眼镜、机器人等设备自然地理解用户并与之互动。凭借从作业辅导到创意工具等预制功能,制造商现可在数周而非数月内为其产品添加类人智能。

January 8, 2026
Alibaba CloudAI硬件智能设备
Gemini领跑全球AI视觉竞赛,中国模型崭露头角
News

Gemini领跑全球AI视觉竞赛,中国模型崭露头角

谷歌Gemini-3-pro以83.64分的惊人成绩主导最新多模态视觉基准测试,而中国参赛者商汤科技和字节跳动展现出显著进步。此次评估揭示了AI视觉理解能力的格局变化,亮点包括Qwen3-vl成为首个突破70分开源模型,以及GPT-5.2意外落后的表现。

December 31, 2025
AI基准测试计算机视觉多模态AI
Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起
News

Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起

谷歌Gemini-3-Pro以83.64分的优异成绩主导最新多模态AI排行榜,而字节跳动和商汤的中国模型展现出强劲进步。此次评估揭示了科技巨头间的意外差距,OpenAI的GPT-5.2意外落后。值得注意的是,阿里巴巴的Qwen3-VL成为首个突破70分开源模型。

December 31, 2025
AI排行榜多模态AI计算机视觉
蚂蚁集团灵光AI现可即时构建应用程序
News

蚂蚁集团灵光AI现可即时构建应用程序

蚂蚁集团推出了基于浏览器的灵光AI助手版本,将强大的生产力工具带到用户指尖。其突出功能是什么?仅用30秒的自然语言指令即可创建功能性小程序。凭借无缝的移动同步能力和涵盖3D模型到音频处理的多模态功能,灵光旨在彻底改变我们的工作和学习方式。

December 9, 2025
AI助手无代码开发生产力工具