美团开源多模态AI模型登顶基准测试榜首欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

美团开源多模态AI模型登顶基准测试榜首

美团开源多模态AI模型创下新标杆

在AI行业的重要举措中，美团将其LongCat-Flash-Omni多模态大模型作为开源项目发布。该模型已在基准测试中超越多个闭源竞争对手，实现了罕见的"开源即SOTA"（State-of-the-Art）突破。

技术突破

LongCat-Flash-Omni模型的突出之处在于其精准处理复杂跨模态任务的能力。例如，当面对结合物理逻辑与空间推理的问题——如描述六边形空间中球的运动轨迹时——该模型能准确建模场景并用自然语言解释动力学原理。

此外，该模型在语音识别方面表现卓越，即使在高噪声环境中也能清晰辨音，并能从模糊图像或短视频片段中提取关键信息生成结构化答案。

创新架构

模型的成功源于其端到端统一架构。与传统多模态模型分别处理各模态不同，LongCat将文本、音频和视觉数据整合到单一表征空间中。这种设计实现了跨模态的无缝对齐与推理。

训练过程中，美团团队采用了渐进式多模态注入策略：先巩固语言基础，再逐步引入图像、语音和视频数据。该方法确保模型在保持强大语言能力的同时提升跨模态泛化性能。

实时性能

LongCat-Flash-Omni最令人印象深刻的特性是其近乎零延迟的交互。得益于Flash推理引擎和轻量化设计，该模型在消费级GPU上即可实现流畅对话。用户通过美团APP或网页版与模型交互时几乎感受不到延迟，达成自然的"所问即所得"体验。

可用性与影响

该模型现已在美团平台免费开放。开发者可通过Hugging Face获取权重参数，普通用户则可直接在应用内测试体验。此举既彰显了美团对其AI基础设施的信心，也表明其推动中国多模态AI生态发展的决心。

随着AI竞争焦点从单模态精度转向多模态协同，LongCat-Flash-Omni既是技术里程碑也是应用场景的重新定义者。它的出现预示着中国AI发展正进入创新新阶段。

核心要点：

开源即SOTA: LongCat-Flash-Omni在基准测试中超越闭源模型
统一架构: 将文本、音频和视觉数据整合到单一表征空间
实时交互: 在消费级硬件上实现近乎零延迟响应
渐进训练: 语言基础与渐进式多模态注入相结合
生态助推: 向开发者和用户免费开放促进广泛采用

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

百度文心ERNIE 5.0以大规模AI升级开创先河

百度发布了其迄今最先进的AI模型ERNIE 5.0，拥有惊人的2.4万亿参数。这款多模态强大模型可同时处理文本、图像、音频和视频，在40多项基准测试中超越竞争对手。通过汇集数百位跨领域专家的智慧，ERNIE 5.0将为个人用户和企业提供更智能的响应和更快的处理能力。

January 22, 2026

人工智能百度多模态AI

News

美团新AI模型像人类一样思考——现可免费试用

美团LongCat团队发布了其最新AI突破——LongCat-Flash-Thinking-2601模型。这款开源工具通过模拟人类思维过程，在复杂问题解决方面表现出色，数学测试获得满分，并跻身顶级编程AI之列。其独特之处在于创新的'重新思考模式'，能像人类一样分解问题。开发者现在可以免费使用这项技术，这可能会改变我们处理AI辅助任务的方式。

January 16, 2026

AI创新开源技术认知计算

News