跳转到主要内容

LongCat-Flash-Omni发布:多模态技术取得突破性进展

美团发布具备革命性多模态能力的LongCat-Flash-Omni

2025年11月3日 - 继9月成功推出LongCat-Flash系列后,美团现已发布LongCat-Flash-Omni,这一开创性的多模态AI模型为文本、图像、视频和语音模态的实时交互树立了新标准。

技术创新

该模型基于美团的高效架构,具有多项关键进步:

  • Shortcut-Connected MoE (ScMoE)技术:尽管模型拥有5600亿参数(激活270亿),仍能实现高效处理
  • 集成多模态模块:将感知与语音重建结合在端到端设计中
  • 渐进式融合训练:解决不同模态间的数据分布挑战

Image

性能基准测试

独立评估证实LongCat-Flash-Omni实现了:

  • 在开源多模态基准测试中取得最先进(SOTA)结果
  • 切换模态时无性能下降("无智能衰减")
  • 优于行业标准的实时音视频交互延迟
  • 在以下方面表现优异:
    • 文本理解(较前代模型提升15%)
    • 图像识别(98.7%准确率)
    • 语音自然度(人类评分为4.8/5)

开发者应用

本次发布包含多种接入渠道:

  • 支持语音通话功能的官方应用(即将推出视频功能)
  • 支持文件上传和多模态查询的网页界面
  • Hugging FaceGitHub上的开源版本

关键要点

  • 首个结合离线理解与实时音视频交互的开源模型
  • 轻量级音频解码器实现自然语音重建
  • 早期融合训练防止模态干扰
  • 目前支持中英文,计划2026年第一季度增加更多语言

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

阿里云新工具包为日常设备注入AI智能

阿里云发布了一款颠覆性的开发工具包,将其强大的AI模型打包成硬件制造商可即插即用的解决方案。该工具包整合了语音、视觉和语言能力,帮助智能眼镜、机器人等设备自然地理解用户并与之互动。凭借从作业辅导到创意工具等预制功能,制造商现可在数周而非数月内为其产品添加类人智能。

January 8, 2026
Alibaba CloudAI硬件智能设备
Gemini领跑全球AI视觉竞赛,中国模型崭露头角
News

Gemini领跑全球AI视觉竞赛,中国模型崭露头角

谷歌Gemini-3-pro以83.64分的惊人成绩主导最新多模态视觉基准测试,而中国参赛者商汤科技和字节跳动展现出显著进步。此次评估揭示了AI视觉理解能力的格局变化,亮点包括Qwen3-vl成为首个突破70分开源模型,以及GPT-5.2意外落后的表现。

December 31, 2025
AI基准测试计算机视觉多模态AI
Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起
News

Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起

谷歌Gemini-3-Pro以83.64分的优异成绩主导最新多模态AI排行榜,而字节跳动和商汤的中国模型展现出强劲进步。此次评估揭示了科技巨头间的意外差距,OpenAI的GPT-5.2意外落后。值得注意的是,阿里巴巴的Qwen3-VL成为首个突破70分开源模型。

December 31, 2025
AI排行榜多模态AI计算机视觉
蚂蚁集团灵光AI现可即时构建应用程序
News

蚂蚁集团灵光AI现可即时构建应用程序

蚂蚁集团推出了基于浏览器的灵光AI助手版本,将强大的生产力工具带到用户指尖。其突出功能是什么?仅用30秒的自然语言指令即可创建功能性小程序。凭借无缝的移动同步能力和涵盖3D模型到音频处理的多模态功能,灵光旨在彻底改变我们的工作和学习方式。

December 9, 2025
AI助手无代码开发生产力工具
Kling AI全新角色库为AI生成视频带来一致性
News

Kling AI全新角色库为AI生成视频带来一致性

快手的Kling AI推出了突破性的'角色库'功能,赋予其O1多模态视频模型长期记忆能力。该系统允许用户上传单张角色图像,即可自动生成多角度、多光照条件下的统一形象。凭借宣称96%的一致性率,这项创新有望为电影制作人、电商企业和虚拟内容创作者彻底改变视频创作方式。

December 8, 2025
AI视频生成角色一致性多模态AI
News

Kling AI 2.6携颠覆性音频功能震撼登场

快手的Kling AI发布了2.6版本,标志着AI生成内容领域的重大飞跃。此次更新在现有视频工具基础上引入了原生音频功能,打造无缝的多模态体验。凭借更高的效率和质量指标,该版本有望彻底改变媒体行业专业人士的创意工作流程。

December 3, 2025
AI视频生成多模态AI创意科技