跳转到主要内容

LongCat-Flash-Omni发布:多模态技术取得突破性进展

美团发布具备革命性多模态能力的LongCat-Flash-Omni

2025年11月3日 - 继9月成功推出LongCat-Flash系列后,美团现已发布LongCat-Flash-Omni,这一开创性的多模态AI模型为文本、图像、视频和语音模态的实时交互树立了新标准。

技术创新

该模型基于美团的高效架构,具有多项关键进步:

  • Shortcut-Connected MoE (ScMoE)技术:尽管模型拥有5600亿参数(激活270亿),仍能实现高效处理
  • 集成多模态模块:将感知与语音重建结合在端到端设计中
  • 渐进式融合训练:解决不同模态间的数据分布挑战

Image

性能基准测试

独立评估证实LongCat-Flash-Omni实现了:

  • 在开源多模态基准测试中取得最先进(SOTA)结果
  • 切换模态时无性能下降("无智能衰减")
  • 优于行业标准的实时音视频交互延迟
  • 在以下方面表现优异:
    • 文本理解(较前代模型提升15%)
    • 图像识别(98.7%准确率)
    • 语音自然度(人类评分为4.8/5)

开发者应用

本次发布包含多种接入渠道:

  • 支持语音通话功能的官方应用(即将推出视频功能)
  • 支持文件上传和多模态查询的网页界面
  • Hugging FaceGitHub上的开源版本

关键要点

  • 首个结合离线理解与实时音视频交互的开源模型
  • 轻量级音频解码器实现自然语音重建
  • 早期融合训练防止模态干扰
  • 目前支持中英文,计划2026年第一季度增加更多语言

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

神秘AI模型现身OpenRouter,具备万亿参数级威力
News

神秘AI模型现身OpenRouter,具备万亿参数级威力

OpenRouter悄然推出两款神秘AI模型——Hunter Alpha和Healer Alpha,引发广泛猜测。Hunter Alpha拥有惊人的万亿参数,擅长复杂推理;而Healer Alpha则在多模态理解方面表现突出。两者目前均以匿名方式运营并提供免费访问权限,其来源引发诸多有趣理论。

March 12, 2026
AI模型OpenRouter多模态AI
阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力
News

阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力

阿里巴巴通义千问团队发布了一系列轻量级AI模型,这些小巧的模型蕴含着令人印象深刻的能力。新模型参数规模从0.8B到9B不等,具备多模态处理能力,同时针对智能手机和物联网设备等边缘设备进行了优化。最小型号提供闪电般的响应速度,而较大型号在能力上可与更庞大的系统媲美——且资源消耗更低。这些现已登陆主流平台的模型,或将彻底改变我们在日常设备中部署AI的方式。

March 3, 2026
边缘AI阿里巴巴通义千问轻量级模型
谷歌Flow迎来重大升级:集成Nano Banana模型与Veo
News

谷歌Flow迎来重大升级:集成Nano Banana模型与Veo

谷歌宣布对其AI创意工作室Flow进行重大更新,将实验性项目Whisk和ImageFX整合为统一平台。亮点是全新的Nano Banana图像模型,可与Veo视频工作流无缝衔接。凭借增强的编辑工具和媒体管理功能,谷歌旨在简化创意生产流程,同时强化对OpenAI等竞争对手的竞争优势。

February 26, 2026
AI创造力谷歌更新多模态AI
News

Xmax AI的X1模型实现虚拟角色与现实实时交融

前华为天才少年创立的Xmax AI公司发布了突破性的X1模型——这项虚实融合视频技术具有划时代意义。与传统AI视频工具不同,X1通过智能手机摄像头实现与虚拟角色的实时互动,能以毫秒级精度响应用户动作。该创新将静态图像转化为物理空间中的动态参与者,或将彻底改变我们创作和体验数字内容的方式。

February 10, 2026
AI视频虚拟现实实时交互
Kling AI 3.0震撼发布:触手可及的电影级魔法
News

Kling AI 3.0震撼发布:触手可及的电影级魔法

Kling AI最新3.0版本通过智能分镜和长达15秒的片段扩展彻底改变视频创作。本次更新引入电影级光照技术,呈现惊艳的4K画质,并简化多图像风格融合功能。目前黑金会员可优先体验,这些工具将助力大众轻松实现专业级叙事效果。

February 5, 2026
AI视频生成创意工具数字叙事
News

腾讯AI布局再添强援:顶尖科学家田雨鹏加入混元团队

腾讯在人工智能人才争夺战中再下一城,聘请田雨鹏担任混元多模态团队首席研究科学家。这位清华大学博士、前Sea AI Lab研究员将专注于提升腾讯旗舰AI模型的强化学习能力。此举彰显了腾讯持续领跑多模态AI前沿研发的决心。

February 3, 2026
腾讯人工智能研究强化学习