跳转到主要内容

阿里巴巴Qwen3-Omni模型即将发布并集成Hugging Face

阿里巴巴新一代多模态AI即将开源

阿里云Qwen团队通过即将发布的Qwen3-Omni推进了其跨模态AI技术,该模型目前正通过最近提交的拉取请求(PR)与Hugging Face的Transformers库进行集成。这一进展标志着全球开发者将更容易获取先进的多模态AI技术。

Qwen3-Omni的技术进步

第三代模型在前代成功基础上进行了增强,具备处理多种输入模式的端到端架构,包括:

  • 文本文档
  • 视觉内容(图像/视频)
  • 音频流

Image

系统采用独特的Thinker-Talker双轨设计

  1. Thinker模块:处理并解释多模态输入,生成高级语义表示
  2. Talker模块:将处理后的信息实时转换为自然语音输出

该架构在训练和推理阶段都能实现高效的流式处理,特别适合实时交互应用,如虚拟助手或客服自动化。

面向边缘设备的部署优化

Qwen3-Omni开发的一个关键重点是提升在资源受限设备上的性能。团队已实施多项优化:

  • 通过架构改进降低计算开销
  • 增强边缘部署场景下的内存效率
  • 改进连续输入处理的流式能力

向Hugging Face的提交表明阿里云致力于在AI社区开展开源合作。开发者很快就能通过流行的Transformers库生态系统利用这项技术。

关键点:

  • 开源里程碑:PR提交预示将通过Hugging Face公开可用
  • 多模态能力:统一处理文本、视觉和听觉数据流
  • 边缘优化:专为资源有限设备的高效部署设计
  • 实时性能:Thinker-Talker架构实现低延迟交互
  • 代际改进:第三代建立在成熟的Qwen系列基础上

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

亚马逊通过一键式智能体工具强力推进AI开发
News

亚马逊通过一键式智能体工具强力推进AI开发

在AWS re:Invent 2025大会上,亚马逊发布了九项简化AI智能体部署的强大新功能。开发者现在可以通过TypeScript支持、边缘设备兼容性和简化的安全工具,比以往更快地构建智能体。这些创新有望大幅缩短开发时间,同时让前端工程师和嵌入式系统专家也能参与AI创作。

December 4, 2025
AWSAIdevelopmentTypeScript
IBM发布Granite 4.0 Nano AI模型,专为边缘计算设计
News

IBM发布Granite 4.0 Nano AI模型,专为边缘计算设计

IBM推出四款全新Granite 4.0 Nano AI模型,参数量从350万到15亿不等,兼顾高效与易用性。这些模型可在标准笔记本或浏览器中运行,实现无需依赖云端的本地部署。基于Apache 2.0协议发布,支持商业用途并在基准测试中超越竞争对手。

October 29, 2025
AImodelsEdgeComputingIBM
LiblibAI获1.3亿美元融资,领跑中国AI应用市场
News

LiblibAI获1.3亿美元融资,领跑中国AI应用市场

中国AI平台LiblibAI完成1.3亿美元B轮融资,创下中国AI应用领域单笔最大投资记录。本轮融资由红杉中国和CMC资本领投,公司计划进行全球化扩张和重大平台升级以增强视频生成能力。

October 23, 2025
ArtificialIntelligenceChinaTechStartupFunding
阿里巴巴发布增强版Qwen-VL模型,数学与视频能力显著提升
News

阿里巴巴发布增强版Qwen-VL模型,数学与视频能力显著提升

阿里巴巴Qwen团队推出两款新型多模态AI模型——Qwen3-VL-30B-A3B-Instruct和Qwen3-VL-30B-Thinking,各具30亿活跃参数。这些模型在数学、视频处理和智能体控制方面展现卓越性能,可与GPT-5-Mini等行业领先产品竞争。通过HuggingFace和阿里云API提供,此次发布还包含优化的FP8变体以实现更快推理。

October 6, 2025
MultimodalAIAlibabaCloudComputerVision
DeepSeek V3.2 短暂发布后紧急撤回
News

DeepSeek V3.2 短暂发布后紧急撤回

DeepSeek意外发布了一个更新,据信是V3.2版本,但很快将其移除。该模型短暂出现在Hugging Face平台上,现已无法访问,引发了关于其功能及撤回原因的猜测。

September 29, 2025
DeepSeekAIModelsHuggingFace
苹果发布Manzano:兼具图像理解与生成能力的双用途AI模型
News

苹果发布Manzano:兼具图像理解与生成能力的双用途AI模型

苹果公司推出突破性图像模型Manzano,该模型能同时理解并生成图像。通过整合分析与创作能力,这一模型解决了开源AI系统的局限性,可与OpenAI和谷歌的商业产品相媲美。

September 28, 2025
AppleAIComputerVisionMultimodalAI