跳转到主要内容

腾讯开源AI视频音效模型HunyuanVideo-Foley

腾讯在AI生成视频音效领域取得突破

2025年8月28日,腾讯混元通过开源其HunyuanVideo-Foley模型,在多媒体AI领域取得重大进展——这是一个从视频输入生成同步音效的端到端解决方案。这一发展标志着克服当前AI生成内容"无声视频"限制的关键时刻。

技术创新与能力

该模型针对长期存在的音频生成挑战提出了三项突破性解决方案:

  1. 增强泛化能力:通过构建庞大的TV2A(文本-视频-音频)数据集,系统能够适应包括人类动作、野生动物、自然环境和动画场景在内的多样化内容。

  2. 双流架构:专有的多模态扩散变换器(MMDiT)框架平衡了视觉和文本语义,以产生复杂、分层的声景,同时保持与屏幕动作的完美同步。

  3. 音频保真度:采用表示对齐(REPA)损失函数确保专业级音频质量和时间一致性。

Image

性能基准测试

独立评估显示HunyuanVideo-Foley具有行业领先能力:

  • 音频质量(PQ):从6.17提升至6.59
  • 视觉对齐(IB):从0.27增加至0.35
  • 时间同步(DeSync):从0.80优化至0.74

在三个维度(音频质量、语义匹配和时序)的主观测试中,该模型平均得分超过4.1/5分——接近专业制作标准。

实际应用

此次开源发布可实现:

  • 内容创作者:为短视频即时生成上下文音效
  • 电影制作:快速进行环境声音设计原型制作
  • 游戏开发:高效创建沉浸式音频环境

获取方式

该模型现可通过多个平台访问:

关键点:

  • 首个用于视频音效生成的端到端开源解决方案
  • 在所有基准测试类别中均优于先前方法
  • 为各类媒体应用普及专业级音频制作
  • 立即可用于商业和研究用途

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

微软新AI模型实现类人思考——自主决定何时深入推理
News

微软新AI模型实现类人思考——自主决定何时深入推理

微软最新发布开源AI模型Phi-4-reasoning-vision-15B,该模型通过自主选择思考深度来模拟人类决策机制。与传统需要手动切换模式的模型不同,这个拥有150亿参数的智能体能够根据任务复杂度自动调整推理深度。在图像分析和数学问题方面表现卓越的同时,其训练数据量却出人意料地少,或将彻底改变轻量级AI系统的部署方式。

March 5, 2026
AI创新微软研究院轻量级模型
阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力
News

阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力

阿里巴巴通义千问团队发布了一系列轻量级AI模型,这些小巧的模型蕴含着令人印象深刻的能力。新模型参数规模从0.8B到9B不等,具备多模态处理能力,同时针对智能手机和物联网设备等边缘设备进行了优化。最小型号提供闪电般的响应速度,而较大型号在能力上可与更庞大的系统媲美——且资源消耗更低。这些现已登陆主流平台的模型,或将彻底改变我们在日常设备中部署AI的方式。

March 3, 2026
边缘AI阿里巴巴通义千问轻量级模型
Notion采用混合AI战略,集成MiniMax技术
News

Notion采用混合AI战略,集成MiniMax技术

Notion通过集成中国的MiniMax M2.5模型与GPT-5.3和Claude等成熟技术,革新其AI服务。这一战略举措不仅为日常任务提供经济高效的解决方案,也标志着生产力工具向混合AI生态系统的转变。

March 2, 2026
生产力科技AI集成开源AI
谷歌Flow迎来重大升级:集成Nano Banana模型与Veo
News

谷歌Flow迎来重大升级:集成Nano Banana模型与Veo

谷歌宣布对其AI创意工作室Flow进行重大更新,将实验性项目Whisk和ImageFX整合为统一平台。亮点是全新的Nano Banana图像模型,可与Veo视频工作流无缝衔接。凭借增强的编辑工具和媒体管理功能,谷歌旨在简化创意生产流程,同时强化对OpenAI等竞争对手的竞争优势。

February 26, 2026
AI创造力谷歌更新多模态AI
蚂蚁集团最新AI模型在多模态技术领域取得突破性进展
News

蚂蚁集团最新AI模型在多模态技术领域取得突破性进展

蚂蚁集团开源发布了前沿多模态AI模型Ming-Flash-Omni 2.0。这款强大模型在视觉理解和音频生成方面超越了Gemini 2.5 Pro等竞争对手,并引入了统一音轨创建等突破性功能。开发者现在可以利用这些先进能力打造更集成的AI应用。

February 11, 2026
AI创新多模态技术开源AI
Kling AI 3.0震撼发布:触手可及的电影级魔法
News

Kling AI 3.0震撼发布:触手可及的电影级魔法

Kling AI最新3.0版本通过智能分镜和长达15秒的片段扩展彻底改变视频创作。本次更新引入电影级光照技术,呈现惊艳的4K画质,并简化多图像风格融合功能。目前黑金会员可优先体验,这些工具将助力大众轻松实现专业级叙事效果。

February 5, 2026
AI视频生成创意工具数字叙事