腾讯开源AI视频音效模型HunyuanVideo-Foley欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

腾讯开源AI视频音效模型HunyuanVideo-Foley

腾讯在AI生成视频音效领域取得突破

2025年8月28日，腾讯混元通过开源其HunyuanVideo-Foley模型，在多媒体AI领域取得重大进展——这是一个从视频输入生成同步音效的端到端解决方案。这一发展标志着克服当前AI生成内容"无声视频"限制的关键时刻。

技术创新与能力

该模型针对长期存在的音频生成挑战提出了三项突破性解决方案：

增强泛化能力：通过构建庞大的TV2A（文本-视频-音频）数据集，系统能够适应包括人类动作、野生动物、自然环境和动画场景在内的多样化内容。
双流架构：专有的多模态扩散变换器（MMDiT）框架平衡了视觉和文本语义，以产生复杂、分层的声景，同时保持与屏幕动作的完美同步。
音频保真度：采用表示对齐（REPA）损失函数确保专业级音频质量和时间一致性。

性能基准测试

独立评估显示HunyuanVideo-Foley具有行业领先能力：

音频质量（PQ）：从6.17提升至6.59
视觉对齐（IB）：从0.27增加至0.35
时间同步（DeSync）：从0.80优化至0.74

在三个维度（音频质量、语义匹配和时序）的主观测试中，该模型平均得分超过4.1/5分——接近专业制作标准。

实际应用

此次开源发布可实现：

内容创作者：为短视频即时生成上下文音效
电影制作：快速进行环境声音设计原型制作
游戏开发：高效创建沉浸式音频环境

获取方式

该模型现可通过多个平台访问：

关键点：

首个用于视频音效生成的端到端开源解决方案
在所有基准测试类别中均优于先前方法
为各类媒体应用普及专业级音频制作
立即可用于商业和研究用途

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

微软新AI模型实现类人思考——自主决定何时深入推理

微软最新发布开源AI模型Phi-4-reasoning-vision-15B，该模型通过自主选择思考深度来模拟人类决策机制。与传统需要手动切换模式的模型不同，这个拥有150亿参数的智能体能够根据任务复杂度自动调整推理深度。在图像分析和数学问题方面表现卓越的同时，其训练数据量却出人意料地少，或将彻底改变轻量级AI系统的部署方式。

March 5, 2026

AI创新微软研究院轻量级模型

News

阿里巴巴全新紧凑型AI模型为边缘设备带来强大能力

阿里巴巴通义千问团队发布了一系列轻量级AI模型，这些小巧的模型蕴含着令人印象深刻的能力。新模型参数规模从0.8B到9B不等，具备多模态处理能力，同时针对智能手机和物联网设备等边缘设备进行了优化。最小型号提供闪电般的响应速度，而较大型号在能力上可与更庞大的系统媲美——且资源消耗更低。这些现已登陆主流平台的模型，或将彻底改变我们在日常设备中部署AI的方式。

March 3, 2026

边缘AI阿里巴巴通义千问轻量级模型