跳转到主要内容

腾讯在叙事音频生成领域的AI突破

腾讯AI突破:从文本生成电影级音效

腾讯ARC实验室发布了AudioStory——一个革命性的AI系统,能够根据简单文字描述生成复杂的叙事音频序列。这项技术超越了基础音效生成的范畴,使机器能够制作出具有情感深度和时间精度的好莱坞级音频叙事作品。

AudioStory工作原理

系统采用精妙的"分而治之"策略:处理故事描述时,首先将叙事分解为带有精确时间戳和情感背景的有序音频事件。例如输入"神秘追逐场景"会被解析为:

  • 水中飞溅的脚步声(营造紧张氛围)
  • 雷鸣轰响(增强戏剧张力)
  • 汽车急刹(高潮时刻)
  • 门砰然关闭(场景收束)

Image

技术创新

AudioStory的核心突破在于其分离式连接机制,解决了语义理解与音频生成间的传统割裂问题:

  1. 语义标记处理宏观故事含义
  2. 残差标记捕捉细微声音纹理与过渡
  3. 三阶段训练过程确保微观与宏观层面的质量

系统基于包含10,000个专业标注叙事音频样本的AudioStory-10K基准数据集进行训练,涵盖多种类型。

性能指标

对比测试显示AudioStory在以下方面超越竞争对手:

  • 指令遵循准确率提升17.85%
  • 更优的音频质量与时长匹配度
  • 长篇幅叙事中表现异常稳定

实际应用

该技术可实现:

  • 自动化电影配乐:根据无声视频生成同步背景音轨
  • 动态音频延续:通过初始样本预测并创建后续音效
  • 沉浸式游戏:实时生成响应式自适应声景
  • AI有声书制作:生成带有环境语境的富有表现力的叙述

行业影响

这项突破标志着从基础声音模仿向真正音频叙事能力的转变。通过弥合技术性音频生成与艺术性叙事构建之间的鸿沟,腾讯将AI定位为创意合作伙伴而非单纯工具。

研究论文指出:"AudioStory展示了机器如何培养资深配音导演的艺术素养,为创意领域的人机协作开辟新可能。"

该技术特别适用于以下需求场景:

  • 音频内容的快速原型设计
  • 个性化媒体体验
  • 通过丰富音频描述提升无障碍体验

    关键要点

  • 腾讯AudioStory可从文本生成电影级叙事音频
  • 采用创新的分离式连接机制实现精准控制
  • 指令准确率领先竞争对手近18%
  • 为影视、游戏和无障碍领域开启新应用场景
  • 代表AI向创意协作者而非工具的角色转变

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

腾讯AI绘画技术突破:图像质量提升300%
News

腾讯AI绘画技术突破:图像质量提升300%

腾讯公布了一项新的AI图像生成技术,通过创新微调方法将美学质量提升了300%。其'Direct-Align'和'Semantic Relative Preference Optimization'方法解决了当前扩散模型的关键限制,无需额外训练数据即可实现更真实、可定制的输出。

September 16, 2025
AI图像生成腾讯研究院扩散模型
腾讯ARC开源AudioStory模型,助力长音频内容生成
News

腾讯ARC开源AudioStory模型,助力长音频内容生成

腾讯ARC团队开源了AudioStory模型,该模型利用大语言模型(LLM)生成连贯的长篇叙事音频。该框架解决了时间连贯性和组合推理方面的挑战,性能优于现有文本转音频模型。项目包含基准数据集,并展示了视频配音等应用场景。

September 1, 2025
AI音频生成腾讯ARC大语言模型
腾讯开源AI视频音效模型HunyuanVideo-Foley
News

腾讯开源AI视频音效模型HunyuanVideo-Foley

腾讯混元开源了其端到端视频音效生成模型HunyuanVideo-Foley。该AI模型通过文本提示将电影级音效与视频输入同步,解决了自动音效生成中的关键挑战。它实现了最先进的性能指标,现已在GitHub和HuggingFace上提供。

August 28, 2025
AI音频生成多模态AI腾讯混元
阿里通义开源ThinkSound,突破性音频生成模型问世
News

阿里通义开源ThinkSound,突破性音频生成模型问世

阿里巴巴语音AI团队开源了全球首个具备思维链推理能力的音频生成模型ThinkSound。这项创新技术通过三阶段视觉输入分析,显著提升了空间音频同步性与保真度。该模型在关键指标上超越竞品15%,现已在GitHub、HuggingFace和ModelScope平台开放获取。

July 9, 2025
AI音频生成多模态AI开源技术
News

GPT-5.4在计算机控制领域超越人类

OpenAI的GPT-5.4在AI能力上取得重大突破,以75%的成功率在桌面导航任务中超越人类表现。这一最新模型无需外部适配器即可原生操作计算机,标志着从对话助手到数字工作者的重大飞跃。其与OpenClaw的集成创造了能够处理复杂专业任务的强大AI代理。

March 6, 2026
人工智能发展自动化未来工作
News

博通豪赌AI芯片:2027年实现1000亿美元营收目标

博通CEO陈福阳用该公司AI芯片业务的宏伟预测点燃了投资者的热情。在周三的财报电话会议上,陈福阳预测到2027年AI相关营收将'大幅超过100亿美元',推动盘后股价上涨5%。由于谷歌和Meta等科技巨头对定制芯片的需求激增,该公司上季度AI销售额已翻倍至84亿美元。

March 6, 2026
半导体人工智能科技股