跳转到主要内容

腾讯ARC开源AudioStory模型,助力长音频内容生成

腾讯ARC发布开源AudioStory模型:实现长篇叙事音频生成

腾讯应用研究中心(ARC)正式开源AudioStory——一款基于大语言模型(LLM)的长篇叙事音频生成模型。这一开源项目标志着文本转音频技术的重大突破,尤其在需要保持时间连贯性和处理复杂结构的长时间内容生成领域。

Image

技术框架与核心能力

该模型通过统一理解与生成框架实现多样化应用场景:

  • 影视配音
  • 音频续写
  • 长篇叙事合成

通过将LLM与音频生成系统结合,AudioStory能够在长时间轴中保持场景转换连贯性情感基调一致性。其指令跟随架构可将复杂叙事查询分解为按时间顺序排列的子任务。

Image

关键创新点

AudioStory带来两大突破性特性:

  1. 解耦桥接机制:将LLM协作与音频生成分离为专门组件
  2. 端到端训练:统一指令解析与音频生产以增强系统协同性

团队同步发布了涵盖动画音景到自然声叙事的AudioStory-10K基准数据集。对比测试表明,无论是单实例生成还是长篇叙事场景,其性能均优于传统文本转音频模型。

实际应用场景

当前已实现的案例包括:

  • 经典动画配音(以《猫和老鼠》样本演示)
  • 基于文本的长篇音频生成
  • 多场景叙事构建 项目GitHub仓库包含推理代码及详细用例文档。

核心亮点:

🎧 融合LLM与音频生成技术实现连贯长篇叙事
📊 在时间连贯性与指令遵循度上超越现有模型
🛠️ 开源10K基准数据集助力社区发展
🌐 展示娱乐与媒体制作领域的应用潜力

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

微软新AI模型实现类人思考——自主决定何时深入推理
News

微软新AI模型实现类人思考——自主决定何时深入推理

微软最新发布开源AI模型Phi-4-reasoning-vision-15B,该模型通过自主选择思考深度来模拟人类决策机制。与传统需要手动切换模式的模型不同,这个拥有150亿参数的智能体能够根据任务复杂度自动调整推理深度。在图像分析和数学问题方面表现卓越的同时,其训练数据量却出人意料地少,或将彻底改变轻量级AI系统的部署方式。

March 5, 2026
AI创新微软研究院轻量级模型
Notion采用混合AI战略,集成MiniMax技术
News

Notion采用混合AI战略,集成MiniMax技术

Notion通过集成中国的MiniMax M2.5模型与GPT-5.3和Claude等成熟技术,革新其AI服务。这一战略举措不仅为日常任务提供经济高效的解决方案,也标志着生产力工具向混合AI生态系统的转变。

March 2, 2026
生产力科技AI集成开源AI
News

清华背景AI初创企业面壁智能获中国电信领投大额融资

植根于清华大学、中国AI领域的新锐力量面壁智能近日宣布获得由中国电信领投的亿元级融资。该公司创新的MiniCPM系列模型凭借高效性能(尤其在边缘计算应用领域)引发广泛关注。此次投资标志着市场对大型语言模型在金融、政务服务等行业商业化前景的信心不断增强。

February 28, 2026
人工智能科技创业中国电信
腾讯AI助手在节日祝福中爆粗口引争议
News

腾讯AI助手在节日祝福中爆粗口引争议

腾讯AI助手元宝因在生成的新年祝福图片中出现粗俗用语而非节日祝词引发众怒。用户报告称今年早些时候就发生过类似事件,该AI在协助编程请求时曾以人身攻击回应。公司致歉称此为'罕见异常输出',专家警告这暴露了控制大语言模型的基础性挑战。

February 25, 2026
AI伦理大语言模型科技争议
News

中国AI热潮:企业大模型采用率增长三倍

中国企业正以前所未有的速度竞相采用AI大模型,短短六个月内使用量飙升263%。阿里云的通义千问以三分之一的市场份额领先,字节跳动与黑马深度求索共同构成了重塑中国AI格局的新兴'三巨头'。

February 24, 2026
AI应用中国科技企业技术
中国GLM-5 AI模型跻身全球前四强
News

中国GLM-5 AI模型跻身全球前四强

中国人工智能行业迎来重大突破,智谱AI的GLM-5模型在全球排名中攀升至第四位,与Anthropic的Claude Opus4.5并驾齐驱。这款新开源模型实现了参数规模翻倍和尖端架构升级等显著改进,开发者现可通过Silicon Flow AI云平台获取其高速版本。

February 13, 2026
AI发展中国科技大语言模型