腾讯ARC开源AudioStory模型，助力长音频内容生成欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

腾讯ARC开源AudioStory模型，助力长音频内容生成

腾讯ARC发布开源AudioStory模型：实现长篇叙事音频生成

腾讯应用研究中心(ARC)正式开源AudioStory——一款基于大语言模型(LLM)的长篇叙事音频生成模型。这一开源项目标志着文本转音频技术的重大突破，尤其在需要保持时间连贯性和处理复杂结构的长时间内容生成领域。

技术框架与核心能力

该模型通过统一理解与生成框架实现多样化应用场景：

影视配音
音频续写
长篇叙事合成

通过将LLM与音频生成系统结合，AudioStory能够在长时间轴中保持场景转换连贯性和情感基调一致性。其指令跟随架构可将复杂叙事查询分解为按时间顺序排列的子任务。

关键创新点

AudioStory带来两大突破性特性：

解耦桥接机制：将LLM协作与音频生成分离为专门组件
端到端训练：统一指令解析与音频生产以增强系统协同性

团队同步发布了涵盖动画音景到自然声叙事的AudioStory-10K基准数据集。对比测试表明，无论是单实例生成还是长篇叙事场景，其性能均优于传统文本转音频模型。

实际应用场景

当前已实现的案例包括：

经典动画配音（以《猫和老鼠》样本演示）
基于文本的长篇音频生成
多场景叙事构建项目GitHub仓库包含推理代码及详细用例文档。

核心亮点：

🎧 融合LLM与音频生成技术实现连贯长篇叙事
📊 在时间连贯性与指令遵循度上超越现有模型
🛠️ 开源10K基准数据集助力社区发展
🌐 展示娱乐与媒体制作领域的应用潜力

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

微软新AI模型实现类人思考——自主决定何时深入推理

微软最新发布开源AI模型Phi-4-reasoning-vision-15B，该模型通过自主选择思考深度来模拟人类决策机制。与传统需要手动切换模式的模型不同，这个拥有150亿参数的智能体能够根据任务复杂度自动调整推理深度。在图像分析和数学问题方面表现卓越的同时，其训练数据量却出人意料地少，或将彻底改变轻量级AI系统的部署方式。

March 5, 2026

AI创新微软研究院轻量级模型