MOSS-TTSD:双语对话语音合成
产品介绍
MOSS-TTSD是一款专为双语(中英)对话语音合成设计的先进开源模型。它将对话脚本转化为高质量、富有表现力的音频,非常适合播客制作和AI驱动的对话应用。该模型利用大规模语言和语音数据集,确保生成语音的自然度和准确性。
核心功能
- 双语支持:可生成中文和英文语音。
- 零样本语音克隆:无需预先训练即可精准克隆声音。
- 长时语音生成:适用于播客等长时间音频内容。
- 高表现力:呈现类人的对话语调。
- 灵活部署:支持本地和基于API的推理。
- 批量处理:可同时处理多个生成请求。
- 播客工具:将长文本或网页内容转换为音频。
- 自定义功能:包含用于模型适配的微调脚本。
产品数据
- 目标用户:语音合成及播客领域的开发者、内容创作者和研究人员。
- 应用场景:播客、在线教育、娱乐应用等。
- 技术要求:Python环境、JSONL输入文件、XY Tokenizer权重文件。
产品链接
了解更多详情,请访问MOSS-TTSD。






