Meta 发布 SPIRIT LM:一种情感表达的 AI 模型
Meta 发布 SPIRIT LM:一种情感表达的 AI 模型
Meta AI 已宣布开放源代码发布 SPIRIT LM,这是一个旨在无缝结合文本和语音的基础多模态语言模型。该发展为涉及音频和文本数据的应用开辟了新的途径。
SPIRIT LM 概述
SPIRIT LM 是基于一个包含 70 亿参数 的预训练文本模型构建的。该模型通过对文本和语音单元的持续训练得到了增强,使其能够理解和生成文本,类似于其他大型文本模型。值得注意的是,它还能够处理语音,使其能够有效地混合文本和语音以用于各种应用。例如,SPIRIT LM 可以用于:
- 语音识别:将口语转换为文本。
- 语音合成:将书面文本转换为口语。
- 语音分类:评估语音中传达的情感语气。

情感表达能力
SPIRIT LM 的一个突出特点是其能够传达 情感表达。该模型可以辨别和生成各种语音语气和风格,因此其发出的声音听起来更加人性化和富有感情。这一进步意味着 SPIRIT LM 的输出类似于真实的人类语音,远离许多 AI 系统中典型的冷漠和机器人声调。
为了优化 AI 的情感表现,Meta 的研究人员创建了 SPIRIT LM 的两个版本:
- 基础版本 (BASE):主要关注语音的音素方面。
- 表达版本 (EXPRESSIVE):结合了音素信息以及语气和风格,能够产生更加丰富和生动的声音输出。

训练方法
SPIRIT LM 的发展利用了 Meta 强大的 LLAMA2 文本模型。研究人员采用了一种独特的 交错训练 方法,输入了一个包含文本和语音的大数据集。该方法使 LLAMA2 能够同时学习文本和语音的模式,这对于实现模型的多模态能力至关重要。
情感表达的基准测试
为了评估 SPIRIT LM 在情感表达方面的能力,研究人员建立了一个新的基准测试,称为 语音-文本情感保持基准 (STSP)。该基准测试包含不同情感的各种提示,评估模型识别和生成准确反映这些情感的文本和语音的能力。初步结果表明,SPIRIT LM 的 表达版本 在情感保持方面表现出色,成为首个能够实现跨模态情感保留的 AI 模型。
未来改进
尽管取得了进展,Meta 的研究人员承认 SPIRIT LM 仍有多个改进领域。例如,模型目前仅支持 英语,需要扩展其语言能力。此外,模型的大小被认为不够理想,需要进一步增长以提高性能。
结论
SPIRIT LM 代表了 Meta 在人工智能领域的重大突破,预示着一个 AI 可以进行 情感表达 互动的未来。随着开发的推进,预计 SPIRIT LM 将激发创新应用,使人工智能能够以更加亲和和人性化的方式进行对话。这一演变可能促进人类和 AI 系统之间更自然、更友好的互动。
如需更多信息,请访问 SPIRIT LM 项目 的项目页面,并在 此处 获取研究论文。
关键点
- SPIRIT LM 是 Meta AI 的一个开放源代码多模态语言模型。
- 该模型在情感表达方面表现出色,模拟人类的语音。
- SPIRIT LM 的两个版本专注于语音的不同方面。
- 未来改进包括扩展语言支持和模型规模。





