跳转到主要内容

Meta 发布 SPIRIT LM:一种情感表达的 AI 模型

Meta 发布 SPIRIT LM:一种情感表达的 AI 模型

Meta AI 已宣布开放源代码发布 SPIRIT LM,这是一个旨在无缝结合文本和语音的基础多模态语言模型。该发展为涉及音频和文本数据的应用开辟了新的途径。

SPIRIT LM 概述

SPIRIT LM 是基于一个包含 70 亿参数 的预训练文本模型构建的。该模型通过对文本和语音单元的持续训练得到了增强,使其能够理解和生成文本,类似于其他大型文本模型。值得注意的是,它还能够处理语音,使其能够有效地混合文本和语音以用于各种应用。例如,SPIRIT LM 可以用于:

  • 语音识别:将口语转换为文本。
  • 语音合成:将书面文本转换为口语。
  • 语音分类:评估语音中传达的情感语气。 image

情感表达能力

SPIRIT LM 的一个突出特点是其能够传达 情感表达。该模型可以辨别和生成各种语音语气和风格,因此其发出的声音听起来更加人性化和富有感情。这一进步意味着 SPIRIT LM 的输出类似于真实的人类语音,远离许多 AI 系统中典型的冷漠和机器人声调。

为了优化 AI 的情感表现,Meta 的研究人员创建了 SPIRIT LM 的两个版本:

  • 基础版本 (BASE):主要关注语音的音素方面。
  • 表达版本 (EXPRESSIVE):结合了音素信息以及语气和风格,能够产生更加丰富和生动的声音输出。 image

训练方法

SPIRIT LM 的发展利用了 Meta 强大的 LLAMA2 文本模型。研究人员采用了一种独特的 交错训练 方法,输入了一个包含文本和语音的大数据集。该方法使 LLAMA2 能够同时学习文本和语音的模式,这对于实现模型的多模态能力至关重要。

情感表达的基准测试

为了评估 SPIRIT LM 在情感表达方面的能力,研究人员建立了一个新的基准测试,称为 语音-文本情感保持基准 (STSP)。该基准测试包含不同情感的各种提示,评估模型识别和生成准确反映这些情感的文本和语音的能力。初步结果表明,SPIRIT LM 的 表达版本 在情感保持方面表现出色,成为首个能够实现跨模态情感保留的 AI 模型。

未来改进

尽管取得了进展,Meta 的研究人员承认 SPIRIT LM 仍有多个改进领域。例如,模型目前仅支持 英语,需要扩展其语言能力。此外,模型的大小被认为不够理想,需要进一步增长以提高性能。

结论

SPIRIT LM 代表了 Meta 在人工智能领域的重大突破,预示着一个 AI 可以进行 情感表达 互动的未来。随着开发的推进,预计 SPIRIT LM 将激发创新应用,使人工智能能够以更加亲和和人性化的方式进行对话。这一演变可能促进人类和 AI 系统之间更自然、更友好的互动。

如需更多信息,请访问 SPIRIT LM 项目 的项目页面,并在 此处 获取研究论文。

关键点

  1. SPIRIT LM 是 Meta AI 的一个开放源代码多模态语言模型。
  2. 该模型在情感表达方面表现出色,模拟人类的语音。
  3. SPIRIT LM 的两个版本专注于语音的不同方面。
  4. 未来改进包括扩展语言支持和模型规模。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Meta的AI购物助手剑指零售巨头
News

Meta的AI购物助手剑指零售巨头

Meta正悄然在其AI助手中推出一项可能颠覆在线零售的新购物功能。该工具提供个性化的产品推荐,包括图片、价格和购买链接——所有这些都根据您的位置和浏览历史量身定制。虽然仍在测试阶段,此举表明了Meta希望在与ChatGPT和谷歌的AI驱动商业竞争中直接较量的雄心。

March 3, 2026
MetaAIAI Commerce个性化购物
Meta的Pixio改写规则:在3D视觉领域,简单方法击败复杂AI
News

Meta的Pixio改写规则:在3D视觉领域,简单方法击败复杂AI

Meta AI的新模型Pixio证明,在计算机视觉领域,简单可以胜过复杂。通过改进一种较旧的掩码技术并在多样化的网络图像上进行训练,Pixio实现了比更大模型更好的3D重建效果——同时避免了基准测试的'作弊'行为。这一突破表明我们可能过度复杂化了视觉AI。

December 29, 2025
计算机视觉MetaAI3D重建
Meta发布代码世界模型,推动AI编程进步
News

Meta发布代码世界模型,推动AI编程进步

Meta推出了代码世界模型(CWM),这是一个旨在增强AI代码生成能力的大型语言模型。CWM利用'世界模型'概念,在编码过程中预测指令效果,从而提高质量和推理能力。尽管规模较小,但在大量Python和Bash数据训练下,它在基准测试中表现出色。

September 25, 2025
AI编程MetaAI代码生成
Meta发布代码世界模型CWM:具备沙盒推理能力的320亿参数AI
News

Meta发布代码世界模型CWM:具备沙盒推理能力的320亿参数AI

Meta推出了先进的代码世界模型(CWM),这款拥有320亿参数的AI专为深度代码理解与推理而设计。与传统模型不同,CWM在沙盒环境中运行,可在执行前预测代码结果,从而减少错误并实现智能调试。但其高硬件需求需配备双H100 GPU和RDMA技术。

September 25, 2025
MetaAICodeGenerationAIInnovation
Meta AI发布MobileLLM-R1:轻量级边缘AI模型
News

Meta AI发布MobileLLM-R1:轻量级边缘AI模型

Meta AI推出MobileLLM-R1系列轻量级边缘推理模型,参数量从1.4亿到9.5亿不等。这些模型专为高效数学运算、编程和科学推理设计,在降低训练成本和资源需求的同时保持竞争力。其中最大模型MobileLLM-R1-950M在基准测试中超越更大模型,且使用的token数量显著减少。

September 16, 2025
MetaAIEdgeAILightweightModels
Meta开源DINOv3:AI视觉领域的颠覆性突破
News

Meta开源DINOv3:AI视觉领域的颠覆性突破

Meta开源了DINOv3——一种无需人工标注的自监督AI视觉模型。该模型在高分辨率特征提取方面表现卓越,支持从环境监测到医疗保健的多样化应用。其采用商业友好许可协议的发布,将推动前沿视觉技术的普及化。

August 15, 2025
DINOv3计算机视觉自监督学习