跳转到主要内容

Meta语音技术重大突破:现可理解1600种语言

Meta用新AI工具弥合全球语言鸿沟

Image

在包容性技术的重大飞跃中,Meta的基础人工智能研究(FAIR)团队推出了Omnilingual ASR,这是一个能够理解1600种语言口语的自动语音识别系统。其非凡之处在于?其中约有500种语言此前从未被任何AI系统处理过。

打破语言障碍

数字世界长期以来一直偏爱广泛使用的语言,使数千个语言社区被抛在后面。虽然大多数语音识别工具专注于数百种主流语言,但Omnilingual ASR旨在彻底改变这一局面。

"我们正在朝着可能成为通用转录系统的方向迈进," Meta的公告解释道。其影响深远——从保护濒危语言到为偏远社区提供数字访问能力。

它的准确度如何?

该系统的性能基于可用的训练数据而有所不同:

  • 78%的测试语言的字符错误率低于10%
  • 仅需10小时的训练音频,95%的语言即可达到这一准确标准
  • 即使是低资源语言(少于10小时的音频),也有36%的时间能达到低于10%的错误率

Meta随发布推出了Omnilingual ASR语料库,以Creative Commons许可发布了350种代表性不足的语言的转录语音样本。这一丰富的语言数据宝库使全球开发者能够为其社区定制解决方案。

"即插即用"的创新功能

一项突出的功能彻底改变了适配方式:

  1. 用户提供极少的配对音频/文本样本
  2. 系统直接学习而无需重新训练
  3. 无需大量计算资源

这种方法理论上可以将覆盖范围扩展到超过 5,400种语言,尽管Meta承认对于支持较少的语言,质量仍需改进.

开放获取理念

秉承其研究使命,Meta将Omnilingual ASR发布为:

  • 完全开源(Apache 2.0许可证)
  • 可用于商业用途
  • 提供从轻量级(3亿参数)到高精度(70亿参数)的不同版本

该技术基于Meta的PyTorch框架构建,可通过其官方门户访问实时演示.

关键要点:

  • 🌍 历史性规模:首个覆盖1600+语言的AI系统(新增500种)
  • 🎯 实用准确度:即使在训练数据有限的情况下也能表现良好
  • 🔓 开放生态系统:数据集和模型免费供社区开发使用
  • ⚡️ 易于适配:'即插即用'降低了支持新语言的障碍

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Mistral AI的Voxtral模型现已在Amazon SageMaker上推出
News

Mistral AI的Voxtral模型现已在Amazon SageMaker上推出

Mistral AI推出了创新的Voxtral模型,以强大的新方式结合了文本和音频处理。轻量级的Voxtral-Mini适用于快速转录,而功能强大的Voxtral-Small则能处理复杂的多语言任务。通过灵活的容器部署方式,Amazon SageMaker现已支持这些模型,为企业实施先进的音频-文本智能解决方案打开了大门。

December 23, 2025
AI技术语音识别云计算
微信输入法iOS大更新:方言支持与隐私保护成亮点
News

微信输入法iOS大更新:方言支持与隐私保护成亮点

微信输入法iOS应用迎来3.0版本重大升级,带来突破性语音识别功能。该更新支持15种汉语方言自动识别,取消语音输入时长限制,并具备离线工作能力——同时始终将用户隐私放在首位。这标志着微信从键盘输入向专业语音交互平台的转型。

December 17, 2025
WeChat语音识别iOS应用
智谱AI发布开源语音技术,带来更智能的语音输入体验
News

智谱AI发布开源语音技术,带来更智能的语音输入体验

智谱AI以两款强大新模型颠覆语音识别领域——包括可在本地运行的轻量级版本以增强隐私保护。其升级后的输入法现能以惊人准确度将语音转为文字,并新增翻译等实用功能。新用户可享受丰厚的免费试用期来体验这些尖端工具。

December 10, 2025
AI语音识别效率工具
Volc Engine的Doubao 2.0语音理解能力达到前所未有的高度
News

Volc Engine的Doubao 2.0语音理解能力达到前所未有的高度

Volc Engine发布了升级版Doubao语音识别模型2.0,为我们的设备带来了更智能的语音技术。这不仅仅是听清单词——该系统现在能结合图像理解语音,当你说到滑板时能准确识别'slid chicken'这类易混淆短语。支持从日语到法语等13种语言,让全球对话更加顺畅。开发者现已可通过Volc的API服务使用这项技术。

December 5, 2025
语音识别AI创新多语言技术
豆宝方言升级版弥合代际鸿沟
News

豆宝方言升级版弥合代际鸿沟

豆宝最新更新支持粤语、四川话、东北话和陕西话四大方言的语音功能,使老年用户的数字沟通更为便捷。该功能采用先进语音识别技术,能理解并用当地方言自然回应,未来可能扩展至18种地方变体。这项创新有望为数百万不擅长普通话的老年人消除语言障碍。

December 1, 2025
豆宝方言技术适老科技
豆包输入法携更智能的AI打字体验亮相
News

豆包输入法携更智能的AI打字体验亮相

字节跳动旗下新品豆包输入法正式上市,将先进AI技术与日常打字需求完美融合。安卓版本现已推出,iOS版本即将上线。其独特之处何在?卓越的语音识别能力可轻松应对方言和嘈杂环境,智能文本预测功能还会随使用不断学习。额外惊喜——键盘界面无任何烦人广告。

November 25, 2025
移动科技人工智能应用语音识别