跳转到主要内容

Meta语音技术重大突破:现可理解1600种语言

Meta用新AI工具弥合全球语言鸿沟

Image

在包容性技术的重大飞跃中,Meta的基础人工智能研究(FAIR)团队推出了Omnilingual ASR,这是一个能够理解1600种语言口语的自动语音识别系统。其非凡之处在于?其中约有500种语言此前从未被任何AI系统处理过。

打破语言障碍

数字世界长期以来一直偏爱广泛使用的语言,使数千个语言社区被抛在后面。虽然大多数语音识别工具专注于数百种主流语言,但Omnilingual ASR旨在彻底改变这一局面。

"我们正在朝着可能成为通用转录系统的方向迈进," Meta的公告解释道。其影响深远——从保护濒危语言到为偏远社区提供数字访问能力。

它的准确度如何?

该系统的性能基于可用的训练数据而有所不同:

  • 78%的测试语言的字符错误率低于10%
  • 仅需10小时的训练音频,95%的语言即可达到这一准确标准
  • 即使是低资源语言(少于10小时的音频),也有36%的时间能达到低于10%的错误率

Meta随发布推出了Omnilingual ASR语料库,以Creative Commons许可发布了350种代表性不足的语言的转录语音样本。这一丰富的语言数据宝库使全球开发者能够为其社区定制解决方案。

"即插即用"的创新功能

一项突出的功能彻底改变了适配方式:

  1. 用户提供极少的配对音频/文本样本
  2. 系统直接学习而无需重新训练
  3. 无需大量计算资源

这种方法理论上可以将覆盖范围扩展到超过 5,400种语言,尽管Meta承认对于支持较少的语言,质量仍需改进.

开放获取理念

秉承其研究使命,Meta将Omnilingual ASR发布为:

  • 完全开源(Apache 2.0许可证)
  • 可用于商业用途
  • 提供从轻量级(3亿参数)到高精度(70亿参数)的不同版本

该技术基于Meta的PyTorch框架构建,可通过其官方门户访问实时演示.

关键要点:

  • 🌍 历史性规模:首个覆盖1600+语言的AI系统(新增500种)
  • 🎯 实用准确度:即使在训练数据有限的情况下也能表现良好
  • 🔓 开放生态系统:数据集和模型免费供社区开发使用
  • ⚡️ 易于适配:'即插即用'降低了支持新语言的障碍

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Mistral新一代语音转文本模型树立速度与隐私新标杆
News

Mistral新一代语音转文本模型树立速度与隐私新标杆

法国AI创新企业Mistral发布了两款突破性的语音转文本模型,承诺提供闪电般快速的转录速度和前所未有的隐私保护。Voxtral Mini Transcribe V2批量处理价格低至每分钟0.003美元,而Voxtral Realtime可实现延迟仅200毫秒的实时转录。两款模型均支持本地设备运行、兼容13种语言,旨在颠覆企业转录市场。

February 11, 2026
AI转录MistralAI语音识别
News

HONOR与Plaud联手,将AI驱动的会议笔记直接带入您的手机

智能手机制造商HONOR正与AI专家Plaud合作,将智能录音功能直接集成到其操作系统中,这一举措可能为数百万人的工作生活带来便利。未来的Magic OS更新将允许用户仅使用手机内置录音机自动生成会议笔记,无需单独的应用程序或硬件。此次合作旨在通过消除会议记录过程中的额外步骤来简化工作流程。

February 9, 2026
移动技术AI生产力智能手机功能
Mistral AI全新语音模型实现近乎即时中文转录
News

Mistral AI全新语音模型实现近乎即时中文转录

法国AI初创公司Mistral AI发布了具备突破性实时转录能力的Voxtral Transcribe 2系列。其新型号将处理延迟缩短至0.2秒以内,并支持包括中文在内的多种语言,以极具竞争力的价格为开发者提供强大的语音应用工具。

February 5, 2026
语音识别AI创新实时技术
搜狗输入法全面拥抱AI,20.0大版本更新重磅来袭
News

搜狗输入法全面拥抱AI,20.0大版本更新重磅来袭

腾讯旗下搜狗输入法迎来史上最大升级,全面整合AI能力。新版本提供更智能的语音识别(甚至支持耳语输入)、30种语言的无缝实时翻译,以及能一夜学会网络热词的预测输入。最令用户欢呼的改进?终于可以一键永久关闭键盘广告。

January 27, 2026
AI键盘语音识别智能翻译
News

东软集团携手Cerence AI重新定义汽车座舱体验

中国科技企业东软集团与人工智能专家Cerence达成合作,共同开发更智能、更直观的汽车座舱系统。此次合作将整合东软的NAGIC软件平台与Cerence先进的语音识别及语言处理技术,旨在打造能更好理解驾驶员需求、实现更自然情感化交互的智能座舱系统。

January 22, 2026
汽车科技语音识别人机交互
News

沃尔沃EX60首发搭载谷歌智能助手,真正懂你所想

沃尔沃全新电动SUV EX60通过整合谷歌Gemini人工智能实现突破,打造出不仅能聆听——更能理解指令的汽车。告别刻板的语音命令,这款车型可解析自然语句并流畅处理复杂请求。凭借其'Raven Core'系统,EX60标志着汽车从被动响应按钮到主动预判需求的飞跃。

January 15, 2026
汽车科技AI助手电动汽车