跳转到主要内容

Cohere挑战科技巨头,推出适用于日常设备的开源语音模型

Cohere以紧凑型开源模型颠覆语音AI市场

3月26日,AI初创公司Cohere向NVIDIA和IBM等行业领导者发起大胆挑战,发布了Transcribe——一个开源语音识别模型,在其精简的20亿参数框架中蕴含着惊人性能。这款专为智能手机、PC和工业设备设计的产品,标志着该公司对不断增长的边缘计算市场的战略布局。

小体积,大性能

Transcribe的独特之处何在?当巨头们通常专注于庞大的云端模型时,Cohere却反其道而行:

  • 支持14种语言包括中文、日语和希伯来语
  • 边缘部署消除了云端延迟(对实时翻译至关重要)
  • 隐私优势适用于医疗和银行应用
  • Apache 2.0许可证鼓励开发者贡献

"我们观察到市场需求正转向响应迅速、保护隐私的语音界面,"Cohere首席技术官解释道,"智能手机不应该仅仅为了理解基本指令而需要连接云端。"

从文本到语音:构建完整的AI代理

此次发布标志着Cohere超越了其文本生成的根基。行业分析师指出,这完善了他们开发完整AI代理的工具包:

  1. 文本理解(现有专长)
  2. 语音识别(新增Transcribe能力)
  3. 代理编排(通过其North平台实现)

"语音正在成为AI的主要界面,"TechVision Partners的Sarah Chen指出,"通过将其开源,Cohere在建立生态系统忠诚度的同时,还能获得数千名开发者对其技术的改进。"

开源策略博弈

Cohere的做法与Meta通过Llama取得的成功策略如出一辙——利用社区开发与资金更雄厚的对手竞争。早期基准测试显示,尽管体积显著更小,Transcribe在准确性上仍优于ElevenLabs Scribe。

该模型即将与Cohere的代理平台North集成,可能为客服和企业应用创建无缝的语音到行动系统。

关键要点:

  • 轻量设计:可在设备本地运行而不依赖云端
  • 多语言优势:支持希伯来语和日语等复杂语言
  • 隐私优先:敏感音频数据不上传服务器
  • 生态系统布局:开源方法加速开发
  • 战略转型:将Cohere定位为全栈AI代理提供商

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

通义实验室新AI工具让好莱坞级配音触手可及
News

通义实验室新AI工具让好莱坞级配音触手可及

通义实验室发布了开创性的开源工具Fun-CineForge,解决了AI配音领域最棘手的难题——真实的多角色对话。与传统文本转语音模型不同,这套电影级系统能实现声画同步、保持角色音色一致并传递情感深度。其秘诀在于创新的四模态融合架构和高质量的CineDub数据集。早期测试表明该工具性能超越现有解决方案,标志着视频本地化和内容创作领域的重大突破。

March 16, 2026
AI配音语音技术开源AI
News

马斯克的xAI为Grok赋予语音能力,加入AI语音竞赛

埃隆·马斯克的xAI公司为其Grok人工智能推出了文本转语音API,这标志着语音人工智能竞争迈出了重要一步。此举允许开发者将Grok的对话能力集成到应用程序中,创造更接近人类的交互体验。当前各大AI厂商正在激烈竞争,力求提供最自然的数字语音。

March 18, 2026
xAIGrok语音技术
小度技能接入ClawHub,开启智能家居新时代
News

小度技能接入ClawHub,开启智能家居新时代

DuerOS通过将其智能家居技能整合至ClawHub的OpenClaw生态系统实现重大飞跃。这一举措使DuerOS从语音助手转型为能管理复杂物联网任务的强大控制模块。借助升级后的MCP技术,用户现可享受无缝跨平台设备控制和云端集成,让智能家居体验比以往更加直观。

March 17, 2026
智能家居AI集成语音技术
News

百度智能音箱通过集成OpenClaw变得更智能

百度正通过集成先进的AI代理OpenClaw,将其智能音箱提升至新高度。这一升级将小度音箱从简单的语音助手转变为能够跨多个应用处理复杂任务的数字助手。想象一下,让你的音箱预订晚餐并设置提醒——很快它就能做到这些。

March 17, 2026
智能家居AI助手百度
IBM Granite 4.0语音模型:体积更小,性能更强
News

IBM Granite 4.0语音模型:体积更小,性能更强

IBM发布了专为边缘计算设计的Granite 4.0 1B Speech——一款紧凑而强大的多语言语音识别模型。其体积仅为前代产品的一半,在提升精度的同时新增日语ASR和英中翻译支持。创新的两阶段架构允许在资源受限设备上灵活部署,并以5.52%的词错率荣登基准测试榜首。

March 16, 2026
IBM语音识别边缘计算
News

Hume AI的TADA为手机带来闪电般快速且无幻觉的语音技术

Hume AI发布了突破性的文本转语音系统TADA,该系统能在移动设备上高效运行。与传统模型不同,它在提供比传统快五倍的音频同时消除了内容幻觉现象。真正让它脱颖而出的是什么?它能生成长达700秒的音频片段并同步提供实时转录——无需额外处理。早期测试显示其在音质方面也优于更大的模型。

March 12, 2026
AI语音合成移动技术开源AI