跳转到主要内容

ElevenLabs发布V3 AI语音模型,支持70多种语言及情感控制

AI语音技术先驱ElevenLabs正式推出其Eleven v3 (Alpha)文本转语音模型——这是该公司迄今为止最具表现力的AI语音系统。此次发布标志着语音合成的重大飞跃,为创作者和开发者提供了前所未有的情感与语调控制能力。

Image

自然语音新标准

v3架构展现出更深入的文本理解能力,能生成高度拟人化的声音表达。与之前版本不同,该模型支持70多种语言,并能轻松处理复杂的多角色对话。它真实模拟了对话中的细微差别——语调变化、情感起伏甚至打断——这些曾是AI系统难以实现的功能。

情感精度是v3的突出特点。创作者现在可以直接在文本中插入[sad][angry][whispers]等简单标签来塑造声音表现。该系统甚至能处理笑声或叹息等非语言提示,为动态音频内容创作开辟了新可能。

赋能创意产业

从有声读物旁白到电子游戏角色配音,v3的应用具有变革性意义。该模型支持32种独特说话者配置,非常适合需要多样化音域的项目。教育内容开发者和客户服务平台已经开始探索其在创造更具吸引力互动方面的潜力。

电影行业的早期采用者报告称,该模型能为初步配音工作节省数周录音棚时间。"情感范围令人惊叹",一位动画电影测试人员表示:"我们获得的第一版录音通常只需微调即可使用"

可及性与未来发展

整个六月期间,ElevenLabs提供80%折扣以鼓励体验v3版本。公司计划很快发布公开API,开发者可通过销售渠道申请早期访问权限。

虽然目前主要针对预录制内容优化,但ElevenLabs确认正在开发v3的实时版本。对于即时对话需求,他们建议继续使用v2.5Turbo或Flash模型。

塑造语音技术格局

此次发布加剧了快速发展的AI语音领域的竞争。ElevenLabs的技术已为多家主流有声读物平台和虚拟助手提供支持;v3版本巩固了其相对于OpenAI的Whisper和Google的Gemini等竞争对手的优势地位。

社交媒体热议显示许多人认为v3是文本转语音质量的新标杆。一位行业分析师指出:"这次发布使得合成语音与人类语音之间的差距显著缩小"

展望未来,ElevenLabs承诺将持续改进包括降低延迟和扩展语言支持等功能。随着这些工具变得更加普及,它们可能会重新定义我们跨媒体格式制作数字内容的方式。

关键要点

  1. 支持70+种语言并改进自然语音模式
  2. 引入情感标签(如[happy][sarcastic])实现精确声音控制
  3. 通过32种独特声音配置支持多说话者场景
  4. 当前处于公开Alpha阶段,6月为早期采用者提供80%折扣
  5. 实时对话版本正在开发中

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

谷歌WAXAL项目助力非洲语言在AI领域发声

谷歌发布了突破性的WAXAL语音数据集,涵盖21种非洲语言。与以往由科技巨头主导的举措不同,非洲机构保留了对这一资源的所有权。凭借超过11,000小时的录音资料,WAXAL旨在解决长期存在的识别问题,同时赋能本地AI发展。多所大学已将其应用于从孕产保健到语言保护等多个项目。

February 12, 2026
AI多样性语音技术非洲创新
News

新基准测试旨在让AI电话通话更显人性化

声网与美团联合推出首个AI外呼行业评估标准VoiceAgentEval。该实用基准测试针对真实商业场景而非实验室环境,涵盖六大业务领域的30个子场景。系统采用真实通话数据,同时评估文本逻辑与语音质量,通过150组模拟对话测试AI表现。初步测试结果已识别出这一新兴领域的顶尖模型。

February 10, 2026
AI通信语音技术客户体验
News

ElevenLabs完成5亿美元巨额融资后估值飙升至110亿美元

语音AI先驱ElevenLabs已成功获得惊人的5亿美元新融资,使其估值飙升至110亿美元——较一年前增长了三倍。红杉资本领投本轮融资,现有支持者大幅增加了持股比例。该公司年经常性收入已达3.3亿美元,计划在全球范围内扩张业务,并从语音技术向能处理文本、视频并执行操作的多模态AI代理转型。

February 5, 2026
人工智能语音技术初创企业融资
News

搜狗输入法AI用户突破1亿,语音识别接近完美

腾讯旗下搜狗输入法迎来重大里程碑,其AI功能用户数已突破1亿。最新版本具备98%的语音识别准确率,每日处理的语音请求量高达20亿次。除技术升级外,此次更新还带来更智能的预测输入和更简洁的界面——证明AI甚至能让我们的键盘变得更实用。

January 27, 2026
AI助手语音技术腾讯产品
Qwen的AI餐饮助手:那些令人信服的通话背后无需人类参与
News

Qwen的AI餐饮助手:那些令人信服的通话背后无需人类参与

Qwen针对其餐厅预订AI由真人驱动的猜测作出回应。该公司透露其助手采用先进的情感识别技术,提供极具人性化的通话服务。该系统能在0.1秒内检测50多种情绪,并生成时机完美的回复。虽然有人质疑为何AI需要保持'工作时间',Qwen解释这实际上通过匹配餐厅营业时间提高了预订成功率。即将推出?个性化语音和多语言支持将助力全球餐饮预订。

January 26, 2026
AI助手语音技术Qwen
News

LiveKit跻身独角兽俱乐部,1亿美元融资助推AI语音革命

实时音视频基础设施提供商LiveKit近日完成1亿美元B轮融资,估值达10亿美元。该公司为OpenAI的ChatGPT语音功能提供技术支持,其快速增长反映了市场对无缝AI交互技术的旺盛需求,客户涵盖特斯拉到紧急服务部门。这家创立于疫情期间视频通话热潮的企业,如今已成为对话式AI革命的核心力量。

January 23, 2026
AI基础设施语音技术初创企业融资