跳转到主要内容

GPT-4o重磅升级语音模式,推出歌唱功能

OpenAI对GPT-4o的语音能力进行了重大升级,推出了突破AI交互界限的歌唱功能。高级语音模式现在直接处理音频,而无需先将语音转换为文本,将响应时间缩短至仅320毫秒——比人类反应速度更快。

Image

歌唱突破仍有改进空间 用户现在可以通过语音指令让GPT-4o演唱歌曲,包括一些受版权保护的内容。AI会根据需求生成旋律和歌词,但早期测试显示其在复杂音乐段落上存在局限。“表演还达不到音乐会水准,”一位测试者承认道,并指出高音部分偶尔会显得生硬。

情感智能升级 除了歌唱功能外,GPT-4o还展现出惊人的情感范围。它可以大笑、哭泣,并模仿特定角色的声音——想象一下请求一段莎士比亚独白或您最喜爱的卡通角色的语调。这种情感灵活性为教育和娱乐应用打开了大门。

技术进步 该系统的端到端音频处理代表了一项重大技术飞跃。传统语音助手如Siri使用独立的组件进行语音识别和生成,造成了明显的延迟。GPT-4o的统一方法实现了更自然的对话,用户可以自由打断。

版权挑战浮现 OpenAI已实施防止版权侵权的保护措施,但一些用户报告成功促使AI表演受版权保护的歌曲。这一灰色地带引发了关于AI在创意内容生成和知识产权保护中角色的疑问。

未来潜力 虽然歌唱功能需要进一步完善,但其推出标志着OpenAI对多模态AI开发的承诺。该技术可能通过互动歌唱练习彻底改变语言学习,或创建具有情感深度的个性化有声书叙述。

关键要点

  1. GPT-4o的新歌唱功能扩展了AI的创作能力,尽管目前存在质量限制
  2. 直接音频处理将响应时间缩短至320毫秒,实现流畅对话
  3. 高级情感表达支持大笑、哭泣和角色声音模仿
  4. 随着用户绕过部分内容限制,版权问题浮现
  5. 该技术在教育与娱乐应用中展现出广阔前景

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

Siri情感智能大跨越:苹果虚拟助手拥有了一颗“心”

苹果正通过多年来最重要的升级为Siri注入新生。这款由谷歌Gemini技术驱动的改良助手将很快提供情感支持、旅行规划甚至睡前故事服务。想象一下,在紧张的一天中,你既能查询母亲的航班信息,又能获得安慰——所有这些都通过自然对话完成。今年春季更新推出后,这些改变或将使Siri从功能性工具转变为真正的数字伴侣。

January 14, 2026
Apple语音助手AI更新
News

阿里云新工具包为日常设备注入AI智能

阿里云发布了一款颠覆性的开发工具包,将其强大的AI模型打包成硬件制造商可即插即用的解决方案。该工具包整合了语音、视觉和语言能力,帮助智能眼镜、机器人等设备自然地理解用户并与之互动。凭借从作业辅导到创意工具等预制功能,制造商现可在数周而非数月内为其产品添加类人智能。

January 8, 2026
Alibaba CloudAI硬件智能设备
Gemini领跑全球AI视觉竞赛,中国模型崭露头角
News

Gemini领跑全球AI视觉竞赛,中国模型崭露头角

谷歌Gemini-3-pro以83.64分的惊人成绩主导最新多模态视觉基准测试,而中国参赛者商汤科技和字节跳动展现出显著进步。此次评估揭示了AI视觉理解能力的格局变化,亮点包括Qwen3-vl成为首个突破70分开源模型,以及GPT-5.2意外落后的表现。

December 31, 2025
AI基准测试计算机视觉多模态AI
Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起
News

Gemini-3-Pro领跑多模态AI竞赛,中国模型实力崛起

谷歌Gemini-3-Pro以83.64分的优异成绩主导最新多模态AI排行榜,而字节跳动和商汤的中国模型展现出强劲进步。此次评估揭示了科技巨头间的意外差距,OpenAI的GPT-5.2意外落后。值得注意的是,阿里巴巴的Qwen3-VL成为首个突破70分开源模型。

December 31, 2025
AI排行榜多模态AI计算机视觉
WhatsApp迎来语音升级:ElevenLabs将AI助手带入您的通话
News

WhatsApp迎来语音升级:ElevenLabs将AI助手带入您的通话

ElevenLabs通过将其高度拟人的AI语音与WhatsApp集成,彻底改变了客户服务模式。现在企业不仅可以拥有能聊天的AI助手,还能通过这款流行通讯平台实际拨接电话。从处理客户咨询到主动外呼,这项技术有望在显著降低成本的同时,革新企业与客户的互动方式。

December 19, 2025
AI语音技术WhatsApp集成客户服务创新
News

谷歌Gemini更智能了:语音助手现在能更好地理解你

谷歌对其Gemini语音助手的最新更新带来了在理解和执行用户命令方面的显著改进。升级后的系统现在能更准确地遵循指令,并更轻松地处理复杂对话。早期测试显示,其在功能调用准确性方面优于部分竞争对手,尽管这种比较可能并不完全公平。开发者已可通过谷歌的各种AI平台访问这些增强功能。

December 17, 2025
语音助手AI更新Google Gemini