ChatGPT语音升级增强实时翻译与情感表达
OpenAI发布了ChatGPT语音功能的重大升级,带来更自然的交互体验并引入实时翻译功能。这些改进面向付费订阅用户,标志着AI辅助通信领域的重大进步。
升级后的"高级语音模式"现在能生成更具情感细微差别的语音,包括更好地处理语调、停顿甚至讽刺语气。
来源说明:该图片由AI生成,图片授权服务提供商为Midjourney。
最突出的新增功能是实时翻译能力。用户可以选择语言对进行持续对话翻译——这对国际商务会议或多语言客户服务等场景特别有用。系统会保持翻译状态直至用户明确停止。
虽然更新带来了显著改进,但仍存在一些挑战。用户可能会遇到偶尔的音频故障,如音高波动或音量不一致。更令人困惑的是罕见的"幻觉"现象——系统会生成意外声音,从随机噪音到无法解释的背景音乐。甚至有报告提到会突然播放广告,尽管OpenAI坚持无广告政策。

该语音功能最初于2024年5月推出,去年10月扩展至欧盟市场。它能实现流畅的来回对话(包括打断),非常逼真地模拟人类对话模式。结合摄像头输入时,ChatGPT可提供环境实况解说,类似谷歌Gemini应用的功能。
订阅用户可轻松使用这些功能——只需在所有平台的聊天界面点击语言图标即可。随着AI语音技术的快速发展,这些升级使ChatGPT成为最逼真虚拟助手竞赛中的有力竞争者。
关键要点
- ChatGPT升级后的语音模式提供更具情感表现力且更自然的语音
- 新增实时翻译支持选定语言间的持续对话
- 仍存在一些音频质量问题,包括罕见的无法解释的声音生成现象
- 该功能跨平台可用,并能结合摄像头输入进行环境解说


