跳转到主要内容

OpenAI推出具备图像与语音能力的GPT-Realtime

OpenAI发布GPT-Realtime:多模态AI交互的重大飞跃

OpenAI正式推出迄今最先进的GPT-Realtime语音转语音模型,专为生产级语音代理设计。这款多模态模型整合文本、音频和图像输入,标志着AI驱动通信的重要里程碑。

GPT-Realtime:重新定义语音交互

GPT-Realtime通过单一端到端架构取代传统多模型方案(语音转文本、文本推理、文本转语音),降低延迟的同时保留语调、情感和口音等细微特征,实现更自然的对话体验。

Image

核心能力

  • 非语言信号识别:捕捉笑声、停顿等线索以提升交互真实感
  • 语言与语调调节:支持无缝语言切换,并适应不同场景调整语调(如专业或热情)
  • 高精度推理:在BigBenchAudio基准测试中达到82.8%准确率,较前代模型的65.6%显著提升
  • 优化指令跟随:复杂任务(如逐字朗读法律声明)准确率从20.6%提升至30.5%

Image

创新功能拓展应用场景

图像输入支持

模型可处理图像并描述内容,为语音交互增添视觉上下文——特别适用于教育或客户支持场景。

通信集成

  • 远程MCP与SIP电话呼叫:开发者可将GPT-Realtime集成至电话系统以扩展实时交互范围
  • 细粒度上下文控制:通过可复用提示词和会话修剪等功能实现精准对话管理

开发者成本优化

OpenAI下调API定价:

  • 音频输入:每百万token 32美元(原价40美元)
  • 音频输出:每百万token 64美元(原价80美元) 这使得GPT-Realtime成为企业部署客服或个人助理语音代理的高性价比解决方案。

行业影响

此次发布加剧了与Anthropic的Claude Voice及Mistral的Voxtral等竞品的竞争。分析师预测GPT-Realtime的多模态特性将加速其在客服中心和实时翻译领域的应用普及。

未来展望

OpenAI计划扩展至视频等其他模态,进一步巩固其多模态生态系统。结合近期发布的Agents SDK,开发者可用极少量代码将文本应用升级为语音功能。

关键要点

  • 多模态掌控力:支持文本、音频和图像输入以实现更丰富交互
  • 成本降低:API定价下调20%,提升可及性
  • 行业标杆:以低延迟与高表现力树立新标准
  • 开发者友好:通过MCP/SIP协议与现有系统无缝集成

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

OpenAI秘密项目Sweetpea剑指AirPods
News

OpenAI秘密项目Sweetpea剑指AirPods

OpenAI似乎正通过与苹果传奇设计师Jony Ive合作,大胆进军硬件领域。他们的秘密项目Sweetpea凭借非传统的鹅卵石造型设计和先进AI技术,有望颠覆音频市场。消息人士透露这款未来感十足的耳机最早可能于9月上市。

January 14, 2026
OpenAIWearableTechJonyIve
News

OpenAI从谷歌和Moderna挖角顶尖人才以主导AI战略推进

OpenAI进行了战略性招聘,从Moderna聘请Brice Challamel来推动企业AI应用。凭借在Moderna和谷歌云实施AI解决方案的丰富经验,Challamel将专注于将OpenAI的研究转化为实际的商业应用。此举标志着OpenAI从纯研究转向帮助企业负责任地大规模部署AI。

January 13, 2026
OpenAIAIStrategyEnterpriseTech
News

OpenAI再下重注:第二次超级碗广告攻势

OpenAI正加倍押注其超级碗营销策略,据传计划在明年大赛期间再次推出高调广告。此举标志着AI聊天机器人领域竞争加剧,科技巨头们正争夺消费者注意力。尽管OpenAI保持市场领先地位,但竞争对手正在缩小差距,促使其通过大众媒体渠道进行激进的品牌建设。

January 13, 2026
OpenAISuperBowlAIMarketing
News

OpenAI数据收集行为引发合同工担忧

OpenAI正因要求承包商上传真实工作样本(从PPT到代码库)用于AI训练而引发争议。尽管公司提供了清除敏感信息的工具,但法律专家警告这种做法存在重大风险。该事件凸显了AI行业对优质训练数据的渴求,同时也试探了知识产权保护的边界。

January 12, 2026
OpenAIAI伦理数据隐私
OpenAI打响2026年第一枪,揽入Convogo核心人才
News

OpenAI打响2026年第一枪,揽入Convogo核心人才

OpenAI以战略人才收购开启新年,将Convogo创始团队纳入麾下以增强其企业级AI产品。这笔全股票交易使得三位联合创始人加入OpenAI的AI云计划,同时他们现有的教练平台将逐步关闭。这标志着OpenAI在十二个月内的第九次收购,该公司正通过针对性团队收购而非产品买断来积极扩展其生态系统。

January 9, 2026
OpenAI人工智能收购企业科技
News

阿里云新工具包为日常设备注入AI智能

阿里云发布了一款颠覆性的开发工具包,将其强大的AI模型打包成硬件制造商可即插即用的解决方案。该工具包整合了语音、视觉和语言能力,帮助智能眼镜、机器人等设备自然地理解用户并与之互动。凭借从作业辅导到创意工具等预制功能,制造商现可在数周而非数月内为其产品添加类人智能。

January 8, 2026
Alibaba CloudAI硬件智能设备