OpenAI推出具备图像与语音能力的GPT-Realtime欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

OpenAI推出具备图像与语音能力的GPT-Realtime

OpenAI发布GPT-Realtime：多模态AI交互的重大飞跃

OpenAI正式推出迄今最先进的GPT-Realtime语音转语音模型，专为生产级语音代理设计。这款多模态模型整合文本、音频和图像输入，标志着AI驱动通信的重要里程碑。

GPT-Realtime：重新定义语音交互

GPT-Realtime通过单一端到端架构取代传统多模型方案（语音转文本、文本推理、文本转语音），降低延迟的同时保留语调、情感和口音等细微特征，实现更自然的对话体验。

核心能力

非语言信号识别：捕捉笑声、停顿等线索以提升交互真实感
语言与语调调节：支持无缝语言切换，并适应不同场景调整语调（如专业或热情）
高精度推理：在BigBenchAudio基准测试中达到82.8%准确率，较前代模型的65.6%显著提升
优化指令跟随：复杂任务（如逐字朗读法律声明）准确率从20.6%提升至30.5%

创新功能拓展应用场景

图像输入支持

模型可处理图像并描述内容，为语音交互增添视觉上下文——特别适用于教育或客户支持场景。

通信集成

远程MCP与SIP电话呼叫：开发者可将GPT-Realtime集成至电话系统以扩展实时交互范围
细粒度上下文控制：通过可复用提示词和会话修剪等功能实现精准对话管理

开发者成本优化

OpenAI下调API定价：

音频输入：每百万token 32美元（原价40美元）
音频输出：每百万token 64美元（原价80美元）这使得GPT-Realtime成为企业部署客服或个人助理语音代理的高性价比解决方案。

行业影响

此次发布加剧了与Anthropic的Claude Voice及Mistral的Voxtral等竞品的竞争。分析师预测GPT-Realtime的多模态特性将加速其在客服中心和实时翻译领域的应用普及。

未来展望

OpenAI计划扩展至视频等其他模态，进一步巩固其多模态生态系统。结合近期发布的Agents SDK，开发者可用极少量代码将文本应用升级为语音功能。

关键要点

多模态掌控力：支持文本、音频和图像输入以实现更丰富交互
成本降低：API定价下调20%，提升可及性
行业标杆：以低延迟与高表现力树立新标准
开发者友好：通过MCP/SIP协议与现有系统无缝集成

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

OpenAI秘密项目Sweetpea剑指AirPods

OpenAI秘密项目Sweetpea剑指AirPods

OpenAI似乎正通过与苹果传奇设计师Jony Ive合作，大胆进军硬件领域。他们的秘密项目Sweetpea凭借非传统的鹅卵石造型设计和先进AI技术，有望颠覆音频市场。消息人士透露这款未来感十足的耳机最早可能于9月上市。

January 14, 2026

OpenAIWearableTechJonyIve

OpenAI从谷歌和Moderna挖角顶尖人才以主导AI战略推进

OpenAI进行了战略性招聘，从Moderna聘请Brice Challamel来推动企业AI应用。凭借在Moderna和谷歌云实施AI解决方案的丰富经验，Challamel将专注于将OpenAI的研究转化为实际的商业应用。此举标志着OpenAI从纯研究转向帮助企业负责任地大规模部署AI。

January 13, 2026

OpenAIAIStrategyEnterpriseTech

OpenAI再下重注：第二次超级碗广告攻势

OpenAI正加倍押注其超级碗营销策略，据传计划在明年大赛期间再次推出高调广告。此举标志着AI聊天机器人领域竞争加剧，科技巨头们正争夺消费者注意力。尽管OpenAI保持市场领先地位，但竞争对手正在缩小差距，促使其通过大众媒体渠道进行激进的品牌建设。

January 13, 2026

OpenAISuperBowlAIMarketing

OpenAI数据收集行为引发合同工担忧

OpenAI正因要求承包商上传真实工作样本（从PPT到代码库）用于AI训练而引发争议。尽管公司提供了清除敏感信息的工具，但法律专家警告这种做法存在重大风险。该事件凸显了AI行业对优质训练数据的渴求，同时也试探了知识产权保护的边界。

January 12, 2026

OpenAIAI伦理数据隐私

OpenAI打响2026年第一枪，揽入Convogo核心人才

OpenAI打响2026年第一枪，揽入Convogo核心人才

OpenAI以战略人才收购开启新年，将Convogo创始团队纳入麾下以增强其企业级AI产品。这笔全股票交易使得三位联合创始人加入OpenAI的AI云计划，同时他们现有的教练平台将逐步关闭。这标志着OpenAI在十二个月内的第九次收购，该公司正通过针对性团队收购而非产品买断来积极扩展其生态系统。

January 9, 2026

OpenAI人工智能收购企业科技

阿里云新工具包为日常设备注入AI智能

阿里云发布了一款颠覆性的开发工具包，将其强大的AI模型打包成硬件制造商可即插即用的解决方案。该工具包整合了语音、视觉和语言能力，帮助智能眼镜、机器人等设备自然地理解用户并与之互动。凭借从作业辅导到创意工具等预制功能，制造商现可在数周而非数月内为其产品添加类人智能。

January 8, 2026

Alibaba CloudAI硬件智能设备

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

NanoBanana 2：您的AI驱动视觉创意伙伴

Director.ai - 无代码网页自动化工具

腾讯推出用于图像和文本的AI检测工具

谷歌与PayPal联合推出AP2协议，开启AI驱动支付新时代