台湾半导体制造公司（TSMC）报告季度收入创下新高，达到8685亿新台币，这主要得益于对人工智能相关硬件需求的激增。尽管技术行业和地缘政治因素面临一些市场挑战和不确定性，积极的财务结果表明2025年的前景依然强劲。

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

OpenAI推出了升级版视频生成模型Sora 2，其真实感显著提升，同时发布了配套社交应用Sora。该平台通过'Cameos'功能允许用户创建以自己为主角的个性化视频。目前这款集成了AI生成内容与社交分享功能的应用正在北美进行邀请制测试，并实施了严格的安全措施。

OpenAI发布Sora 2视频模型及社交应用

商汤科技发布SenseNova-SI系列模型，标志着AI空间理解能力的重大飞跃。该系列提供20亿和80亿参数版本，在基准测试中表现优于GPT-5和Gemini 2.5Pro等顶尖竞争对手。这一突破源于商汤采用大规模数据集的创新训练方法，提升了六大核心空间维度认知能力。公司还推出了EASI评估平台以标准化空间智能测评体系。

商汤科技新AI模型在空间智能领域超越GPT-5

Silicon Flow推出企业级模型即服务(MaaS)平台，解决AI模型部署中的五大关键挑战：适配性、性能、可靠性、质量与合规性。该解决方案支持快速模型集成与成本效益扩展，已在能源等行业实现成功落地转型。

Silicon Flow推出面向AI模型工业化的企业级MaaS平台

上海交通大学和剑桥大学的研究人员开发出Evo-0——一种新型视觉语言动作模型，显著提升了AI理解三维环境的能力。该模型无需额外传感器即可增强空间理解能力，在复杂任务中成功率最高提升31%。

机器人视觉领域重大突破：AI现在能更好地理解3D空间

# OpenAI即将推出颠覆性语音AI

ChatGPT可能很快会听起来更像人类。OpenAI正准备推出GPT-Bidi-1，这种新型语音模型将摆脱当前AI助手尴尬的轮替应答模式。该技术承诺实现自然流畅的对话——你可以打断提问、追加问题，并获得即时响应，不再有我们习以为常的语音AI那种不自然的停顿。

![Image](https://www.ai-damn.com/1781697816350-vdz07r.jpg)

## Bidi如何改变游戏规则

GPT-Bidi-1中的"双向"是指其能边处理语音边生成回复的能力。现有系统如同对讲机——需要等待发言时机。而GPT-Bidi-1的运作更接近人类对话，参与者可以自然地重叠发言并实时响应。

"这不仅仅是音质提升的问题，"斯坦福大学对话式AI研究员陈丽莎博士解释，"关键在于消除语音交互中的机械感。优雅处理打断的能力将大幅增强AI助手在对话中的存在感。"

![Image](https://www.ai-damn.com/1781697818016-6xnuyv.jpg)

## 三种速度适应不同需求

OpenAI计划让用户控制GPT-Bidi-1的响应方式：

- **深度模式**：适用于需要深思熟虑回复的复杂讨论
- **均衡模式**：日常对话中速度与深度的平衡选择
- **极速模式**：针对快速查询的闪电般应答

这种设计承认了用户有时需要快速获取天气预报，而另一些时候则希望进行哲学探讨的需求差异。

## 不止于聊天

此次发布表明OpenAI将语音视为AI未来的关键。虽然其文本模型发展迅猛（近期已推出GPT-5.5），语音能力却一直滞后。GPT-Bidi-1缩小了这个差距，并可能为以下领域铺路：

- 专用语音AI硬件（更智能的智能音箱）
- 面向呼叫中心和客户服务的进阶企业工具
- 为偏好语音输入的用户提供更便捷的AI体验

### 核心要点

- **双向处理**：GPT-Bidi-1可同步聆听与应答
- **自然流畅**：实时处理打断并调整响应
- **速度选项**：深度/均衡/极速三种响应模式可选
- **战略布局**：标志着OpenAI将语音作为主要AI交互界面
- **即将推出**：预计将与ChatGPT现有语音模式同步上线

OpenAI新型语音模型承诺带来更自然的对话体验

OpenAI即将推出颠覆性语音AI

Bidi如何改变游戏规则

三种速度适应不同需求

不止于聊天

核心要点

主要页面

内容分类

其他