台湾半导体制造公司（TSMC）报告季度收入创下新高，达到8685亿新台币，这主要得益于对人工智能相关硬件需求的激增。尽管技术行业和地缘政治因素面临一些市场挑战和不确定性，积极的财务结果表明2025年的前景依然强劲。

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

DeepSeek发布了实验性V3.2-exp模型，采用创新的稀疏注意力机制，显著降低了长上下文处理成本。初步测试显示API调用费用最高可节省50%，有望彻底改变AI服务的经济模式。该开源权重模型现已在Hugging Face上开放供行业验证。

DeepSeek V3.2-exp 通过稀疏注意力突破性技术大幅降低AI成本

Soul公司推出的SoulX-Podcast AI语音模型为播客制作带来突破性能力，支持90分钟以上不间断对话生成、多语言兼容及零样本声音克隆技术，这项创新将彻底改变媒体制作流程。

SoulX-Podcast AI模型革新长时语音生成技术

尽管AI在客服中迅速崛起，许多地区仍突显出对人工代表的迫切需求。专家强调在高效的AI与人类同情心之间取得平衡，以有效解决复杂的客户问题。

人工客服需求在AI局限性中增长

Anthropic收购了AI工具平台Humanloop的核心团队，以增强其企业级AI能力和安全研究。此举巩固了Anthropic在对抗OpenAI和Google DeepMind等竞争对手的AI市场中的地位。

Anthropic收购Humanloop团队以增强AI安全性

## 新工具衡量AI的规划能力

在人工智能发展的重要举措中，腾讯的混元团队与中国人民大学高瓴研究院的研究人员合作推出了PlanningBench——一个测试AI规划能力的开源框架。

![Image](https://www.ai-damn.com/1780833759392-9hc6n0.png)

### PlanningBench的工作原理

该系统创建了超过30种规划挑战的真实场景，系统性地变化任务复杂度、约束条件和可用资源等因素。其独特之处在于关注现实世界的适用性，测试类别包括：

- **调度**（会议、交通）
- **资源分配**（预算、材料）
- **人员安排**
- **路线优化**
- **制造工作流程**
- **应急响应规划**

开发团队解释说：“我们希望超越简单的问答评估，PlanningBench揭示了AI在面对相互竞争的优先事项和有限资源时，是否能像人类日常所做的那样，真正制定出可行的解决方案。”

### 这对AI发展的重要性

传统的AI测试往往陷入研究人员所称的“钻题陷阱”——模型在狭窄的测试集上表现良好，但在现实世界的复杂性中却举步维艰。PlanningBench通过以下方式解决了这个问题：

1. **难度扩展**：任务可以根据多个变量调整，而不仅仅是延长问题
2. **验证系统**：每个测试都包含检查清单，以验证解决方案是否满足所有要求
3. **全局评估**：捕捉部分正确但整体失败的规划

早期结果显示出希望。使用PlanningBench可验证数据训练的模型在专业规划任务和通用AI基准测试中都表现出了改进的性能。一位研究人员指出：“这就像卸掉了训练轮，我们看到技能在新情境中的迁移效果更好。”

该框架的开源性质意味着全球开发者可以贡献新的测试场景，可能加速AI规划能力的进步。对企业而言，这可能意味着更智能的调度系统、更高效的资源管理和更好的危机应对工具。

### 关键要点

- **开放合作**：腾讯与中国顶尖大学的联合项目
- **现实世界焦点**：测试模型基于实际规划挑战
- **全面评估**：衡量局部合规性和整体规划可行性
- **训练优势**：提升AI在多样化任务上的表现
- **开放访问**：框架可供社区贡献和改进

腾讯与中国人民大学联手开源AI规划工具

新工具衡量AI的规划能力

PlanningBench的工作原理

这对AI发展的重要性

关键要点

主要页面

内容分类

其他