台湾半导体制造公司（TSMC）报告季度收入创下新高，达到8685亿新台币，这主要得益于对人工智能相关硬件需求的激增。尽管技术行业和地缘政治因素面临一些市场挑战和不确定性，积极的财务结果表明2025年的前景依然强劲。

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

微信已加大力度打击利用人工智能冒充名人的不当行为，仅一个月内暂停了超过3,000个账户。此次打击旨在保护用户并维护平台的完整性，尤其是在对人工智能技术被不当营销手段利用的担忧日益增加的背景下。

微信对人工智能名人冒充行为采取行动

OpenAI旗下ChatGPT推出全新'立即购买'功能，用户可直接在聊天界面完成购物。与Etsy等平台的整合简化了礼品采购流程，兼顾便捷与高效。商家虽需支付费用，但获得了全新销售渠道。

ChatGPT推出即时购买功能

OpenAI推出了升级版视频生成模型Sora 2，其真实感显著提升，同时发布了配套社交应用Sora。该平台通过'Cameos'功能允许用户创建以自己为主角的个性化视频。目前这款集成了AI生成内容与社交分享功能的应用正在北美进行邀请制测试，并实施了严格的安全措施。

OpenAI发布Sora 2视频模型及社交应用

字节跳动和 POSTECH 研究人员开发了一种 groundbreaking 的 1.58 位量化 FLUX 模型，达到了 7.7 倍的内存使用减少，同时提高了性能。这个创新有望改善在资源受限设备上部署文本到图像模型的能力。

BytePush 发布 1.58 位 FLUX 模型以提高 AI 效率

## 新框架测试AI的解决问题能力

当我们要求AI助手规划日程或优化工作流程时，如何真正知道它们做出了正确决策？这正是腾讯与中国人民大学通过新开源的PlanningBench框架试图解决的挑战。

![Image](https://www.ai-damn.com/1780747328935-n1tz1v.png)

该框架由腾讯混元团队与中国人民大学高瓴人工智能学院合作开发，为评估大语言模型处理现实规划场景的能力创建了标准化测试。但它不止于简单测试——该框架实际上能帮助训练AI系统成为更好的规划者。

## 超越理论基准

PlanningBench的独特之处在于其对实际应用的关注。团队系统分析了六大类真实规划场景：
- **调度**（会议、交通等）
- **资源分配**
- **人员安排**
- **路线优化**
- **生产运营**
- **应急响应规划**

"我们希望避免创建另一个模型可以简单记忆答案的狭窄基准，"项目团队解释，"通过覆盖多样化场景，确保AI系统发展出真正的解决问题能力。"

该框架包含30多种具体任务类型，每种都有可调节难度级别。研究人员可以调整以下因素：
- 任务结构的复杂性
- 约束条件的层级
- 资源的可用性

这使得测试能精细反映现实挑战，而非人为的学术练习。

## 内置验证系统

一个突出特点是PlanningBench的验证机制。每个测试案例都附带检查清单，用于验证AI提出的解决方案是否：
1. 真正满足既定要求
2. 恰当考虑所有约束条件
3. 在给定条件下提供最优结果

"表面看起来不错的计划是不够的，"开发团队指出，"我们需要发现那些AI生成看似合理但实际会失败的方案。"

早期测试显示，使用PlanningBench可验证数据训练的模型在专项规划任务和通用基准测试上表现显著更好。这表明该框架提供了可迁移的学习能力，能提升整体推理水平。

## 开源促进广泛影响

通过将PlanningBench作为开源项目发布，合作方希望建立评估AI规划能力的通用标准。该工具可帮助：
- 学术研究人员衡量AI推理进展
- 企业评估潜在AI解决方案
- 开发者提升模型的实践技能

随着AI系统承担更复杂的决策角色，像PlanningBench这样的工具对于确保这些技术在实际场景中可靠工作将变得越来越重要。

### 关键要点
- **实践测试：** 覆盖六大应用领域30多个现实规划场景
- **内置验证：** 每个测试包含验证解决方案质量的检查清单
- **训练优势：** 模型在规划和通用任务上均表现提升
- **开放访问：** 作为开源软件向所有研究者和开发者开放

腾讯与中国人民大学合作开源AI规划工具

新框架测试AI的解决问题能力

超越理论基准

内置验证系统

开源促进广泛影响

关键要点

主要页面

内容分类

其他