阿里巴巴新型AI训练方法有望打造更稳定、更强大的语言模型
阿里巴巴突破性进展使AI训练更可靠
在快速发展的人工智能领域,阿里巴巴通义千问研究团队开发了一种可能改变游戏规则的大语言模型训练方法。他们新的软自适应策略优化(SAPO)方法解决了该领域长期存在的难题:在这些复杂系统的关键学习阶段保持其稳定性。

现有方法的问题
像GRPO和GSPO这样的传统方法依赖于专家所称的"硬截断"——本质上对AI一次性调整学习参数的程度设置严格限制。虽然这可以防止灾难性错误,但也带来了重大缺陷。想象一下戴着厚手套学钢琴:你不会弄坏任何东西,但会错过演奏中的微妙差别。
"现有方法经常丢弃宝贵的学习机会,"项目首席研究员李伟博士解释道。"如果序列的某部分表现不佳,当前系统可能会丢弃整个序列——就像因为一个别扭的句子而拒绝整篇文章一样。"
SAPO的不同之处
千问团队的解决方案用更复杂的方法取代了这些粗暴的限制。SAPO采用:
- 智能过滤:取代硬截断,使用平滑可调的阈值保留更多有用信息
- 非对称处理:对正负学习信号采取不同处理以提高效率
- 上下文感知:系统在序列和单个标记级别做出决策
这种方法在保持稳定性的同时,允许模型从更多经验中学习。早期测试显示该方法对专家混合模型特别有效——这些复杂架构支撑着当今最先进的AI系统。
实际性能提升
严格的多领域测试证明了其效果:
- 数学问题:采用SAPO的模型正确解出的复杂方程多15%
- 编程任务:生成的代码错误更少、结构更好
- 逻辑推理:在棘手的文字问题上表现更稳定
- 多模态挑战:能更有效地结合文本和视觉信息
"最让我们兴奋的是这些改进的广泛适用性,"李博士指出。"从技术应用到创造性任务,我们在各个方面都看到了更好的结果。"
团队已详细发表研究成果(论文链接:https://arxiv.org/abs/2511.20347),邀请全球AI社区进行同行评审和合作。
关键点:
- 阿里巴巴SAPO方法提供了训练大语言模型的更智能方式
- 用细致入微的自适应控制取代粗糙的"硬截断"
- 在保持稳定性的同时保留宝贵学习信号
- 在各种AI应用中显示出可衡量的改进
- 对复杂的专家混合架构特别有效





