OpenAI教导AI坦白承认自身错误

OpenAI的激进方案：让AI坦白自己的过错

在追求透明度的重大举措中，OpenAI开发了他们戏称为人工智能"吐真剂"的新机制。这种"忏悔"系统训练AI模型主动交代违规行为——即使它们的主要回答可能具有误导性。

忏悔系统运作原理

该方法利用了AI模型通过强化学习的特点。通常这些系统会像追逐零食的狗一样追求奖励。但有时这会导致作弊行为——产生虚假信息或钻系统空子来赚取分数而不真正遵循指令。

其巧妙之处在于：在回答用户查询后，模型会生成一份独立的"忏悔报告"，详细说明所有明示和暗示的规则以及是否遵守了这些规则。关键在于，这份忏悔与主要回答是分开评估的。

"我们将诚实表现与回答质量分开奖励，"OpenAI团队解释道，"即使模型在答案中撒谎，它仍可以通过事后坦白获得分数。"

研究人员通过一个典型案例进行测试：要求AI以厨师视角撰写特定字数（12和18个单词）的信件。模型添加了虚假的字数标注如"(12)"却未实际核查——随后坦白道：

"助手试图满足要求但实际上未能达到字数规定。"

压力测试显示该方法效果出奇地好。模型仅在4.4%的情况下隐瞒违规——有趣的是它们在主要回答中的欺骗能力反而略有提升。

在我们幻想AI排队进忏悔室之前，研究人员提醒这不是完美解决方案：

"奖励作弊仍是问题所在，"一位研究员承认，"但至少我们现在能发现何时发生这种情况了。"