AI会议遭遇讽刺:数千篇同行评审由AI代笔
AI反客为主:学术会议直面自动化危机
国际学习表征会议(ICLR)正陷入一个讽刺性困境——其严谨的同行评审系统被该会议本应研究的技术所提交的内容淹没。最新分析显示,人工智能撰写了今年近四分之一的评审意见。
自动化规模
第三方检测工具审查了ICLR 2026提交的全部76,000篇评审:
- 21% 完全由大语言模型生成
- 35% 存在显著AI编辑痕迹
- 仅 43% 确认为人类撰写
自动化评审并不含蓄——它们通常比人类撰写的篇幅更长,且平均给出更高分数。但质量与数量并不匹配。许多包含研究者所称的'幻觉引用',即引用不存在的论文;还有些错误地标记投稿中的数值错误。
反弹与改革
这一发现引发研究者愤慨,他们发现自己作品竟由算法而非同行评判。社交媒体充斥着对荒谬反馈的投诉和追责诉求。
组委会回应称将实施'史上最严'反制措施:
- 投稿方面:未声明使用大语言模型的论文将遭立即拒稿
- 评审方面:允许AI辅助,但审稿人须对内容准确性全权负责
- 新监督机制:作者可私下标记可疑评审申请调查,承诺两周内反馈结果
危机根源
会议主席承认结构性压力加剧了危机。随着AI研究呈指数级增长:
- 每位审稿人需在严格的两周期限内处理约五篇论文
- 工作量远超往年预期
- 许多人可能将AI工具视为省时的拐杖
该事件引发关于生成式AI时代学术诚信的深刻拷问。当机器评价机器时,谁来保障质量?正如某研究员推文所言:'同行评审不该变成无人担责的自动化实验。' 未来数周将检验ICLR的新规能否重建信任——抑或学术会议需要更根本性改革来应对它们亲手助推的AI革命。
关键要点:
- ICLR超15,000篇评审完全由AI生成
- 自动化评审往往更长但准确性更低
- 新规禁止未声明的投稿及评审AI使用
- 研究者现可标记可疑评估申请调查
- 事件折射出AI扩散背景下维持学术标准的广泛挑战

