跳转到主要内容

AI会议遭遇讽刺:数千篇同行评审由AI代笔

AI反客为主:学术会议直面自动化危机

国际学习表征会议(ICLR)正陷入一个讽刺性困境——其严谨的同行评审系统被该会议本应研究的技术所提交的内容淹没。最新分析显示,人工智能撰写了今年近四分之一的评审意见。

自动化规模

第三方检测工具审查了ICLR 2026提交的全部76,000篇评审:

  • 21% 完全由大语言模型生成
  • 35% 存在显著AI编辑痕迹
  • 43% 确认为人类撰写

自动化评审并不含蓄——它们通常比人类撰写的篇幅更长,且平均给出更高分数。但质量与数量并不匹配。许多包含研究者所称的'幻觉引用',即引用不存在的论文;还有些错误地标记投稿中的数值错误。

反弹与改革

这一发现引发研究者愤慨,他们发现自己作品竟由算法而非同行评判。社交媒体充斥着对荒谬反馈的投诉和追责诉求。

组委会回应称将实施'史上最严'反制措施:

  • 投稿方面:未声明使用大语言模型的论文将遭立即拒稿
  • 评审方面:允许AI辅助,但审稿人须对内容准确性全权负责
  • 新监督机制:作者可私下标记可疑评审申请调查,承诺两周内反馈结果

危机根源

会议主席承认结构性压力加剧了危机。随着AI研究呈指数级增长:

  • 每位审稿人需在严格的两周期限内处理约五篇论文
  • 工作量远超往年预期
  • 许多人可能将AI工具视为省时的拐杖

该事件引发关于生成式AI时代学术诚信的深刻拷问。当机器评价机器时,谁来保障质量?正如某研究员推文所言:'同行评审不该变成无人担责的自动化实验。' 未来数周将检验ICLR的新规能否重建信任——抑或学术会议需要更根本性改革来应对它们亲手助推的AI革命。

关键要点:

  • ICLR超15,000篇评审完全由AI生成
  • 自动化评审往往更长但准确性更低
  • 新规禁止未声明的投稿及评审AI使用
  • 研究者现可标记可疑评估申请调查
  • 事件折射出AI扩散背景下维持学术标准的广泛挑战

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

Meta Llama 4丑闻:AI野心如何导致道德失范

Meta曾备受赞誉的Llama AI项目陷入动荡,有关操纵基准数据的真相浮出水面。前首席科学家Yann LeCun证实存在道德违规行为,暴露出内部冲突及扎克伯格施加的仓促开发压力。这起丑闻对Meta的AI战略及其在快速发展的人工智能领域保持道德竞争的能力提出了严峻质疑。

January 12, 2026
MetaAI伦理科技丑闻
News

OpenAI数据收集行为引发合同工担忧

OpenAI正因要求承包商上传真实工作样本(从PPT到代码库)用于AI训练而引发争议。尽管公司提供了清除敏感信息的工具,但法律专家警告这种做法存在重大风险。该事件凸显了AI行业对优质训练数据的渴求,同时也试探了知识产权保护的边界。

January 12, 2026
OpenAIAI伦理数据隐私
News

Grok因AI生成露骨内容争议限制图像创建功能

埃隆·马斯克的人工智能工具Grok在遭遇强烈反对后,已暂停面向多数用户的图像生成功能,因其能创建未经同意的露骨内容。此举正值监管压力加剧之际,尤其是英国官员威胁将禁止该平台。虽然付费订阅用户仍可访问该功能,但批评者认为这并未解决通过AI进行数字剥削的核心问题。

January 9, 2026
AI伦理内容审核数字安全
英国首相要求采取行动,马斯克的Grok AI引发深度伪造丑闻
News

英国首相要求采取行动,马斯克的Grok AI引发深度伪造丑闻

英国首相基尔·斯塔默对埃隆·马斯克的X平台发出严厉警告,因其Grok AI生成露骨的深度伪造内容。此前有报道披露该聊天机器人被用于制作女性和未成年人的色情化图像,引发争议。英国监管机构正调查其是否违反网络安全法,斯塔默誓言对此类‘不可接受’的内容采取‘强硬措施’。

January 9, 2026
AI伦理深度伪造监管社交媒体责任
News

X平台被AI生成虚假裸照淹没引发全球抵制

埃隆·马斯克的X平台面临日益增长的压力,据报道其AI工具Grok正以惊人速度生成虚假裸照——每小时高达6700张。名人、记者甚至女性国家领导人都成为这些深度伪造的受害者。全球各国政府正在介入,欧盟、英国和印度已展开调查,指控马斯克个人关闭了安全过滤器。

January 9, 2026
AI伦理深度伪造社交媒体监管
NYU教授42美分的AI口试揭露作弊漏洞
News

NYU教授42美分的AI口试揭露作弊漏洞

一位NYU教授发现,在笔试中表现出色的学生往往无法口头解释基本概念。他的解决方案?每次仅需42美分的AI口试。尽管部分学生感到压力,70%的参与者承认这种测试比传统方法更能衡量真实理解力。该实验既揭示了作弊漏洞,也展现了AI变革学术评估的潜力。

January 5, 2026
教育领域AI应用学术诚信NYU创新