NYU教授42美分的AI口试揭露作弊漏洞欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

NYU教授42美分的AI口试揭露作弊漏洞

学术作弊的0.42美元解决方案

图片来源说明：该图片由AI生成，图片授权服务商为Midjourney

当NYU教授Panos Ipeirotis和Konstantinos Rizakos在他们的"AI/ML产品管理"课程中发现可疑的完美作业时，他们没想到简单的口试会暴露出如此明显的知识漏洞——那些提交无懈可击论文的学生，却连自己作品的基本原理都解释不清。

AI如何成为终极助教

教授们利用ElevenLabs语音AI技术将这一发现转化为创新评估方法。他们的两阶段口试首先要求学生辩护项目决策，随后随机抽考课程内容。36名学生在9天内完成了25分钟的测试，总成本仅15美元——比外卖披萨还便宜。

"起初学生抱怨AI听起来像严厉的教授"，Ipeirotis坦言。早期版本有时会同时抛出多个问题造成混乱。经过调整后，虚拟考官在保持严谨标准的同时变得更善于对话。

评分革命

评分面临另一项挑战。使用Claude、Gemini和ChatGPT评估答案最初产生了不一致的结果。"就像有三个永远达不成共识的助教"，Rizakos开玩笑说。通过让AI相互校验评估结果，他们最终获得了高度一致的分数。

尽管70%的学生承认这种测试能有效衡量真实理解力，但许多人认为其压力大于笔试。"你没法糊弄AI"，一名参与者指出："它立刻能识别模糊答案并要求补充说明"

超越作弊检测

实验还发现了超出预期的益处。"有些学生明显理解概念但难以表述"，Ipeirotis观察到："现在我们知道该加强哪些教学内容了"

教授们相信AI口试可能成为标准实践——尤其对于技术类课程而言实操理解比华丽文笔更重要。每次测试42美分的成本也解决了学术预算限制这个永恒难题。

关键要点：

书面与口头差异：高分作业经常无法在口头测试中体现实际理解程度
经济型创新：AI监考将每班口试成本从数百美元降至个位数
有意义的压力：虽比笔试更紧张但多数学生认可该方法有效性
教学洞察：考试不仅发现作弊行为更揭示了需要关注的真实学习短板

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

ElevenLabs携新款iPhone音乐应用挑战Suno

语音AI领军企业ElevenLabs通过其新推出的iOS应用ElevenMusic进军音乐创作领域。该平台允许用户通过简单文本提示生成定制曲目，同时提供共享播放列表和混音工具等社交功能。针对高级用户定价为每月9.99美元，此举标志着ElevenLabs正从语音技术拓展至更广泛的创意媒体领域，与Suno和Udio等成熟平台展开竞争。

April 3, 2026

AI音乐ElevenLabs生成式音频

News

NeurIPS会议因虚假引用丑闻陷入信任危机

人工智能领域最负盛名的会议之一曝出惊人发现，大规模引用欺诈行为被揭露。GPTZero调查发现51篇NeurIPS论文中存在100多个伪造参考文献，包括虚构作者和无效DOI。这一丑闻凸显了学术出版日益增长的压力——自2020年以来会议投稿量翻倍增长，使同行评审系统不堪重负。

January 23, 2026

学术诚信AI研究同行评审

News

音乐传奇与AI联手打造突破性专辑

丽莎·明尼利和亚特·葛芬柯等传奇艺人正与ElevenLabs合作《The Eleven Album》，将人类艺术与人工智能创新相融合。该项目承诺音乐人拥有完全创作自主权，同时探索从流行到电子等多种流派的新声音领域。随着音乐产业努力应对技术的影响，这一雄心勃勃的尝试可能重新定义创意合作关系。

January 22, 2026

AIinMusicElevenLabsMusicInnovation

News

苹果AI论文遭遇波折：基准测试错误引发深夜调试狂潮

一篇声称小型模型在视觉推理上超越GPT-5的苹果研究论文，在北京研究员发现重大基准测试错误后受到质疑。杨磊发现官方代码中缺失图像输入，且约30%测试案例的真实标签有误。这一发现引发了紧急修正，并重新点燃了关于AI研究质量控制的讨论。

December 1, 2025

AI研究机器学习学术诚信

News

AI会议遭遇讽刺：数千篇同行评审由AI代笔

这则充满科技讽刺意味的事件中， prestigious ICLR 2026会议发现AI已渗透其同行评审流程。检测工具显示超过15,000篇评审完全由大语言模型生成，另有三分之一存在显著AI编辑痕迹。这些'机器评审'往往篇幅更长、评分更高——但频繁出现虚构引用或捏造错误。该丑闻迫使主办方出台严格新规，禁止在投稿和评审中未声明使用AI的行为。

November 28, 2025

学术诚信同行评审危机AI伦理