跳转到主要内容

研究发现ChatGPT的科学判断力不足

新研究揭露ChatGPT的科学不一致性

在复杂的科学判断方面,ChatGPT可能并不像它自信的语气所暗示的那样可靠。华盛顿州立大学最近的一项研究描绘了AI在这一关键领域的局限性,情况令人担忧。

表面之下的缺陷

Mesut Cicek教授的团队对ChatGPT进行了严格测试,分析了其对商业期刊719个研究假设的回答。结果如何?虽然初始准确率看似不错,约为80%,但深入分析后发现了严重问题:

  • 准确性仅略优于猜测:考虑随机因素后,表现仅略高于50/50的概率——研究人员称之为"低D级"表现。
  • 尤其不擅长识别错误:该模型正确识别错误陈述的概率仅为16.4%。
  • 版本升级无济于事:即使是ChatGPT-5 mini等更新版本在这些任务上也没有显著改进。

一致性问题

研究还发现了另一个令人不安的模式——ChatGPT常常无法坚持自己的答案。研究人员多次提交每个假设后发现:

"在某些情况下,使用完全相同的提示会得到完全矛盾的回应,"Cicek教授指出。"一个查询可能会像掷硬币一样在'真'和'假'答案之间交替变化。"

虽然该模型在约73%的情况下能保持结论一致,但在可靠性至关重要的专业环境中,这仍然留下了很大的误差空间。

这对企业的意义

研究团队向企业决策者发出了明确警告:

  1. 不要将流畅误认为专业:ChatGPT的流畅语言可能掩盖其缺乏真正理解的事实。
  2. 始终验证输出结果:切勿未经人工审查就将AI结论视为最终决定。
  3. 对员工进行适当培训:员工需要了解AI的能力和局限性两方面知识。

"这些工具实际上并不像人类那样'知道'任何事情,"Cicek解释道。"它们只是在匹配训练数据中的模式,而不是通过推理解决问题。"

关键要点:

  • ChatGPT在科学真相验证方面表现挣扎,准确率仅略高于随机猜测
  • 回答存在一致性问题,有时答案会完全反复变化
  • 新版本在这些特定任务上改进甚微
  • 提醒商业领袖不要过度依赖AI进行复杂判断
  • 尽管AI表现令人信服,人工验证仍然必不可少

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

当AI意见不一:演员一个简单问题难倒五大科技巨头

演员刘美涵发现自己陷入了一个语言学困境——五款主流AI工具对'铸币坊'的发音各执一词。这些数字助手给出的答案相互矛盾,甚至同一款应用在不同设备上也会给出不同结果。这个有趣的事件揭示了我们认为万无一失的技术助手背后令人惊讶的不一致性。最终,一本传统字典平息了争论——证明有时人类的参考工具仍能胜过人工智能。

March 2, 2026
AI局限性语言技术中文发音
Gemini 3 Deep Think 超越全球99.999%程序员,仅七人未被其超越
News

Gemini 3 Deep Think 超越全球99.999%程序员,仅七人未被其超越

谷歌Gemini 3 Deep Think AI在编程与科学推理领域取得惊人突破,现已在Codeforces平台上超越除七名人类选手外的所有竞争者。它不仅精于编码,更能发现同行评审遗漏的物理学论文细微错误,并能在一夜之间将草图转化为精准的3D模型。此次升级标志着AI推理能力开始比肩人类直觉的重要转折点。

February 13, 2026
人工智能编程科学研究
News

AI的意外困境:为何六岁儿童能胜过顶级模型

一项突破性研究表明,即便是Gemini 3 Pro Preview等先进AI模型,在视觉推理能力上也难以匹敌六岁儿童。研究人员揭示了硅基大脑在四个关键领域的缺陷,从忽略细微细节到空间想象力的不足。这一发现挑战了我们对AI优越性的假设,并引发了对具身智能未来的思考。

January 23, 2026
AI局限性视觉推理认知发展
News

AI模型在简单日历问题上栽跟头

令人意外的是,包括Google AI概览、ChatGPT和Claude在内的主流AI模型在被问及'2027年是明年吗'时,竟在基础日历逻辑上出错。虽然部分模型在对话中途自我纠正,但初始错误暴露出这些系统对时间和序列认知存在意料之外的缺陷。唯有Google的Gemini 3给出了正确答案,凸显出AI推理能力仍面临持续挑战。

January 19, 2026
AI局限性机器学习科技故障
News

GPT-5.2:辉煌与困惑并存的混合体

OpenAI最新发布的GPT-5.2在专业基准测试中表现亮眼,却在简单问题上频频出错。尽管在编程和职业测试等专业任务上超越人类,它却连竞争对手都能轻松应对的基础常识问题都难以解决。这种惊人的反差引发了关于AI真实智能的热烈争论——这究竟是技术进步还是选择性倒退?

December 16, 2025
GPT-5AI局限性机器智能
研究发现:AI生成的社交媒体帖子仍缺乏人情味
News

研究发现:AI生成的社交媒体帖子仍缺乏人情味

新研究揭示,AI生成的社交媒体内容仍出人意料地容易被识别。人类能以70-80%的准确率分辨机器撰写的帖子,主要因为AI在情感表达和即兴发挥方面存在困难。该研究测试了Reddit和X等平台上的九种主流语言模型,发现未经调校的模型有时反而表现更好,因其避免了过度机械化的输出。

November 10, 2025
AI局限性社交媒体研究人机交互