研究发现ChatGPT的科学判断力不足
新研究揭露ChatGPT的科学不一致性
在复杂的科学判断方面,ChatGPT可能并不像它自信的语气所暗示的那样可靠。华盛顿州立大学最近的一项研究描绘了AI在这一关键领域的局限性,情况令人担忧。
表面之下的缺陷
Mesut Cicek教授的团队对ChatGPT进行了严格测试,分析了其对商业期刊719个研究假设的回答。结果如何?虽然初始准确率看似不错,约为80%,但深入分析后发现了严重问题:
- 准确性仅略优于猜测:考虑随机因素后,表现仅略高于50/50的概率——研究人员称之为"低D级"表现。
- 尤其不擅长识别错误:该模型正确识别错误陈述的概率仅为16.4%。
- 版本升级无济于事:即使是ChatGPT-5 mini等更新版本在这些任务上也没有显著改进。
一致性问题
研究还发现了另一个令人不安的模式——ChatGPT常常无法坚持自己的答案。研究人员多次提交每个假设后发现:
"在某些情况下,使用完全相同的提示会得到完全矛盾的回应,"Cicek教授指出。"一个查询可能会像掷硬币一样在'真'和'假'答案之间交替变化。"
虽然该模型在约73%的情况下能保持结论一致,但在可靠性至关重要的专业环境中,这仍然留下了很大的误差空间。
这对企业的意义
研究团队向企业决策者发出了明确警告:
- 不要将流畅误认为专业:ChatGPT的流畅语言可能掩盖其缺乏真正理解的事实。
- 始终验证输出结果:切勿未经人工审查就将AI结论视为最终决定。
- 对员工进行适当培训:员工需要了解AI的能力和局限性两方面知识。
"这些工具实际上并不像人类那样'知道'任何事情,"Cicek解释道。"它们只是在匹配训练数据中的模式,而不是通过推理解决问题。"
关键要点:
- ChatGPT在科学真相验证方面表现挣扎,准确率仅略高于随机猜测
- 回答存在一致性问题,有时答案会完全反复变化
- 新版本在这些特定任务上改进甚微
- 提醒商业领袖不要过度依赖AI进行复杂判断
- 尽管AI表现令人信服,人工验证仍然必不可少

