跳转到主要内容

新研究揭露ChatGPT科学判断缺陷

ChatGPT的自信掩盖了科学不一致性

当ChatGPT以斩钉截铁的态度给出答案时,你可能会以为它知道自己在说什么。但华盛顿州立大学的新研究提示我们:在信任AI处理复杂科学判断前应该三思。

令人不安的发现

Mesut Cicek教授团队使用商业期刊中的719个研究假设对ChatGPT进行了严格测试,结果发人深省:

  • 表面欺骗性:虽然初始准确率约80%,但排除随机猜测因素后实际表现骤降至60%——仅比抛硬币略好
  • 真相盲区:模型尤其不擅长识别错误陈述,正确率仅16.4%——被研究人员称为"D级低分"表现
  • 惊人矛盾:对相同问题重复提问时,ChatGPT在超过四分之一案例中改变主意。某些回答会在完全相同的提示下于"正确"和"错误"间剧烈摇摆

研究意义

该研究揭示了AI自我呈现与实际能力间的关键差距。"流畅的语言会迷惑用户",Cicek解释道,"但这不意味着系统理解自己所言。"

最新版本更新也未能解决这些根本局限。测试显示ChatGPT-5 mini在这些特定任务上表现与早期版本相似——尽管宣传铺天盖地,却未见实质改进。

对企业的实际影响

对考虑采用AI辅助决策的组织,该研究提出明确警示:

  1. 切勿视AI为最终权威:必须通过人类专家验证输出结果
  2. 培训员工认识局限:员工应清楚AI的优势与短板所在
  3. 警惕矛盾模式:当答案随查询变化时要特别谨慎

核心结论?虽然AI工具可以是得力助手,但尚未准备好取代人类对复杂事务的判断——至少目前如此。

关键要点:

  • WSU研究中ChatGPT科学准确性仅略胜随机猜测
  • 模型对相同问题频繁自相矛盾
  • 错误陈述识别能力尤其薄弱(16.4%准确率)
  • 版本更新未显著改善这些局限
  • 建议企业对重要决策保持人工监督

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

《大英百科全书》因AI训练纠纷起诉OpenAI

《大英百科全书》已对OpenAI提起诉讼,指控这家科技公司非法使用近10万篇受版权保护的文章来训练其ChatGPT模型。诉讼称ChatGPT的输出内容经常与《大英百科全书》的内容'几乎一字不差',可能会将读者从原始来源分流。此案标志着内容创作者与AI开发者之间围绕版权界限持续紧张关系的又一章节。

March 17, 2026
著作权法人工智能伦理ChatGPT
News

《大英百科全书》就ChatGPT使用内容问题将OpenAI告上法庭

《大英百科全书》和韦氏词典已对OpenAI提起诉讼,指控其未经授权使用其内容训练ChatGPT。出版商声称AI生成的摘要正在分流其网站的流量。这一具有里程碑意义的案件可能重新定义AI时代的版权边界。

March 17, 2026
AI版权OpenAI诉讼ChatGPT
News

OpenAI考虑推出成人内容模式引发内部争议

OpenAI首席执行官Sam Altman正推动ChatGPT'成人模式'计划,引发激烈内部辩论。虽然承诺将成年用户'当作成年人对待',但对安全风险和伦理影响的担忧持续存在。该拟议功能将允许认证用户访问浪漫内容,但公司内部的分歧和监管障碍可能会延迟实施。

March 17, 2026
OpenAIChatGPT人工智能伦理
OpenAI豪掷10亿美元通过新合作伙伴关系推动企业AI应用
News

OpenAI豪掷10亿美元通过新合作伙伴关系推动企业AI应用

OpenAI正从AI开发转向实际应用落地,与私募股权公司谈判成立10亿美元的合资企业以加速企业集成。ChatGPT制造商计划直接向客户公司派驻工程师,同时扩大与咨询巨头的合作。随着Anthropic等竞争对手采取类似策略,这标志着AI行业正从炫酷演示转向实际实施。

March 17, 2026
OpenAI企业级AI人工智能
News

OpenAI将把Sora视频魔法带入ChatGPT——迪士尼角色或加入盛宴

OpenAI计划将其Sora视频生成工具直接整合到ChatGPT中,这一大胆举措旨在重振平台活力。尽管Sora在2025年首次亮相时令人惊叹,但后续的局限性使热情降温。该集成或将 democratize 视频创作,但伴随高昂的计算成本——可能导致包括付费使用迪士尼角色在内的新盈利模式。这延续了OpenAI进军多媒体工具的 broader push,或将彻底改变普通用户的内容创作方式。

March 16, 2026
OpenAISoraChatGPT
ChatGPT 现已化身您的全能个人助手
News

ChatGPT 现已化身您的全能个人助手

OpenAI 已将 ChatGPT 从简单的聊天机器人转变为连接您喜爱应用的强大枢纽。现在,您可以通过自然对话订餐、预订行程、创作设计等。虽然目前仅限北美地区,但这一功能预示着人工智能将无缝连接我们数字服务的未来。

March 16, 2026
ChatGPTAI集成数字助手