新研究揭露ChatGPT科学判断缺陷欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

新研究揭露ChatGPT科学判断缺陷

ChatGPT的自信掩盖了科学不一致性

当ChatGPT以斩钉截铁的态度给出答案时，你可能会以为它知道自己在说什么。但华盛顿州立大学的新研究提示我们：在信任AI处理复杂科学判断前应该三思。

令人不安的发现

Mesut Cicek教授团队使用商业期刊中的719个研究假设对ChatGPT进行了严格测试，结果发人深省：

表面欺骗性：虽然初始准确率约80%，但排除随机猜测因素后实际表现骤降至60%——仅比抛硬币略好
真相盲区：模型尤其不擅长识别错误陈述，正确率仅16.4%——被研究人员称为"D级低分"表现
惊人矛盾：对相同问题重复提问时，ChatGPT在超过四分之一案例中改变主意。某些回答会在完全相同的提示下于"正确"和"错误"间剧烈摇摆

研究意义

该研究揭示了AI自我呈现与实际能力间的关键差距。"流畅的语言会迷惑用户"，Cicek解释道，"但这不意味着系统理解自己所言。"

最新版本更新也未能解决这些根本局限。测试显示ChatGPT-5 mini在这些特定任务上表现与早期版本相似——尽管宣传铺天盖地，却未见实质改进。

对企业的实际影响

对考虑采用AI辅助决策的组织，该研究提出明确警示：

切勿视AI为最终权威：必须通过人类专家验证输出结果
培训员工认识局限：员工应清楚AI的优势与短板所在
警惕矛盾模式：当答案随查询变化时要特别谨慎

核心结论？虽然AI工具可以是得力助手，但尚未准备好取代人类对复杂事务的判断——至少目前如此。

关键要点：

WSU研究中ChatGPT科学准确性仅略胜随机猜测
模型对相同问题频繁自相矛盾
错误陈述识别能力尤其薄弱（16.4%准确率）
版本更新未显著改善这些局限
建议企业对重要决策保持人工监督

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

《大英百科全书》因AI训练纠纷起诉OpenAI

《大英百科全书》已对OpenAI提起诉讼，指控这家科技公司非法使用近10万篇受版权保护的文章来训练其ChatGPT模型。诉讼称ChatGPT的输出内容经常与《大英百科全书》的内容'几乎一字不差'，可能会将读者从原始来源分流。此案标志着内容创作者与AI开发者之间围绕版权界限持续紧张关系的又一章节。

著作权法人工智能伦理ChatGPT

《大英百科全书》就ChatGPT使用内容问题将OpenAI告上法庭

《大英百科全书》和韦氏词典已对OpenAI提起诉讼，指控其未经授权使用其内容训练ChatGPT。出版商声称AI生成的摘要正在分流其网站的流量。这一具有里程碑意义的案件可能重新定义AI时代的版权边界。

AI版权OpenAI诉讼ChatGPT

OpenAI考虑推出成人内容模式引发内部争议

OpenAI首席执行官Sam Altman正推动ChatGPT'成人模式'计划，引发激烈内部辩论。虽然承诺将成年用户'当作成年人对待'，但对安全风险和伦理影响的担忧持续存在。该拟议功能将允许认证用户访问浪漫内容，但公司内部的分歧和监管障碍可能会延迟实施。

OpenAIChatGPT人工智能伦理

OpenAI豪掷10亿美元通过新合作伙伴关系推动企业AI应用

OpenAI豪掷10亿美元通过新合作伙伴关系推动企业AI应用

OpenAI正从AI开发转向实际应用落地，与私募股权公司谈判成立10亿美元的合资企业以加速企业集成。ChatGPT制造商计划直接向客户公司派驻工程师，同时扩大与咨询巨头的合作。随着Anthropic等竞争对手采取类似策略，这标志着AI行业正从炫酷演示转向实际实施。

OpenAI企业级AI人工智能

OpenAI将把Sora视频魔法带入ChatGPT——迪士尼角色或加入盛宴

OpenAI计划将其Sora视频生成工具直接整合到ChatGPT中，这一大胆举措旨在重振平台活力。尽管Sora在2025年首次亮相时令人惊叹，但后续的局限性使热情降温。该集成或将 democratize 视频创作，但伴随高昂的计算成本——可能导致包括付费使用迪士尼角色在内的新盈利模式。这延续了OpenAI进军多媒体工具的 broader push，或将彻底改变普通用户的内容创作方式。

OpenAISoraChatGPT

ChatGPT 现已化身您的全能个人助手

ChatGPT 现已化身您的全能个人助手

OpenAI 已将 ChatGPT 从简单的聊天机器人转变为连接您喜爱应用的强大枢纽。现在，您可以通过自然对话订餐、预订行程、创作设计等。虽然目前仅限北美地区，但这一功能预示着人工智能将无缝连接我们数字服务的未来。

ChatGPTAI集成数字助手

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

LoveGen AI：即时生成图像与视频的创意助手

微信对人工智能名人冒充行为采取行动

Anthropic将Claude Code AI编程助手扩展至网页端

机器人视觉领域重大突破：AI现在能更好地理解3D空间