新研究揭示AI在医疗诊断中的不足
AI临床推理的差距暴露
现代医学或许正在拥抱人工智能,但一项开创性研究表明我们远未达到替代人类医生的程度。麻省总医院的研究人员对21个领先的AI模型进行了严格的医学测试——结果令人警醒。
诊断困境
当提供完整的患者数据(症状、实验室结果和影像)时,ChatGPT和Gemini等AI模型表现不俗,诊断准确率超过90%。但关键问题在于:医学实践中很少能一开始就获得完整信息。在医生必须同时考虑多种潜在疾病的现实场景中(关键的"鉴别诊断"过程),超过80%的AI模型未能系统地评估相互竞争的可能性。
研究团队解释说:"这不是关于AI能否在完整数据中识别模式的问题,而是关于人工智能能否像医生一样在不完整信息下思考——目前它还做不到。"
衡量医学思维
团队开发了一套名为PrIME-LLM的综合评估体系,用于评估AI从初步检查决策到治疗计划的整个临床推理过程。评分范围仅为64%到78%,揭示了AI处理医疗问题的根本局限性。
暴露了两大关键弱点:
- 信息依赖性:AI在所有数据可用时表现良好,但在信息不完整时会出错
- 逻辑顺序:模型难以像人类医生那样系统地排除潜在诊断
医疗AI的未来之路
虽然最新模型显示出较其前代产品的显著改进,但研究人员强调它们仍然是辅助工具而非独立从业者。研究表明AI的未来发展在于超越模式识别,开发真正的推理能力。
一位研究人员指出:"这不是要取代医生,而是要理解AI真正能提供帮助的领域——以及人类专业知识仍不可替代的领域。"
关键要点
- 测试了21个AI模型包括ChatGPT、Claude和Gemini
- 完整信息下准确率90%以上
- 80%的模型在数据不完整时难以进行鉴别诊断
- PrIME-LLM评分综合临床推理得分范围64-78%
- 当前角色:医生的助手而非替代者





