新加坡研究人员开创医疗AI突破性标准
新型评估标准推动医疗AI飞跃发展
电子健康记录已成为现代医学的命脉,包含从检测结果到治疗方案的所有信息。如今,新加坡研究人员首次创建了标准化方法来衡量人工智能理解和处理这些关键文档的能力。
构建更优基准
南洋理工大学团队耗时数月开发EHRStruct——一个严谨的测试框架,可评估AI在以下方面的表现:
- 临床场景理解
- 认知处理水平
- 功能性医疗应用
"我们像设计医学院课程那样构建这个体系,"首席研究员林伟振博士解释道,"正如医生需要多样化技能一样,AI系统需要多重能力来处理真实世界的患者数据。"
该基准包含2200个精心挑选的样本,涵盖11项核心任务——从解读实验室结果到预测治疗成效。医学专业人士与计算机科学家合作确保临床相关性。
关于医疗AI的惊人发现
在测试20个领先AI模型时,研究人员发现:
- 通用语言模型常优于专业医疗AI
- 性能表现因信息格式化方式差异显著
- 微调方法产生的影响超出预期
最佳组合?谷歌Gemini模型结合EHRMaster框架实现了比当前顶级医疗AI高15%的准确率。
这对患者的意义
准确处理健康记录的AI可以:
- 减少诊断错误
- 发现被忽视的药物相互作用
- 更快识别需要紧急护理的患者
团队已发起EHRStruct Challenge 2026以促进全球医疗AI能力提升。
"这不只是学术研究,"林博士强调道,"更好的AI工具意味着医生花更少时间与数据系统纠缠,更多时间专注于重要事项——他们的患者。"
关键要点:
- 首个评估病历AI的标准化基准(EHRStruct)
- 测试显示通用AI可超越专业医疗模型
- 输入格式显著影响性能准确性
- 新挑战旨在加速全球医疗AI进步
