人工智能工具在原始健康系统之外的数据上表现更差


当对来自原始医院系统之外的X射线进行测试时 , 受过训练的可从胸部X射线检测的深度学习模型表现较差 , 这表明AI工具在用于临床环境之前应进行广泛的测试 。
根据发表在PLOS Medicine上的一项最新研究 , 设计用于筛选的卷积神经网络(CNN)在五分之三的自然比较中获得了比外部更好的内部表现 。
【人工智能工具在原始健康系统之外的数据上表现更差】这组作者说:“ CNN在X射线诊断疾病中的表现可能不仅反映了它们在X射线上识别特定于疾病的影像学发现的能力 , 还反映了它们利用混杂信息的能力 , ”作者说 。“基于用于模型训练的医院系统的测试数据对CNN的效果进行评估 , 可能会夸大其在现实世界中的效果 。”
随着在医疗保健中使用CNN进行计算机辅助诊断的兴趣日益浓厚 , 由纽约西奈山医院领导的研究小组决定评估在一个医院系统上训练的深度学习模型能否很好地推广到其他外部医院系统 。
该研究是在西奈山的伊坎医学院进行的 。研究人员使用来自三个机构的超过158,000例胸部X射线对深度学习模型进行了培训和评估 , 这些机构包括国立卫生研究院临床中心 , 西奈山医院和印第安纳大学患者护理网络 。
尽管在大多数比较中 , CNN的内部性能“显着超过”外部性能 , 但深度学习模型能够“检测出以高精度获取X射线并对其作弊的医院系统西奈山的新闻稿说:“根据培训机构的患病率预测性任务” 。
根据结果?? , 研究人员认为 , 应该在各种现实情况下对AI平台进行全面评估 , 以确保其准确性 。
“我们的发现应该让那些正在考虑快速部署人工智能平台 , 而没有严格评估它们在实际临床环境中的性能的人停下来 , 以反映出它们将被部署在何处 , ”伊坎医学院的高级作者兼神经外科讲师Eric Oermann医学博士医学在一份声明中说 。“训练有素的进行医学诊断的深度学习模型可以很好地推广 , 但是这不能被认为是理所当然的 , 因为不同机构的患者人群和成像技术存在很大差异 。”

    推荐阅读