许多研究声称人工智能一样好(或更好)在解释医学图像人类专家的质量差,并且可以说是夸张的,有引发危险的“数以百万计的患者的安全警告在研究的BMJ今天。
他们的发现引起了人们对支持许多研究的证据质量的关注,并强调需要改进其设计和报告标准。
人工智能(AI)是一个创新且发展迅速的领域,具有改善患者护理和减轻负担过重的医疗服务的潜力。深度学习是AI的一个分支,在医学成像领域显示出特殊的希望。
关于深度学习的已发表研究的数量正在增长,并且一些媒体头条宣称对医生的卓越表现为快速实施提供了炒作。但是,尚未对这些标题背后的研究方法和产生偏差的风险进行详细研究。
为了解决这个问题,一组研究人员回顾了过去10年中发表的研究结果,将深度学习算法在医学成像中的表现与专家临床医生进行了比较。
他们发现只有两项合格的随机临床试验和81项非随机研究。
在非随机研究中,只有九项是前瞻性的(随着时间的推移跟踪和收集有关个人的信息),只有六项在“真实世界”的临床环境中进行了测试。
比较组中人类专家的平均人数仅为4,而访问原始数据和代码(以允许对结果进行独立审查)受到严重限制。
超过三分之二(81个中的58个)的研究被认为存在偏见的高风险(研究设计中可能影响结果的问题),并且对公认的报告标准的遵守通常很差。
四分之三(61项研究)指出,AI的表现至少可与(或优于)临床医生相提并论,只有31项(38%)指出需要进一步的前瞻性研究或试验。
研究人员指出了一些局限性,例如错过研究的可能性以及对深度学习医学影像研究的关注,因此结果可能不适用于其他类型的AI。
然而,他们说,目前,“存在许多与临床医生同等(或优于)的说法,这在社会层面上存在着患者安全和人口健康的潜在风险。”
他们警告说,过分乐观的语言“会使研究容易受到媒体和公众的误解,因此可能提供的不适当地照顾不一定与患者的最大利益相符”。
他们总结说:“通过确保我们不断发展高质量和透明报告的证据基础,可以最大程度地提高患者的安全性。”