亮点
- 系统性偏差的人工智能模型降低了临床医生对急性呼吸衰竭常见原因的诊断准确性。
- 提供人工智能生成的解释并未显著减轻偏差带来的负面影响。
- 即使解释突出了模型错误,临床医生对人工智能的过度依赖仍然存在。
- 该研究强调了在临床环境中部署未经充分验证的人工智能决策支持工具的潜在风险。
背景
人工智能(AI)和机器学习工具越来越多地用于辅助临床医生的诊断过程,旨在提高准确性和效率。然而,将人工智能引入临床决策并非没有风险。系统性偏差——由非代表性训练数据或有缺陷的模型开发引入的错误——可以通过人工智能输出传播,可能导致诊断错误和患者伤害。最近的监管指南提倡使用人工智能生成的解释作为防护措施,但这一策略的有效性仍不清楚。
住院患者因肺炎、心力衰竭或慢性阻塞性肺病(COPD)导致的急性呼吸衰竭需要及时和准确的诊断以获得最佳护理。在这种情况下,错误可能导致不适当的治疗、增加发病率和医疗成本。因此,研究人工智能工具(尤其是那些已知存在偏差的工具)如何影响诊断表现具有迫切的临床重要性。
研究概述与方法设计
Jabbour等人进行了一项随机临床案例调查研究(JAMA, 2023),评估标准和系统性偏差的人工智能模型对临床医生诊断准确性的影响。该调查于2022年4月至2023年1月在美国13个州进行,包括457名医院临床医生——医师、护士执业者和医师助理。参与者被随机分配接收带或不带解释的人工智能预测。
每位临床医生审查了九个精心构建的案例,代表住院的急性呼吸衰竭患者。每个案例包括症状、检查结果、实验室结果和胸部X光片。对于每个案例,临床医生评估三种目标诊断的概率:肺炎、心力衰竭或COPD。两个案例未提供人工智能输入(基线),六个案例包括人工智能预测(三个无偏差,三个系统性偏差),一个案例涉及模拟同行咨询。主要终点是诊断准确性:所有评估中正确诊断的比例。
关键发现
三种情况的基线诊断准确性为73%。当呈现标准(无偏差)人工智能模型预测时,临床医生的准确性略有提高——无解释时比基线提高2.9%,有解释时提高4.4%。然而,接触系统性偏差的人工智能模型预测导致性能显著下降:无解释时诊断准确性下降11.3%,有解释时下降9.1%。
统计分析表明,准确性的下降主要是由于特异性降低——临床医生在遵循有偏差的人工智能建议时更有可能做出假阳性诊断。值得注意的是,提供人工智能生成的解释并未实质性减轻这些危害。即使解释突出显示模型关注非相关图像区域,临床医生也经常未能发现潜在错误并继续依赖人工智能输出。
机制洞察与病理生理学背景
人工智能模型,特别是分析影像数据的模型,可能会无意中学到训练数据集中的非因果关联——如图像伪影或人口统计学混淆因素。当这些模型基于此类有缺陷的特征持续误分类时,系统性偏差就出现了。在这项研究中,有偏差的模型以临床医生不易察觉的方式系统性出错,导致诊断特异性下降。
解释未能减轻危害的原因可能是认知偏差,如自动化偏差(过度依赖算法输出)或锚定效应,即临床医生在面对相反证据时仍固守人工智能建议。此外,解释的技术复杂性或表面性可能限制其实际效用,特别是在临床医生缺乏时间或专业知识来批判性评估它们的情况下。
临床意义
这些发现提醒人们不要盲目采用人工智能诊断工具进行实际应用。虽然人工智能有望增强临床医生的表现,但系统性偏差的模型可能会削弱护理质量——尤其是在临床医生不了解或无法补偿这些缺陷时。该研究建议,至少目前实施的解释可能不足以防止人工智能驱动的诊断错误传播。
对于医院医生和急性护理团队而言,这强调了在解读人工智能辅助建议时保持持续的临床警惕和怀疑的重要性。卫生系统应优先对人工智能工具进行严格的外部验证和偏差评估,临床医生可能受益于针对人工智能解释局限性的专项教育。
局限性与争议
必须考虑几个局限性。该研究使用基于网络的案例而非实时临床会诊,可能会高估或低估人工智能相对于实际实践的影响。临床医生群体偏向年轻,可能不代表实际执业医院医生的经验分布。此外,该研究专注于三种常见疾病的诊断决策,结果可能不适用于其他疾病或专科。
关于人工智能解释的最佳设计和透明度也有持续的辩论。一些专家主张采用更互动或情境敏感的解释框架,而另一些专家则认为,内在模型透明度永远无法替代严格的临床监督。
专家评论或指南定位
未参与该研究的医院医学专家Suman Pal博士指出:“有趣的是,解释并没有显著减轻系统性偏差的人工智能模型预测导致的临床医生准确性下降。”当前来自FDA等监管机构的专业指南强调可解释性,但尚未具体规定有效减轻偏差的标准。
结论
人工智能诊断模型中的系统性偏差可以显著降低临床医生的准确性,简单的解释框架可能不足以防止伤害。随着人工智能在医院护理中的深入整合,强大的验证、透明度和临床医生教育将是最大化利益同时最小化风险的关键。进一步的研究应集中在开发和测试更有效的策略,以识别和纠正临床工作流程中的人工智能驱动偏差。
参考文献
1. Jabbour S, Fouhey D, Shepard S, Valley TS, Kazerooni EA, Banovic N, Wiens J, Sjoding MW. Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study. JAMA. 2023 Dec 19;330(23):2275-2284. doi:10.1001/jama.2023.22295 IF: 55.0 Q1 .2. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med. 2019;25(1):44-56. doi:10.1038/s41591-018-0300-7 IF: 50.0 Q1 .3. U.S. Food & Drug Administration. Artificial Intelligence and Machine Learning in Software as a Medical Device. FDA; 2021.