评估FDA批准的人工智能医疗设备的临床通用性:见解与影响

评估FDA批准的人工智能医疗设备的临床通用性:见解与影响

亮点

人工智能医疗设备迅速扩展,尤其是在放射学和心血管专科领域,但只有约一半在FDA批准时提供了临床性能数据。
不到三分之一的临床研究报告了性别或年龄特异性数据,限制了对设备在不同人群中的适用性的了解。
回顾性设计主导了设备验证,前瞻性随机试验仍然罕见,引发了证据稳健性的质疑。
详细开发和性能数据的缺乏突显了评估这些设备临床通用性的显著差距。

研究背景与疾病负担

人工智能(AI)越来越多地集成到医疗设备中,承诺提高诊断准确性、预后预测和治疗指导。近年来,FDA认可并批准了数百个人工智能医疗设备,反映了广泛的临床兴趣和技术进步。这些设备主要针对高影响力的临床领域,如放射学——其中图像解释至关重要——以及心血管和神经学条件,及时决策可以显著影响结果。

尽管有这种增长,这些设备的广泛临床通用性——即它们在广泛患者群体和现实世界环境中安全有效运行的能力——仍不确定。通用性对于确保公平的医疗服务交付和防止有偏见或不准确的AI模型造成的伤害至关重要。此外,鉴于AI算法及其开发的复杂性,严格的临床验证研究至关重要,但在人口统计学包容性和前瞻性评估方面可能不足。

研究设计

这项横断面研究分析了截至2024年8月31日美国食品药品监督管理局(FDA)批准并公开列出的所有人工智能医疗设备。提取的数据包括设备专业领域、类型(仅软件与植入式)以及FDA摘要中报告的临床评估数据的存在情况。

主要终点评估了支持设备批准的临床性能研究的范围和设计、报告的判别性能指标(如敏感性、特异性和曲线下面积(AUC)),以及评估通用性所需的关键年龄和性别特异性亚组数据。

关键发现

共纳入903个人工智能医疗设备,主要集中在放射学(76.6%)、心血管医学(10.1%)和神经学(3.2%)。大多数是仅软件设备(73.5%),仅有少量为植入式(0.7%)。值得注意的是,FDA公共摘要中大部分缺乏详细的设备开发描述,包括训练数据和算法设计。

505个设备(55.9%)记录了临床性能研究,而218个设备(24.1%)明确报告没有性能研究。在这些研究中,回顾性设计最为常见(38.2%),前瞻性研究仅占8.1%,随机对照研究仅为2.4%。这引发了对许多设备证据基础的稳健性和可靠性的担忧。

判别性能指标的报告少于四分之一的设备,其中敏感性为36.2%,特异性为34.9%,AUC仅为16.2%。这些指标提供了诊断准确性的关键见解,但在公开可用的摘要中报告不足。

同样重要的是,性能数据中的人口统计学细节有限。只有28.7%的临床研究报告了性别特异性结果,23.2%涉及年龄相关亚组。这一不足阻碍了对AI设备在不同患者人口统计学中的表现的理解,这是临床通用性的关键因素。

专家评论

研究结果突显了人工智能医疗设备快速普及与支持其使用的临床证据的质量和透明度之间的显著差距。回顾性研究占据主导地位,虽然具有信息价值,但不如前瞻性或随机试验严格,后者对于确认效力和安全性是必要的。人口统计学亚组分析的缺乏引发了公平性问题;没有这些数据,设备在代表性不足的人群中可能会表现不佳或误诊。

此外,公开可访问的FDA摘要中缺乏详细的方法学数据限制了临床医生在采用前对设备进行批判性评估的能力。共同作者GCM Siontis博士强调了“持续监测和定期重新评估的重要性,以识别和解决在广泛临床使用过程中出现的意外性能变化”,指出监管批准不是终点,而是连续评估的开始。

这些挑战与更严格的AI医疗设备评估标准的广泛呼吁一致,包括采用前瞻性试验设计、透明的报告框架和积极的上市后监控。解决这些缺陷对于确保AI技术增强而非危及患者护理至关重要。

结论

这项综合分析表明,尽管人工智能医疗设备迅速获得监管批准,但临床证据基础和报告标准的显著局限性限制了其临床通用性。超过一半的设备缺乏前瞻性或随机评估,人口统计学亚组数据报告不频繁。

展望未来,通过前瞻性随机研究进行严格的临床验证,以及透明和包容的人口统计学数据报告,是必不可少的。这些措施将更好地保障AI医疗设备在不同患者群体中的有效和公平使用。临床医生和监管机构必须强调持续的上市后监控,以便及时发现和缓解任何性能下降或偏差。

这项研究突显了在充分实现人工智能在临床医学中的潜力的同时,平衡创新与严格证据的紧迫需求,以最小化与过早或未经充分验证的技术采用相关的风险。

参考文献

1. Windecker D, Baj G, Shiri I, Kazaj PM, Kaesmacher J, Gräni C, Siontis GCM. 人工智能医疗设备的临床通用性. JAMA Netw Open. 2025 Apr 1;8(4):e258052. doi:10.1001/jamanetworkopen.2025.8052. PMID:40305017; PMCID:PMC12044510.

2. Topol EJ. 高性能医学:人类与人工智能的融合. Nat Med. 2019 Jan;25(1):44-56. doi:10.1038/s41591-018-0300-7.

3. Amann J, Blasimme A, Vayena E, Frey D, Madai VI. 医疗保健中人工智能的可解释性:多学科视角. BMC Med Inform Decis Mak. 2020 Oct 20;20(1):310. doi:10.1186/s12911-020-01332-6.

4. FDA. 基于人工智能和机器学习的软件作为医疗设备(SaMD)行动计划. FDA.gov. 2021.

5. Gottesman O, Johansson F, Komorowski M, Faisal AA, Sontag D, Doshi-Velez F, Celi LA, Badawi O. 医疗保健中强化学习的指南. Nat Med. 2019 Jan;25(1):16-18. doi:10.1038/s41591-018-0342-5.

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注