高准确性和跨人群稳健性:AI-ECG模型在LVSD检测中通过独立验证
亮点
- 对四个国际AI-ECG模型进行独立验证,结果显示其在检测左心室收缩功能障碍(LVSD)方面的表现强劲,AUROC范围从0.83到0.93。
- 即使在复杂度较低的亚组中(AUROC 0.87–0.96),这些模型仍然有效,表明其在普通筛查人群中的实用性。
- 尽管性能高,但大多数已发表的AI-ECG模型由于报告不充分和缺乏外部验证而存在较高的偏倚风险。
- 模型可用性的有限仍然是数字健康工具独立验证和临床转化的主要瓶颈。
改善LVSD筛查的临床需求
左心室收缩功能障碍(LVSD)是症状性心力衰竭的主要前兆,与显著的发病率、死亡率和医疗费用相关。早期检测LVSD——通常定义为左心室射血分数(LVEF)≤40%或≤50%——至关重要,因为基于证据的药物干预(如SGLT2抑制剂和ACE抑制剂)可以显著改善预后。然而,目前的筛查方法,包括体检和N端前脑钠肽(NT-proBNP)测试,往往缺乏成本效益人口筛查所需的敏感性和特异性。虽然超声心动图是金标准,但由于成本和需要专业人员,其用于大规模筛查的应用受到限制。
人工智能增强的电生理图(AI-ECG)作为一种潜在的变革性解决方案应运而生。通过将深度学习应用于标准12导联ECG数据,这些模型可以识别出肉眼无法察觉的心脏结构疾病的细微模式。尽管已发表了许多模型,但它们通常在同一医疗系统内开发和验证,这引发了其在不同患者人口统计学和临床环境中的通用性问题。
研究设计:严格的外部验证方法
在JACC Advances上发表的一项具有里程碑意义的研究中,Croon等研究人员试图通过系统评价和首次头对头独立验证AI-ECG模型来解决这些问题。研究人员从35项研究中确定了51个模型,但在透明度方面遇到了重大障碍:只有来自韩国、美国、台湾和荷兰的四个研究小组同意分享他们的模型以供独立测试。
外部验证使用了一个表型良好的登记册,其中包含1,203名连续接受常规临床心脏磁共振成像(MRI)的患者。MRI作为LVEF评估的金标准。队列的平均年龄为59岁,女性占35%。研究人员评估了模型在两个组中的表现:总连续队列和一个低复杂度亚组,旨在模拟15% LVSD患病率的筛查人群。使用预测模型偏倚风险评估工具(PROBAST)评估偏倚风险。
关键发现:性能指标和模型一致性
头对头比较的结果非常一致。在总患者队列中,四个模型的受试者工作特征曲线(AUROC)范围从0.83到0.93。当应用于低复杂度亚组——更代表初级保健或筛查环境的群体时——表现有所提高,AUROC范围从0.87到0.96。
各亚组的一致性
最显著的发现之一是这些模型在各种患者特征中的稳健性。在不同的年龄组和性别中,表现保持较高水平。然而,研究确实发现了某些临床场景中表现略有下降的情况。在QRS波群宽度≥120毫秒或心房颤动的患者中,模型的准确性较低。这是生物学上合理的,因为主要传导异常可能会掩盖AI模型通常用于检测LVSD的细微复极化变化。
模型一致性
有趣的是,尽管这些模型是在地理和种族多样的人群中训练的——从东亚到北美和欧洲队列——但模型之间存在显著的一致性。这表明这些神经网络所学到的特征可能代表了心脏的基本病理生理变化,而不是特定人群的伪影。
应对偏倚和可重复性的挑战
尽管性能数据令人鼓舞,但研究的系统评价部分强调了心血管领域AI研究的重大关切。研究人员发现,大多数已发表的模型存在较高的偏倚风险。常见问题包括:
- 对开发队列和排除标准描述不足。
- 关于模型校准方式的清晰度不足。
- 在原始出版物中未能进行独立外部验证。
此外,模型共享率低(35项研究中只有4项)凸显了进展的主要障碍。要使AI-ECG成为标准临床工具,医学界必须转向开放科学文化,使模型可供独立审计和在多样化临床环境中验证。
专家评论:从实验室到临床
Croon等人的研究结果为AI-ECG的临床效用提供了强有力的证据基础。低复杂度亚组中的高AUROC特别有希望用于初级保健中心的心力衰竭筛查。如果集成到标准ECG机器中,这些算法可以提供即时、低成本的风险评估,识别需要进一步通过超声心动图评估的患者。
然而,临床实施不仅仅是高AUROC。我们必须考虑这些模型的“黑箱”性质。临床医生通常不愿意依赖他们无法理解其基本生理原理的算法。未来的研究应重点放在可解释的AI(XAI)技术上,以突出ECG波形中哪些部分驱动预测。此外,还需要前瞻性随机试验来确定AI-ECG引导的筛查是否比当前的标准护理实践更能改善临床结果,如减少住院率或死亡率。
结论:呼吁数字健康领域的开放科学
这项首项独立验证研究证实,AI-ECG是检测LVSD的强大工具,即使在不同人群中训练的模型也表现出高准确性。四个共享模型之间的结果一致性表明,该技术正在成熟,准备接受更严格的临床测试。
然而,该研究也提醒我们透明度的重要性。文献中的高偏倚风险和难以获得模型以进行验证是重大障碍。为了真正革新心脏病学,研究人员必须优先考虑可重复性和开放访问。只有通过独立验证,我们才能建立必要的信任,将这些数字工具整合到常规临床实践中,最终改善心力衰竭高危患者的护理。
参考文献
Croon PM, Boonstra MJ, Allaart CP, 等. 用于检测左心室功能障碍的人工智能增强电生理图模型:一项对比研究. JACC Adv. 2026;5(2):102572. doi:10.1016/j.jacadv.2025.102572.
Heidenreich PA, Bozkurt B, Aguilar D, 等. 2022年AHA/ACC/HFSA心力衰竭管理指南:美国心脏病学会/美国心脏协会联合委员会临床实践指南报告. J Am Coll Cardiol. 2022;79(17):e263-e421.
Attia ZI, Kapa S, Lopez-Jimenez F, 等. 使用人工智能增强电生理图筛查心脏收缩功能障碍. Nat Med. 2019;25(1):70-74.

