背景:房颤检测的挑战
房颤(AF)是全球最常见的持续性心脏心律失常,影响数百万人,并伴有中风、心力衰竭和死亡的重大风险。这种疾病的隐匿性质给临床带来了重大难题:房颤往往在出现毁灭性并发症之前未被诊断出来,尤其是在随着年龄增长患病率呈指数级增加的老年群体中。目前依赖65岁及以上年龄阈值的筛查方法显示出有限的效果,促使研究人员探索更复杂的风险分层策略。
心血管医学中人工智能(AI)的出现为疾病检测开辟了新的前沿。特别是,基于AI的ECG模型在识别临床房颤表现前的细微电特征方面表现出显著的能力。关键问题是,当这些先进技术整合到服务老年人群的初级保健环境中时,是否能够有意义地提高筛查效率。
研究设计和方法学
VITAL-AF试验(在初级保健诊所中对老年人进行房颤筛查;NCT03515057)采用集群随机设计,在与麻省总医院相关的16个初级保健实践中进行。65岁及以上的患者被纳入,并按实践层面随机分配到筛查组或对照组。
在没有现患房颤且在入组前3年内至少进行过一次12导联ECG检查的参与者中(n=16,937),研究者使用了三种外部开发的验证模型来估计房颤风险:
第一个模型是心脏和衰老基因流行病学研究房颤(CHARGE-AF)临床评分,基于常规临床参数,包括年龄、种族、身高、体重、血压、糖尿病、心力衰竭和心肌梗死史。第二个模型称为ECG-AI,仅使用12导联ECG数据而不包含临床变量的AI算法。第三个模型CH-AI是一种新组合,整合了ECG-AI输出和CHARGE-AF临床变量。
主要终点评估了2年内发生房颤的区分能力,使用时间依赖的受试者操作特征曲线下的面积(AUROC)和平均精度指标。筛查效果量化为2年内房颤诊断率(每100人年)在筛查组和对照组之间的差异,按房颤风险十分位数分层。
风险模型区分性能
分析显示,三个测试模型在风险区分能力上存在显著差异。每个评分都显示出有意义的能力来区分2年内会发展为房颤的个体,但预测能力存在明显差异。
CHARGE-AF临床评分的AUROC为0.711(95% CI:0.671-0.749),与先前验证研究中的适度区分一致。相比之下,ECG-AI模型表现出色,AUROC为0.784(95% CI:0.743-0.819),绝对提高了约7个百分点。综合CH-AI模型的区分能力最高,达到0.788(95% CI:0.754-0.824),但相对于单独的ECG-AI的增量益处较小。
平均精度分析提供了不平衡数据集(如房颤预测)中更有信息量的评估。CHARGE-AF的平均精度为0.0952(95% CI:0.0836-0.112),而ECG-AI达到0.132(95% CI:0.113-0.157),CH-AI达到0.133(95% CI:0.117-0.159)。这些发现证实,ECG派生的AI特征捕捉到了超出传统临床风险因素的独立信息,尽管综合模型提供了最全面的风险评估。
不同风险分层的筛查效果
此次分析的核心问题在于筛查效益是否随潜在房颤风险而变化。研究者检查了预测风险十分位数的房颤诊断率,揭示了明显的梯度效应。虽然多个风险分层中观察到适度的筛查效果,但在最高风险人群中出现了最引人注目的发现。
在CH-AI预测风险最高的十分位数人群中,筛查显示出统计学上的显著益处。筛查组的房颤诊断率为每100人年10.07(95% CI:8.28-11.87),而对照组为每100人年7.76(95% CI:6.30-9.21)(P<0.05)。这一绝对差异为每100人年2.32(95% CI:0.01-4.63),相当于每年只需筛查43人即可多检测出一例房颤。
这一NNS与其他接受的筛查项目相比非常有利。例如,乳腺癌筛查通常需要400-500名女性接受筛查才能在大约10年内预防一例死亡。在高风险个体中观察到的显著较低的NNS表明,针对特定人群的房颤筛查可能是医疗资源的有效利用方式。
专家评论和临床意义
VITAL-AF分析的结果对心血管预防策略具有重要意义。麻省总医院和布罗德研究所的Steven Lubitz博士及其同事领导了这项研究,为房颤流行病学和检测的理解做出了重要贡献。他们的工作强调了一个在预防心脏病学中逐渐显现的基本原则:一刀切的筛查方法很少能优化检测收益与资源利用之间的平衡。
观察到的性能层次结构——ECG-AI优于单独的CHARGE-AF,综合CH-AI相对于单独的ECG-AI有轻微的额外益处——表明ECG派生信号可能捕获了导致房颤的基本病理生理底物。电重构、心房纤维化和在临床房颤出现前的微妙传导异常可能在标准ECG波形中显现。AI算法在识别这些细微特征方面表现出色。
然而,一些重要因素限制了立即实施的热情。该研究在一个特定的医疗系统内进行,具有特定的人口统计特征和电子健康记录基础设施。其在社区实践、农村地区以及具有不同种族/民族组成的人群中的通用性需要进一步研究。此外,通过AI指导的筛查早期检测房颤是否实际改善结果——特别是减少中风——尚未得到证实。筛查检测到的房颤的自然病程可能与临床诊断的疾病不同,抗凝治疗在筛查检测与症状性房颤中的获益需要前瞻性验证。
局限性和研究空白
几个方法学考虑需要承认。分析依赖于入组前3年内有ECG记录的参与者,这可能导致选择偏倚,倾向于医疗参与度更高的个体。VITAL-AF中用于筛查的单导联ECG与用于模型开发的12导联ECG不同,可能会影响性能特性。此外,2年的随访期可能低估了超过此窗口的长期房颤发展。
研究者恰当地指出,基于风险的方法固有的筛查效率与人口覆盖率之间的权衡。虽然将筛查限制在高危个体可以最大化每次筛查的收益,但必然会排除一些可能从中受益的个体。确定最佳风险阈值需要考虑可用资源、医疗系统容量和患者偏好。
未来的研究应探讨AI指导的筛查是否实际减少中风发病率和心血管死亡率,这些模型在不同医疗环境中的表现是否相似,以及如何将风险指导的筛查最优地整合到现有的初级保健工作流程中。比较风险指导与普遍筛查方法在老年人中的成本效益分析将为指南制定提供关键证据。
结论
VITAL-AF试验分析表明,基于ECG的AI模型,尤其是与临床风险因素结合时,可以有效识别从中受益最大的房颤高危老年人。CH-AI模型识别出一个每年NNS为43的高风险十分位数——这一发现表明,与基于年龄的普遍筛查方法相比,目标筛查策略可能会大幅提高检测效率。
这些发现支持向精准筛查的范式转变。与其仅根据年龄应用统一的筛查标准,整合AI衍生的风险分层可以使筛查资源的分配更加高效,同时最大限度地检测出临床显著的房颤。在广泛采用之前,需要实施研究来考察真实世界的可行性、患者接受度和长期结果。
这项研究的更广泛教训不仅限于房颤:将人工智能应用于现成的临床数据有可能通过启用基于风险而非人口统计学的筛查策略来改变预防心脏病学。随着医疗系统的数字化程度不断提高和AI能力的成熟,这种方法可能成为多种心血管疾病的标准化实践。
资助和试验注册
VITAL-AF试验(NCT03515057)由麻省总医院进行,得到了美国国立卫生研究院、美国心脏协会和麻省总医院研究学者奖的支持。赞助商在研究设计、数据收集、分析或手稿准备方面没有任何作用。作者声明与本次分析无关的利益冲突。
参考文献
1. Vedage NA, Friedman SF, Chang Y, Borowsky LH, Shah SJ, McManus DD, Atlas SJ, Singer DE, Lubitz SA, Maddah M, Ellinor PT, Khurshid S. 基于风险的房颤筛查与人工智能赋能的心电图模型:VITAL-AF试验分析。J Am Coll Cardiol. 2026;87(14):1798-1813. PMID: 41983618.
2. Alonso A, Soliman EZ, Chen LY, Bluemke DA, Folsom AR. 血压和心率与房颤发生的关系(来自多民族动脉粥样硬化研究[MESA])。Am J Cardiol. 2019;124(8):1225-1230.
3. Schnabel RB, Yin X, Gona P, et al. 框架心脏研究中50年来房颤患病率、发病率、危险因素和死亡率的趋势:一项队列研究。Lancet. 2015;386(9989):154-162.
4. Attia ZI, Noseworthy PA, Lopez-Jimenez F, et al. 一种用于识别窦性心律期间房颤患者的基于人工智能的心电图算法:预后预测的回顾性分析。Lancet. 2019;394(10201):861-867.



