自适应AI变革心血管事件裁决:新算法在多个终点上实现接近人类的准确性

自适应AI变革心血管事件裁决:新算法在多个终点上实现接近人类的准确性

背景:临床试验中心血管事件裁决的挑战

临床终点分类(CEC)是当代临床试验中衡量心血管终点的金标准。这一严谨的过程确保终点事件的一致性和可重复性,从而最大限度地减少偏倚,提高试验结果的有效性。然而,传统的CEC方法带来了巨大的实际负担:需要大量的时间、财务资源和专业技能。随着心血管试验变得越来越复杂,涉及多个终点和复杂的复合定义,对高效且准确的终点裁决的需求比以往任何时候都更加迫切。

医疗保健领域人工智能(AI)的出现为自动化复杂的临床评估开辟了新的可能性。大型语言模型和基于变换器的架构在理解和处理医学文本方面表现出色,引发了是否可以利用这些技术进行终点裁决的问题。然而,人们对AI系统在不同试验人群、终点定义和数据收集方法中的通用性仍存有疑虑。

2026年3月发表在《循环》杂志上的一项开创性研究直接解决了这些挑战。由杜克大学及其合作机构的研究人员领导的研究团队开发并验证了一种专门用于心血管事件裁决的自适应AI算法,其雄心勃勃的目标是创建一个能够适应新终点定义而无需完全重新训练的系统。

研究设计与方法

研究人员采用多阶段的方法来开发和验证他们的自适应AI系统,该系统被命名为ADAPT-CEC。该算法最初使用来自ODYSSEY OUTCOMES试验的数据推导而来,这是一个大型III期心血管结局试验,招募了近期急性冠状动脉综合征患者。推导队列集中在三个关键的心血管终点:心肌梗死(MI)、中风和心力衰竭。

为了外部验证,研究人员转向了EUCLID试验,该试验招募了患有稳定动脉粥样硬化性心血管疾病的患者。这种外部验证尤为重要,因为EUCLID试验包括与ODYSSEY OUTCOMES不同的终点定义,提供了测试算法适应性的机会。重要的是,EUCLID验证包含了一个适应阶段,在此阶段,算法接收了每种终点类型的20个疑似EUCLID事件的信息。这一短暂的适应旨在帮助系统学习特定试验的细微差别,而无需广泛的重新训练。

EUCLID验证中检查的主要终点包括心肌梗死、中风、心血管死亡和出血事件——后者代表了一个根本不同的终点类别,不属于原始推导集的一部分。

为了建立性能基准,研究人员将ADAPT-CEC与两种替代方法进行了比较。第一种是使用GPT 4.0(最先进的大型语言模型)直接裁决,没有任何特定试验的微调。第二种是一种混合方法,其中ADAPT-CEC处理预测确定性较高的疑似事件,而确定性得分最低的30%的事件则转交人工裁决。

性能主要通过F1分数评估,F1分数平衡了精确度和召回率,提供了一个全面的分类准确性度量。次要分析考察了正确分类的终点和非终点的百分比,以及不同裁决策略对估计治疗效果的影响。

关键发现:各策略之间的性能比较

该研究评估了13,885个疑似EUCLID主要终点事件,为性能比较提供了坚实的数据集。结果显示,三种裁决策略之间的分类准确性存在显著差异。

对于特定的终点事件,ADAPT-CEC正确分类了86.4%的事件,而混合方法达到了95.6%的准确率,GPT 4.0单独分类的准确率为76.3%。值得注意的是,所有三种方法在识别非终点事件方面的表现都非常出色,ADAPT-CEC的分类率为99.4%,混合方法为99.6%,GPT 4.0为99.8%。这种近乎完美的特异性表明,AI系统可能特别适合高效排除终点事件,从而减少对明显非病例的不必要人工审查。

个别终点的详细F1指标显示了细致的性能模式。混合方法在所有终点类型中始终实现了最高的F1分数:心血管死亡达到0.94(95% CI 0.92-0.96),心肌梗死达到0.80(95% CI 0.77-0.82),中风达到0.82(95% CI 0.78-0.86),出血事件达到0.83(95% CI 0.82-0.85)。

与混合方法相比,ADAPT-CEC在心血管死亡、心肌梗死和中风方面的F1指标较低但具有临床相关性。然而,值得注意的是,尽管GPT 4.0没有接受特定试验定义的适应,ADAPT-CEC在出血事件上的表现(F1 0.78,95% CI 0.77-0.79)优于GPT 4.0。这一发现表明,ADAPT-CEC的适应过程为未包含在原始推导集中的终点带来了显著优势。

或许最具有临床相关性的是关于治疗效果估计的发现。EUCLID试验的主要终点是心血管死亡、心肌梗死或中风的复合终点。所有裁决策略的危险比估计值惊人地一致:人工裁决得出HR 1.02(95% CI 0.93-1.13),混合裁决得出HR 1.04(95% CI 0.94-1.15),ADAPT-CEC得出HR 0.98(95% CI 0.88-1.09),GPT 4.0单独估计HR 1.06(95% CI 0.95-1.19)。所有策略的置信区间重叠表明,这些方法中的任何一种都会导致相同的临床结论,即研究治疗无效。

对临床试验方法的影响

ADAPT-CEC的验证标志着将人工智能应用于心血管临床试验的重要进展。试验者、监管机构和方法学研究人员应仔细考虑几个方面的发现。

首先,从单一试验派生的算法成功适应第二个部分具有不同终点定义的试验,解决了关于AI通用性的基本问题。20个疑似事件每种终点提供的信息足以进行有意义的适应,这表明AI系统可以在同一治疗领域的多个试验中部署,减少算法开发和验证所需的资源。

其次,证明AI可以处理新的终点类别——在这种情况下是出血事件——为更灵活的试验设计打开了可能性。如果AI系统可以快速适应包括新的终点兴趣,赞助商可能能够在正在进行的试验中添加终点评估,或以比传统CEC流程更低的成本实施探索性终点。

第三,混合裁决模型在原始性能方面脱颖而出,大多数终点的F1分数接近或超过0.90。这种方法在全自动和传统CEC之间提供了一个务实的折衷:AI处理大多数简单案例,而人类专业知识保留给最具挑战性和最重要的决定。这种选择性的人类参与可能会大幅降低CEC成本和时间表,同时保持质量。

第四,所有裁决策略的治疗效果估计值的一致性为AI辅助裁决不会系统性地影响结果评估提供了令人放心的证据。这一发现解决了关键的监管问题:AI系统是否会引入差异性误分类,从而掩盖真实的治疗效果或产生虚假信号。

专家评论和未来方向

虽然这些发现很有希望,但仍需承认几个重要的局限性和知识空白。该研究使用了回顾性裁决的临床试验数据,这意味着尚未在实时试验环境中展示AI裁决的前瞻性实施。实际的前瞻性应用可能会揭示回顾性分析中不明显的实际挑战,包括数据质量、工作流集成和边缘案例处理等问题。

EUCLID试验的患者群体和终点定义代表了特定的临床背景;向具有明显不同特征的试验(如急性心力衰竭试验、设备研究或儿科试验)的通用性尚未得到证实。每个新的治疗领域和终点类别可能都需要仔细验证才能自信地部署。

AI系统在心肌梗死裁决方面的表现虽然可以接受,但落后于其他终点的表现。心肌梗死分类涉及生物标志物动态、ECG变化和临床症状的细致评估,F1分数0.80表明有改进的空间。未来的算法迭代可能会纳入更多的数据类型或采用更复杂的建模方法,以提高MI分类的准确性。

AI辅助裁决的监管接受将需要深思熟虑的框架开发。当前关于终点裁决的监管指南是在仅有人类参与的过程中制定的。在AI裁决成为支持监管提交的关键试验中的常规工具之前,需要明确的验证要求、质量保证程序和文件期望标准。

结论:临床试验终点评估的范式转变

ADAPT-CEC的验证标志着AI在心血管医学应用中的重要里程碑。这种自适应AI算法展示了在不同试验人群和定义下裁决多个心血管终点的能力,结合选择性人工审查时,达到了接近人类表现的准确性水平。关键在于,所有裁决策略——人工、AI辅助和AI独立——均得出了一致的治疗效果估计值,表明AI的纳入不会损害心血管结局评估的完整性。

混合模型,AI处理高确定性案例,人类审查确定性最低的30%的疑似事件,作为最佳方法,实现了95.6%的终点事件正确分类率。这种策略有可能大幅降低CEC成本和时间表,同时保持监管级终点评估所需的质量标准。

展望未来,前瞻性研究将是验证这些回顾性发现并建立实际实施框架的关键。随着AI能力的不断进步和监管路径的日益清晰,自适应AI裁决可能成为心血管试验者的标准工具——使试验更加高效,终点评估更加全面,最终更快地提供指导临床实践的答案。

从传统CEC到AI辅助裁决的转变不仅仅是效率的逐步提升;它反映了我们如何衡量临床结果的更广泛转型。ADAPT-CEC研究表明,这种转型可以在保持患者、临床医生和监管机构所要求的严谨性的同时进行。

资金和临床试验

本研究使用了ODYSSEY OUTCOMES试验(NCT01663402)和EUCLID试验(NCT01732822)的数据。完整的资金信息可在《循环》杂志的原版出版物中获得。

参考文献

1. Vemulapalli S, Pena Guerra K, Wojdyla D, Jones WS, Mahaffey KW, Harrington RA, Steg PG, Schwartz GG, Patel MR, Lopes RD, Henao R. 自适应AI用于心血管事件裁决:ODYSSEY OUTCOMES和EUCLID试验中不同定义下的心血管事件裁决. Circulation. 2026 Mar 30. PMID: 41911340.

Comments

No comments yet. Why don’t you start the discussion?

发表回复