用于肺癌EGFR预测的AI模型显示基于血统的性能差异

背景

表皮生长因子受体（EGFR）突变是非小细胞肺癌中最具有临床意义的分子改变之一，尤其是在肺腺癌（LUAD）中。这些突变为EGFR酪氨酸激酶抑制剂的靶向治疗提供了预测生物标志物，从而改变了受影响患者的治疗结果。传统上，EGFR突变的识别依赖于下一代测序（NGS）、基于聚合酶链反应的检测或桑格测序等分子检测方法，所有这些方法都需要组织取样和实验室处理时间，可能会延迟治疗启动。

近年来，人工智能（AI）模型作为直接从常规苏木精-伊红（H&E）染色病理切片中提取基因组信息的有前景工具出现。这些计算病理学方法旨在通过利用与潜在遗传改变相关的形态模式来普及分子谱型的访问。然而，这些模型在不同患者群体和临床环境中的通用性尚未充分表征。鉴于已知的人群间EGFR突变频率差异以及可能的混杂因素如组织组成和染色变异，对不同血统群体中AI模型性能进行严格评估是临床实施前的必要步骤。

研究设计

这项回顾性队列研究评估了两个开源AI病理模型在使用全切片成像和分子谱型数据预测肺腺癌EGFR突变状态方面的表现。研究包括来自两个独立队列的患者：丹娜法伯癌症研究所（DFCI）队列，包括2013年6月至2023年11月期间接受治疗的1,759名患者；以及欧洲TNM-I试验队列，包括2016年8月至2022年2月期间招募的339名患者。

所有纳入的患者均有配对的下一代测序数据确认EGFR突变状态，并提供数字化的H&E染色全切片图像。在DFCI队列中，通过胚系基因型数据推断遗传血统，使患者能够分层为预定义的血统组：非洲血统（n=54）、美洲血统（n=101）、亚洲血统（n=95）和欧洲血统（n=1,465）。研究人群的平均年龄为66.6岁（标准差10.3），其中女性患者1,315人（63%），男性患者783人（37%）。在DFCI队列中，432名患者（25%）检测出EGFR突变，而在TNM-I队列中，50名患者（15%）检测出EGFR突变。

主要结局是通过受试者工作特征曲线（ROC）下的面积（AUC）测量的EGFR突变预测模型性能，总体评估和按血统亚组及样本类型（包括肺切除标本和胸膜活检）评估。

关键发现

研究显示，所评估的两个AI病理模型之间存在显著的性能差异。在DFCI队列中，表现较好的模型达到了0.83的AUC（95%置信区间，0.81-0.85），而表现较差的模型的AUC为0.68（95%置信区间，0.65-0.70）。在独立的TNM-I队列中的验证确认了这些发现，两个模型的AUC分别为0.81（95%置信区间，0.74-0.88）和0.75（95%置信区间，0.68-0.83）。

DFCI队列按血统分层分析显示，表现较好的模型在不同血统组之间的性能存在显著异质性。欧洲血统患者表现出0.84的AUC（95%置信区间，0.81-0.86），而非洲血统患者表现出类似的性能，AUC为0.85（95%置信区间，0.72-0.94）。值得注意的是，亚洲血统患者的预测准确性显著较低，AUC为0.68（95%置信区间，0.55-0.78），比欧洲血统患者低16个百分点。美洲血统患者构成一个较小的亚组，没有单独报告的分层估计值。

样本类型分析进一步表明，在某些临床环境中性能下降。表现较好的模型在标准肺标本中达到0.86的AUC（95%置信区间，0.83-0.88），但在胸膜标本中降至0.66（95%置信区间，0.56-0.76）。这种差异性能突显了组织背景在基于AI的基因组预测中的重要性。

从临床工作流程的角度来看，AI引导的分诊分析表明，实施表现较好的模型可以潜在地减少57%的快速EGFR检测需求，同时保持0.84的敏感性和0.99的特异性。这些估计表明，AI预筛选可以显著减少实验室工作量，而不影响突变阳性病例的识别。

专家评论

这项研究的发现对精准肿瘤学中计算病理学工具的开发和部署具有重要意义。观察到的血统相关性能差异——尤其是亚洲患者准确性的降低——需要仔细考虑潜在机制和可能的混杂因素。

几个因素可能导致本研究中观察到的血统相关的性能变异。首先，不同人群中EGFR突变亚型的差异可能会影响AI模型学习识别的形态特征。亚洲患者表现出较高的敏感突变率，如19号外显子缺失和L858R点突变，但这一队列尽管突变频率较高，AI模型性能却较低。这一反常现象表明，除了突变频率之外，可能还有其他因素在起作用，包括肿瘤形态、微环境组成或与切片制备和数字化相关的技术因素。

胸膜标本（AUC 0.66）相比肺切除标本（AUC 0.86）的显著性能下降突显了当前AI病理学方法的关键局限性。胸膜活检通常代表晚期患者唯一可用的组织，因此在这种情况下准确预测尤其具有临床相关性。性能下降可能反映了转移性或侵袭性样本中组织结构、坏死或炎症浸润模式的差异。

从实施角度来看，快速EGFR检测量潜在减少57%且保持敏感性代表了资源受限环境中AI辅助分诊的有力论据。然而，不同血统群体之间的性能差异要求在广泛临床部署前谨慎考虑。质量保证协议、定期监测患者人口统计学的性能以及向临床医生透明传达模型限制将是任何实施策略的重要组成部分。

结论

这项队列研究提供了关于开源AI病理模型在肺腺癌EGFR突变预测中的性能特征和局限性的重要证据。虽然这些工具在主要队列中的整体表现令人鼓舞，AUC值超过0.80，但不同血统群体和样本类型之间的显著性能差异引发了公平临床实施的关键考虑。

亚洲血统患者（AUC 0.68）相比欧洲（AUC 0.84）和非洲（AUC 0.85）患者显著较低的预测准确性代表了必须通过持续的模型优化、多样化的训练数据整合和跨人群的稳健验证来解决的重大差异。同样，胸膜标本中的性能下降突显了在广泛应用前需要进行特定组织背景的验证。

AI引导的分诊减少实验室检测量的同时保持高敏感性为临床工作流程优化提供了切实的好处。然而，实现这些好处并确保所有患者群体都能获得公平的护理将需要继续研究、验证和优先考虑跨人口亚组性能监测的深思熟虑的实施策略。

资助

本研究得到了美国国家癌症研究所和丹娜法伯癌症研究所机构研究基金的资助。TNM-I试验得到了欧洲研究联盟资金的支持。

参考文献

Rakaee M, Nassar AH, Tafavvoghi M, 等. 肺癌中EGFR预测的开源AI模型的血统相关性能变异. JAMA Oncol. 2026;12(4):402-406. PMID: 41678173.

用于肺癌EGFR预测的AI模型显示基于血统的性能差异

背景

研究设计

关键发现

专家评论

结论

资助

参考文献

Comments

发表回复取消回复

背景

研究设计

关键发现

专家评论

结论

资助

参考文献

Comments

发表回复 取消回复

发表回复取消回复