亮点
– 一个在数字化小唾液腺H&E切片上训练的深度学习模型在外部评估中对焦点评分(AUROC 0.88)和舍格伦综合征分类(AUROC 0.89)表现出色。
– 模型在抗SSA(Ro)抗体阴性患者中的表现尤为出色(AUROC 0.92),这是一个临床上具有挑战性的亚组。
– 可解释的机器学习(Shapley值)识别出一种组织学模式——CD8+ T细胞围绕腺泡上皮细胞聚集——与舍格伦综合征相关。
背景:临床背景和未满足的需求
原发性舍格伦综合征(SjS)是一种自身免疫性疾病,其特征是唾液腺和泪腺的淋巴细胞浸润,导致干燥症状和系统性表现。小唾液腺活检和焦点评分测量(每4平方毫米内的淋巴细胞灶数量)被纳入当前的诊断和分类框架,并且是2016年美国风湿病学会-欧洲抗风湿联盟(ACR-EULAR)原发性舍格伦综合征分类标准中的主要客观标准。
然而,组织病理学评估存在观察者间差异:专家重新分级可以改变焦点评分,从而影响分类结果。这种差异使诊断复杂化,影响临床试验的入组,以及尝试识别可能预测预后或治疗反应的组织病理学亚型。因此,需要可重复、可扩展的方法来读取和解释唾液腺活检,并从中挖掘新的生物学和临床意义的模式。
研究设计和方法
Duquesne及其同事在欧洲H2020 NECESSITY联盟内进行了一项回顾性、多中心队列研究,开发并外部验证了一个深度学习分类器,用于分类焦点评分(二分类为≥1与<1)和ACR-EULAR定义的舍格伦综合征,使用数字化的苏木精和伊红(H&E)小唾液腺活检切片。
关键设计要素:
- 人群:来自欧洲六个专家中心的545名参与者(英国三个中心;希腊、葡萄牙和法国各一个中心)。参与者包括有干燥症状但无舍格伦综合征的人群和符合ACR-EULAR 2016分类标准的舍格伦综合征患者。
- 检测指标:一个在五个中心的数字化H&E切片上训练的深度卷积神经网络;第六个中心的切片用于外部验证。
- 主要终点:(a) 焦点评分分类(≥1 vs <1)的受试者工作特征曲线下面积(AUROC)和 (b) 舍格伦综合征分类(ACR-EULAR阳性 vs 阴性)的AUROC。
- 可解释性:计算Shapley值以突出显示驱动预测的图像区域,从而识别对模型决策有贡献的组织学模式。
- 时间范围:研究期间为2021年10月13日至2024年9月5日。
主要结果
人群:平均年龄54.2岁(标准差13.5);545名参与者中有490名(90%)女性,55名(10%)男性。
主要性能指标(外部验证):
- 焦点评分分类(≥1 vs <1):AUROC 0.88(95% CI 0.82–0.94)。
- 舍格伦综合征分类(ACR-EULAR标准):AUROC 0.89(95% CI 0.82–0.94)。
- 抗Sjögren’s综合征相关抗原A(抗SSA/Ro)抗体阴性患者亚组:AUROC 0.92(95% CI 0.87–1.00)。
可解释性和组织学发现:
使用基于Shapley值的归因方法,模型突出了驱动其预测的区域和特征。其中,作者报告识别出一种先前未描述或被低估的模式:紧密接触腺泡上皮细胞的密集CD8+ T细胞聚集体(腺周CD8+浸润)。这种模式与数据集中的舍格伦综合征诊断相关。
具有实际意义的操作和研究发现:
- 该模型仅依赖常规H&E切片;主要分类任务不需要先进的特殊染色。
- 在外部中心验证中表现良好,表明对不同中心之间组织处理和扫描差异具有一定的鲁棒性,尽管完全的通用性仍有待证明。
解释和生物学合理性
报告的诊断性能表明,深度学习可以作为病理学家评估小唾液腺活检的可重复、客观辅助工具。对于焦点评分和疾病分类的AUROC均在0.80以上,表明其具有临床实用性,特别是在缺乏专科病理学专业知识的中心或减少多中心临床试验中的观察者间差异方面。
识别出CD8+腺周浸润模式具有生物学合理性。虽然舍格伦综合征历史上被描述为B细胞丰富、CD4+ T辅助细胞驱动的过程,具有特征性的局灶性聚集,但越来越多的证据表明,细胞毒性CD8+ T细胞和上皮-免疫相互作用对腺体功能障碍有贡献。CD8+ T细胞介导的上皮损伤可能是导致腺泡萎缩和分泌功能下降的重要致病机制。如果得到证实,这种组织学亚型可以按病理学分层患者,并识别可能对针对T细胞细胞毒性和上皮保护策略有反应的群体。
研究的优势
- 多中心数据集涵盖了多个欧洲病理单位,相比单中心研究提高了通用性。
- 使用保留的中心进行外部验证,提供了跨站点性能的真实估计,并有助于防止过度拟合局部染色/扫描特性。
- 使用可解释的机器学习(Shapley值)超越了黑箱模型,揭示了生物学可解释的模式,促进了假设生成和组织学发现。
- 在抗SSA/Ro阴性亚组中的特别优势解决了一个重要临床空白:血清阴性患者在诊断上具有挑战性,且经常被忽视。
局限性和注意事项
尽管结果令人鼓舞,但在临床应用前仍需强调几个局限性:
- 回顾性设计:病例选择和谱系偏差可能影响性能估计。需要在未选择的诊断队列中进行前瞻性验证。
- 真实标签:模型是根据现有的组织学标签和ACR-EULAR分类进行训练的;这些标签中的观察者间差异仍然是潜在的噪声来源。模型与共识小组或纵向临床结果的比较尚未完全解决。
- 染色、扫描和预处理异质性:尽管外部验证使用了不同的中心,但仍需在更多样化的实验室、扫描仪和人群中进行更广泛的验证,以确认其鲁棒性。
- CD8+模式验证:报告指出与CD8+腺周模式相关;需要在独立队列中进行系统的免疫组化(IHC)验证,并与临床表型和功能检测相关联,以确定其致病意义。
- 监管、实践和工作流程整合障碍:在常规病理中实施AI需要技术整合、验证、病理学家接受和诊断用途的监管批准。
临床和研究意义
如果在前瞻性队列中得到外部验证,该模型可以发挥多种作用:
- 标准化临床实践和试验中的焦点评分报告,减少观察者间差异,从而提高诊断一致性和试验资格判定。
- 标记具有CD8+腺周模式的活检以进行进一步的靶向评估(IHC、分子谱分析),实现基于组织学的亚型分类,以便采用精准医疗方法。
- 在没有专科唾液腺病理学专业知识的中心提供辅助决策支持,提高准确诊断的可及性。
研究重点包括前瞻性验证、通过IHC和空间转录组学复制CD8+发现,将组织学亚型与临床进程和治疗反应相关联,以及开发结合组织学、血清学和影像学的综合模型。
专家评论
从转化角度来看,这项研究展示了可解释AI如何既能自动化常规分类任务,又能生成具有生物学意义的假设。抗SSA阴性患者的高AUROC尤其令人鼓舞:这些患者通常依赖活检。然而,专家可能会建议谨慎:在AI模型取代或补充人类判断之前,必须在现实世界的诊断工作流程中进行前瞻性测试,并映射到临床结果。
结论
Duquesne等人证明,使用数字化小唾液腺H&E切片的深度学习方法可以对焦点评分和ACR-EULAR定义的舍格伦综合征进行良好的分类,并能揭示与诊断相关的组织学模式——特别是腺周CD8+ T细胞聚集体。这些发现为更可重复的活检解释和基于组织学的亚型分类提供了有希望的路径,但在常规临床应用之前,需要进行前瞻性、多平台验证和生物学确认。
资金和支持
资金:法国风湿病学会,欧洲抗风湿联盟。
本回顾性诊断研究未报告clinicaltrials.gov标识符。
精选参考文献
1. Duquesne J, Basseto L, Claye C, et al. 使用数字化唾液腺活检的机器学习分类焦点评分和舍格伦综合征:一项回顾性队列研究。Lancet Rheumatol. 2025 Dec;7(12):e864-e872. PMID: 41038216。
2. Shiboski CH, Shiboski SC, Seror R, et al. 2016 ACR-EULAR原发性舍格伦综合征分类标准:一项共识和验证研究。Ann Rheum Dis. 2017;76(1):9-16。
作者注
本文旨在总结和批判性评价Duquesne等人的研究发现,供临床医生和研究人员参考。强调了转化意义和验证前的必要下一步。

