亮点
– PANORAMA研究(多中心、国际)训练并外部验证了一个开源AI系统,用于在标准对比增强CT上检测PDAC,并在配对阅读者研究中与68名放射科医生进行了测试。
– 在隔离测试集中,AI实现了AUC 0.92(95% CI 0.90–0.93);在391例阅读者研究中,AI AUC 0.92(0.89–0.94)vs 放射科医生的汇总AUC 0.88(0.85–0.91)。
– 预先指定的非劣效性边界(Δ=0.05)得到满足(p<0.0001),AI在统计上优于放射科医生(p=0.001),突显了在常规CT上早期检测PDAC的临床潜力。
背景:疾病负担和未满足需求
胰腺导管腺癌(PDAC)仍然是最致命的常见实体瘤之一:大多数患者在晚期才被诊断出来,尽管治疗手段有所进步,但5年生存率仍然很低。全球癌症统计数据继续记录胰腺癌发病率上升和持续较高的病例死亡率(Sung等,CA Cancer J Clin 2021)。不良结局的主要驱动因素是晚期诊断;对比增强CT是常规初始横断面影像学检查方法,但由于小肿瘤和细微实质变化在标准护理检查中经常被遗漏或模棱两可,即使在三级中心也是如此。
研究设计和方法(PANORAMA)
PANORAMA是一项国际性的、配对的、非劣效性、验证性的观察研究,旨在将AI与人类阅读者在常规对比CT上检测PDAC进行基准测试。关键设计特点:
- 数据:2004年至2023年间从荷兰、美国、瑞典和挪威的10个三级中心收集的3,440名患者。合并队列中PDAC的总体患病率为32%(1,103/3,440)。
- 模型开发:在四个中心的2,310名患者(训练n=2,224;调优n=86)上训练和调整的开源AI系统。
- 外部测试:来自五个中心的隔离测试队列中的1,130名患者(406例经组织学确认的PDAC)用于评估样本外性能。
- 观察者研究:多阅读者多病例(MRMC)设计,由12个国家40个中心的68名放射科医生(中位经验9.0 [IQR 6.0–14.5] 年)阅读测试集中的391例子集(144例经组织学确认的PDAC)进行配对评价。
- 参考标准:可用时采用组织病理学,至少3年的临床随访以减少误分类。
- 统计计划:预先指定的非劣效性边界Δ=0.05用于平均AUC,如果建立了非劣效性,则进行优越性检验。MRMC分析考虑了阅读者和病例的相关性。
主要发现
总体队列和测试集性能:
- 在隔离测试队列中的1,130名患者(406例经组织学确认的PDAC)中,AI系统实现了AUC 0.92(95% CI 0.90–0.93),表明具有优秀的区分能力。
阅读者研究(配对评价391例):
- AI AUC:0.92(95% CI 0.89–0.94)。
- 汇总放射科医生AUC:0.88(95% CI 0.85–0.91)。
- 统计推断:AI性能相对于放射科医生达到了非劣效性(p<0.0001),使用预先指定的Δ=0.05,并进一步证明了优越性(p=0.001)。
效应大小和临床意义的解释:
AUC绝对差异为0.04(0.92 vs 0.88)虽然较小,但在PDAC背景下具有临床意义,因为即使是早期肿瘤检测敏感性的微小提高也可能改变可切除性和生存轨迹。MRMC设计和大型国际阅读者小组增强了在三级护理常规实践环境中的外部有效性。参考标准(组织学加上长期临床随访)减少了混淆许多回顾性影像学研究的结果误分类。
次要观察和操作数据
该研究提供了额外的、临床上相关的信息,尽管并非所有信息都作为简报中的主要终点报告:按大小/分期分层的病变模型性能、假阳性率(对于召回和下游测试很重要)以及AI纠正放射科医生漏诊或反之亦然的病例级别示例。PANORAMA建立的开源基准使独立复制和算法改进成为可能,使用了精心策划的多机构数据集。
专家评论:优势、局限性和临床意义
优势
PANORAMA的主要优势包括大型、地理多样化的数据集;隔离的外部测试集;预先指定的统计计划,采用非劣效性然后优越性方法;规模大且经验丰富的放射科医生阅读者小组;以及严格的参考标准,结合组织病理学和≥3年随访。使用开源基准促进了透明度、可重复性和进一步研究。
局限性
在临床转化之前需要强调几个注意事项:
- 选择和谱系偏倚:数据来自三级转诊中心,病例组合和成像协议可能与社区实践不同,这可能影响AI校准和普遍性。
- 回顾性观察设计:尽管阅读者研究在实施上是前瞻性的,但成像病例是回顾性的。长时间采集窗口(2004–2023)中潜在的混杂因素和技术或协议的变化可能影响性能。
- 临床影响尚未证明:改善的诊断指标并不自动转化为改善的患者结果。关键问题仍然存在,即AI辅助检测是否增加可切除率、缩短治疗时间或提高总生存率。
- 操作因素未完全解决:灵敏度和特异性的平衡、假阳性负担、放射学工作流程的整合、法律和报销考虑以及可解释性对于采用至关重要。
- CT协议的异质性:对比剂时机、切片厚度和多期扫描的可用性各不相同;AI对这种异质性的鲁棒性需要在具有不同协议的站点进行仔细的外部验证。
临床意义和采用路径
鉴于PANORAMA的结果,值得探索几种实用的临床路径:
- 第二阅读者或并行阅读者:AI作为自动第二读,标记出微妙的胰腺异常供放射科医生审查可能是最保守的初步部署方式,减少了过度依赖算法的风险,同时利用其灵敏度。
- 分诊和优先级:AI可以优先处理高风险CT,加快审查速度,从而缩短诊断延迟。
- 低容量中心的决策支持:在腹部成像专业知识有限的医院,AI辅助可以帮助标准化检测性能,减少漏诊癌症。
研究和监管下一步
为了负责任地将PANORAMA的诊断收益转化为改善的结局,需要采取以下几个步骤:
- 前瞻性影响试验:随机或逐步楔形试验测量以患者为中心的结局(诊断时间、切除率、生存率、假阳性工作量危害)是必不可少的。
- 更广泛的外部验证:在社区医院、不同的扫描仪供应商和不同的对比剂协议中测试模型,以评估普遍性和校准。
- 实施研究:工作流程研究评估放射科医生的接受度、报告时间的变化以及与PACS/RIS的集成,以及成本效益分析。
- 监管批准和上市后监测:遵守监管途径(如CE、FDA)并进行稳健的监测,以应对现实世界使用中的数据集变化和性能漂移。
结论
PANORAMA证明,基于多机构CT数据训练的AI系统在常规对比CT上检测PDAC的能力超过了大型国际放射科医生小组,AUC为0.92 vs 0.88。该研究的设计严谨、外部验证和开放基准是显著的进步,解决了先前AI与放射学比较中的缺陷。然而,改善的诊断准确性是一个中间终点——需要前瞻性影响研究来确定AI辅助检测是否导致诊断时的早期阶段、更多的根治性切除以及最终改善胰腺癌患者的生存。在此之前,AI最好被视为强大的诊断辅助工具,如果经过仔细验证和实施,可以减少漏诊的PDAC并简化放射学工作流程。
资金和注册
PANORAMA由欧盟的地平线2020研究和创新计划资助。预先指定的研究方案和统计计划可通过Zenodo公开获取(https://doi.org/10.5281/zenodo.10599559)。
参考文献
1. Alves N, Schuurmans M, Rutkowski D, 等;PANORAMA联盟。人工智能与放射科医生在常规CT扫描中检测胰腺癌(PANORAMA):一项国际性的、配对的、非劣效性、验证性的观察研究。Lancet Oncol. 2025 Nov 20:S1470-2045(25)00567-4. doi:10.1016/S1470-2045(25)00567-4. PMID: 41275871。
2. Sung H, Ferlay J, Siegel RL, 等. 全球癌症统计2020:GLOBOCAN关于185个国家36种癌症发病率和死亡率的估计。CA Cancer J Clin. 2021;71(3):209–249. doi:10.3322/caac.21660. PMID: 33538338。
3. McKinney SM, Sieniek M, Godbole V, 等. 国际评估乳腺癌筛查的人工智能系统。Nature. 2020;577(7788):89–94. doi:10.1038/s41586-019-1799-6. PMID: 31803855。
缩略图提示
一张高分辨率的轴向对比增强腹部CT切片,重点放在胰腺上,显示胰头处有一个细微的低密度病灶;叠加一个由神经网络生成的半透明多色热图,突出病灶;包括一个侧栏,显示小面板的AI概率分数和一群放射科医生在柔和的阅读室内通过显示器审查病例的场景。

