克罗恩病术后内镜评分：哪些指标可靠检测复发？来自PREVENT试验分析的启示

亮点

• 对PREVENT试验中70个结肠镜视频的中央读片分析发现，Rutgeerts评分和改良Rutgeerts评分、回肠REMIND评分、SES-CD和CDEIS在新末端回肠中的评分者间一致性（ICC 0.74–0.80）和反应性（WinP 0.75–0.83）均较高。

• POCER指数和吻合口REMIND评分的一致性较低且反应性最小（ICC 0.49和0.30；WinP ≈0.54和0.53）。

• 所有指标在评估吻合口或远端结肠时表现均不如新末端回肠，突显了术后评价中超过回肠范围的持续测量差距。

背景

对于接受回结肠切除术的克罗恩病（CD）患者，新末端回肠和吻合口的内镜评估是早期术后复发检测和预防治疗指导的核心。多种内镜评分系统存在——Rutgeerts评分及其变体、POCER指数、REMIND评分、SES-CD和CDEIS——但这些评分系统在应用于术后视频时的比较测量特性尚未完全明确。可靠的（可重复的）和反应性的（能够检测治疗相关差异的）指标对于临床决策和作为试验终点都至关重要。PREVENT试验是一项随机、安慰剂对照研究，旨在评估英夫利昔单抗（REMICADE）预防术后复发的效果，提供了一套标准化的结肠镜视频，允许对这些测量特性进行严格评估。

研究设计

本研究是对PREVENT试验（前瞻性、多中心、随机、双盲、安慰剂对照试验，比较REMICADE® [英夫利昔单抗]和安慰剂在术后复发风险较高的克罗恩病患者手术切除后的复发预防效果）中获得的结肠镜视频进行的二次、盲法中央读片分析。70个视频由三位独立的中央读片者在不知晓治疗分配和临床数据的情况下进行审查。使用多个指标在新末端回肠、吻合口和远端结肠评估疾病活动度：Rutgeerts评分和改良Rutgeerts评分、POCER指数、REMIND评分（回肠和吻合口成分）、克罗恩病简单内镜评分（SES-CD）和克罗恩病内镜严重程度指数（CDEIS）。

方法——可靠性与反应性指标

评分者间一致性通过组内相关系数（ICC）量化，采用常用解释阈值（ICC >0.75 表示显著至极好；0.40–0.75 表示中等；<0.40 表示一般至差）。英夫利昔单抗治疗的反应性通过胜率（WinP）指标量化：随机选择的英夫利昔单抗组患者比随机选择的安慰剂组患者得分更低（更好）的概率。WinP值接近0.5表示无区分能力；明显高于0.7的值表示有意义的反应性，有利于治疗效果。

主要发现

评分者间一致性

Rutgeerts评分和改良Rutgeerts评分、回肠REMIND评分、SES-CD和CDEIS表现出显著的一致性（ICC 范围 0.74–0.80）。POCER指数显示出中等一致性（ICC 0.49）。吻合口REMIND评分成分表现较差（ICC 0.30），反映出吻合口病变的评分者间显著不一致。

反应性（治疗区分）

既具有一致性又具有反应性的指标包括Rutgeerts评分和改良Rutgeerts评分、回肠REMIND评分、SES-CD和CDEIS，每个指标的反应性都很高（WinP 0.75–0.83）。实际上，随机分配到英夫利昔单抗组的患者在这些指标上的得分明显优于安慰剂组，且评分者之间有较高的一致性。

相比之下，POCER指数和吻合口REMIND评分的反应性较小（WinP ≈0.54 和 0.53），表明对治疗和安慰剂之间的区分能力较弱。

特定部位的表现

在所有指标中，仅限于新末端回肠的评估比专注于吻合口或远端结肠的评估产生更高的可靠性和反应性估计值。这表明现有工具在优化用于回肠黏膜外观方面表现更好，而在一致评估吻合口病理或更远端的结肠复发方面能力较弱。

临床解读的意义

当目标是检测术后复发并评估治疗效果（例如在临床试验中），基于Rutgeerts评分的工具、回肠REMIND评分、SES-CD和CDEIS在新末端回肠中提供了最佳的可重复性和敏感性组合。使用POCER指数或吻合口特异性REMIND成分可能会引入更多的测量噪声，降低检测治疗效果的能力。

专家评论和背景说明

这项工作解决了术后CD管理中的一个实际测量问题。Rutgeerts评分仍然是术后风险分层的基石，这一分析强化了其价值——以及几个回肠特异性指标的价值——当由盲法中央读片者使用时。以下是一些重要的临床和方法学考虑。

为什么吻合口评估表现较差？

吻合口在解剖和视觉上是异质的：缝合线、黏膜对合、手术技术、短段缺血和瘢痕形成都可能模仿或掩盖活动性炎症。内镜特征（黏膜水肿、新生血管、小溃疡）可能较为细微且解释不一。吻合口REMIND评分低ICC值强调需要更清晰的定义、标准化成像协议（如充气、冲洗、多角度视图）和可能的辅助成像模式（高分辨率成像、染色内镜）以提高一致性。

对试验和实践的实际影响

在术后设置的临床试验中，选择具有已证明可靠性和反应性的主要内镜终点对于确保足够的统计功效和可解释性至关重要。研究结果支持优先选择回肠评分（Rutgeerts评分、改良Rutgeerts评分、回肠REMIND评分、SES-CD、CDEIS）作为终点选择和中央读片。在常规临床实践中，中央读片不可行，因此应谨慎对待吻合口的单一观察者决定（如升级治疗），并可能提示辅助评估（放射学、生物标志物、重复内镜检查或多学科评审）。

需要考虑的局限性

需要强调几个局限性。分析使用了从复发风险较高的随机试验人群中抽取的70个视频样本；结果可能不适用于所有术后队列。中央读片者是专家；社区胃肠病学家可能表现出不同的可靠性模式。WinP评估的是患者间的区分能力而非患者内的随时间变化；补充的反应性指标（如标准化反应均值）可能提供额外的见解。最后，该研究解决了内镜测量特性，但未直接将其转化为长期临床结局（如症状复发、再手术）。

结论

对PREVENT试验视频的中央读片分析表明，常用的内镜指标——特别是Rutgeerts评分和改良Rutgeerts评分、回肠REMIND评分、SES-CD和CDEIS——在评估回结肠切除术后的新末端回肠时表现出显著的评分者间一致性和良好的英夫利昔单抗治疗反应性。相反，专注于吻合口（吻合口REMIND评分）或POCER指数的指标表现较差，一致性较低且治疗区分能力有限。这些结果支持继续在术后试验中使用回肠特异性内镜终点，并强调需要方法学改进以填补吻合口和远端结肠的测量差距。

临床和研究意义

对于研究人员：在设计术后克罗恩病试验时优先选择具有已证明可靠性和反应性的回肠指标；尽可能使用盲法中央读片者。对于临床医生：谨慎解释吻合口或远端结肠的内镜发现，并在升级治疗前考虑佐证证据（临床过程、生物标志物、影像学）。对于研究人员：开发更清晰的吻合口特异性定义、标准化成像协议，并探索辅助模式（高分辨率成像、染色内镜、AI辅助图像分析）以提高可重复性。

资金来源和clinicaltrials.gov

PREVENT试验的资金来源和详细的试验注册信息已在主要试验出版物和Hanzel J等人的论文中报告（见下文引用）。读者应查阅PREVENT试验文档以获取赞助商和注册标识符。

参考文献

1. Hanzel J, Vuyyuru SK, Bressler B, 等. 评估克罗恩病术后复发的内镜指标的可靠性和反应性：来自PREVENT试验的结果. Clin Gastroenterol Hepatol. 2025 Sep 2:S1542-3565(25)00741-4. doi: 10.1016/j.cgh.2025.08.021. PMID: 40907850.

2. Rutgeerts P, Geboes K, Vantrappen G, 等. 术后复发的内镜评估预测性. (原始Rutgeerts评分出版物). Gastroenterology. 1990; [建立Rutgeerts评分系统的经典参考文献].

3. Daperno M, D’Haens G, Van Assche G, 等. 克罗恩病简单内镜评分（SES-CD）的开发和验证. Gut. 2004;53:591–596.

4. Mary JY, Modigliani R. 克罗恩病内镜严重程度指数（CDEIS）的开发. Gastroenterol Clin Biol. 1989;13(1):70–72.

5. De Cruz P, Kamm MA, Hamilton AL, 等. POCER：术后复发研究和指数开发. (POCER试验/详细描述指数使用和性能的出版物).

注：参考文献2和5是描述指标和POCER框架的经典、知名来源；读者被鼓励查阅原始指数出版物和指南文件（如ECCO术后管理指南）以获取完整的方法学细节。

作者注

本文由医学科学作家编写，旨在综合和解读Hanzel等人的（2025年）研究结果，供临床医生和研究人员参考。有关操作细节（评分手册、图像示例），请参阅原始出版物和补充材料。

缩略图图像提示

内镜显示器的近景，显示新末端回肠有小的阿弗他溃疡；三名临床医生（不同性别和种族）站在附近，认真地在现代化的临床会议室的大屏幕上查看视频；桌上有评分表和一台显示匿名患者数据的笔记本电脑；冷色调的临床照明，写实风格，高细节。

克罗恩病术后内镜评分：哪些指标可靠检测复发？来自PREVENT试验分析的启示

亮点

背景