亮点
– 多中心观察性研究(ACCEPT试验中心)显示,连续接触人工智能辅助息肉检测与随后非人工智能标准结肠镜检查的腺瘤检出率(ADR)统计学显著下降6.0%(从28.4%降至22.4%;p=0.0089)相关。
– 在多变量分析中,接触人工智能仍与较低的ADR独立相关(比值比[OR] 0.69),而患者年龄较大和男性性别预测较高的ADR。
– 研究结果表明,常规使用人工智能后可能会出现‘技能下降’或操作者行为改变;影响包括需要监测、培训调整以及人工智能设计变化以减轻依赖。
背景:为什么ADR和人类表现很重要
腺瘤检出率(ADR)是结肠镜检查的关键质量指标,因为较高的ADR与较低的间期结直肠癌和结直肠癌死亡风险密切相关。里程碑式的人群数据显示,每增加1%的ADR,结肠镜检查后的结直肠癌风险就会有可测量的降低。因此,改变ADR的干预措施——无论是正面还是负面——都会直接影响患者结局和筛查计划的有效性。
人工智能(AI),特别是实时计算机辅助检测(CADe)系统,已开发用于在结肠镜检查期间帮助内镜医生标记潜在的息肉。随机化和观察性研究通常报告,在人工智能激活时,ADR有所提高,人工智能正在全球各地的内镜单位迅速实施。然而,持续接触人工智能是否会改变在没有人工智能的情况下(例如,在系统停机期间或在没有人工智能的单位)内镜医生的行为尚未得到充分描述。自动化懈怠、过度依赖或搜索策略改变的可能性引起了对无意技能下降的担忧——用户因依赖自动化协助而随着时间的推移独立表现下降。
研究设计
这项回顾性、多中心观察性研究使用了四个参与ACCEPT试验的波兰内镜中心的数据。这些中心在2021年底引入了人工智能息肉检测工具,并根据试验安排,实施后时期的结肠镜检查按检查日期随机分配给人工智能或标准护理。研究者比较了两个时间窗口内的非人工智能标准结肠镜检查:引入人工智能前3个月(引入前)和引入人工智能后3个月内但未使用人工智能进行的检查(接触后)。纳入标准为诊断性结肠镜检查;排除标准包括使用强效抗凝药物、怀孕、既往结直肠切除术或炎症性肠病。
主要结局是引入前后常规非人工智能结肠镜检查的ADR变化。次要分析包括多变量逻辑回归以确定ADR的独立预测因素,以及患者人口统计学和程序组合的描述性统计。
关键发现
人群和程序
从2021年9月8日至2022年3月9日,该研究评估了1,443例非人工智能结肠镜检查:795例在引入人工智能前进行,648例在中心引入人工智能后但未用于这些程序时进行。患者的中位年龄为61岁(四分位数范围[IQR] 45-70);58.7%为女性。
主要结局:ADR变化
标准结肠镜检查的ADR从引入人工智能前的28.4%(226/795)下降到接触人工智能后的22.4%(145/648)——绝对差异为−6.0%(95%置信区间[CI] −10.5至−1.6;p=0.0089)。这一发现表明,当内镜医生在习惯使用人工智能系统后进行不带人工智能的结肠镜检查时,检测性能出现了统计学和临床上有意义的下降。
多变量预测因子
在调整潜在混杂因素后,接触人工智能仍与较低的ADR独立相关(比值比[OR] 0.69;95%置信区间[CI] 0.53-0.89)。其他与较高ADR独立相关的预测因子是男性患者性别(OR 1.78;95% CI 1.38-2.30)和≥60岁的患者年龄(与<60岁相比;OR 3.60;95% CI 2.74-4.72)。这些人口统计学关联与已知的患者因素与息肉患病率之间的关系一致。
幅度和临床意义的解释
6%的绝对减少是有意义的:鉴于ADR与间期结直肠癌之间已建立的关联,如果这种下降持续存在,可能会在人口水平上转化为更高的下游癌症风险。多变量分析通过证明下降不是仅由患者年龄或性别分布的变化解释来加强这种关联。然而,该研究是观察性的,不能证明因果关系;替代解释和偏倚仍然可能(见下文限制部分)。
专家评论和机制考虑
为什么接触人工智能后ADR会下降?几种非互斥的机制是合理的:
– 自动化懈怠/过度依赖:习惯于人工智能提示的内镜医生在没有工具的情况下可能会减弱视觉搜索警觉性,导致漏诊病变。
– 搜索策略改变:人工智能可以改变操作者扫描黏膜的方式——专注于人工智能提示,可能忽视在没有人工智能时必要的系统黏膜检查技术。
– 认知卸载:内镜医生可能会依赖人工智能来检测短暂或细微的发现,减少他们的努力检测过程。
– 选择和工作流程因素:当某些情况下使用人工智能而其他情况不使用时,工作流程差异或调度(例如,更复杂的病例分配给人工智能)可能会混淆观察到的ADR变化。
这些假设与人类因素文献中的描述相符,即自动化如何根据设计、反馈和任务分配既增强又削弱操作者的技能。
临床和培训影响
该研究强调了在人工智能融入实践过程中主动采取策略以保持和监测内镜医生技能的必要性。可能的措施包括:
– 无论是否使用人工智能,都应持续监测个体内镜医生的ADR,低于阈值时应及时重新培训或审查。
– 结构化的培训课程明确教授有无人工智能的息肉检测,强调基本的视觉搜索技能、撤回技术、充气和黏膜暴露。
– 轮岗或分组练习模式,确保临床医生执行一定数量的非人工智能程序以维持独立能力。
– 设备和界面设计变化,如支持学习(训练模式)的AI模式、逐步减少提示可见性或鼓励独立决策的双反馈。
– 模拟和能力评估工具客观测量随时间的检测技能。
局限性和替代解释
重要注意事项缓和了对这些发现的解释:
– 观察性、非随机设计:尽管使用了多变量调整的前后比较,残余混杂和时间趋势可能导致部分或全部观察到的ADR下降。
– 病例组合和调度偏差:即使有排除条件,期间之间指示、肠道准备质量、镇静或病变患病率的未测量差异可能影响ADR。
– 霍桑效应和绩效偏差:知道自己被观察或参与试验可以改变行为。此外,实施后时期(按日期随机分配)的检查分配给人工智能或非人工智能可能会产生系统差异。
– 短期观察窗口:分析使用了三个月的前后窗口。需要更长时间的随访来确定下降是暂时的(例如,在适应期)还是持续的。
– 推广性:该研究在波兰的四个中心进行;其他医疗系统、不同培训模型或使用其他人工智能系统的设置结果可能不同。
– 未测量的操作者因素:简要总结中未详细说明个别内镜医生的经验、基线ADR和对人工智能的态度——这些因素可能会改变效果。
鉴于这些局限性,数据是假设生成的,而不是因果关系的确凿证据。
临床医生和单位的实用建议
– 持续监测个体内镜医生的ADR,按人工智能使用情况进行分层,并及时调查意外下降。
– 通过继续教育保持能力,包括强化非人工智能检测技能——撤回技术、黏膜可视化和系统检查。
– 部署人工智能时,制定实施科学:定义预期结果,收集基线绩效指标,并纳入缓解技能下降的步骤(例如,双模式培训会议)。
– 整合人工智能时,请参与人因工程和人体工效学专家设计支持警觉性、减少过度依赖并提供教育反馈的界面。
– 报告设备停机时间和建立在系统不可用时执行高质量非人工智能程序的协议。
研究和政策重点
该研究提出了进一步研究和监管的紧迫问题:
– 需要随机试验或交叉设计来隔离人工智能接触对无辅助性能的影响,并量化任何技能下降的持续时间和可逆性。
– 长期纵向研究跟踪操作者更长的时间间隔可以阐明下降是暂时的还是渐进的,并识别个体易感因素。
– 调查最小化负面影响的设计特征(例如,提示的频率和显着性、训练模式)。
– 政策指导和设备审批途径不仅应考虑人工智能激活时的有效性,还应考虑常规使用人工智能对无辅助操作者性能的影响。
结论
这项多中心观察性研究提供了早期信号,表明常规接触人工智能辅助息肉检测可能与内镜医生在不使用人工智能时进行结肠镜检查时的ADR下降有关。从人因角度来看,这一发现是合理的,鉴于ADR与癌症结果的关系,具有临床意义。然而,观察性设计和潜在混杂限制了因果推断。临床医生、设备设计师和卫生系统应主动监测内镜医生的表现,调整培训,并设计人工智能系统以支持而非取代核心内镜技能。需要进一步的对照和纵向研究来确认这一现象,阐明机制,并制定有效的缓解策略。
资金和试验信息
所报告的研究由欧洲委员会和日本学术振兴会资助。该研究使用了参与ACCEPT(人工智能在结肠镜检查中预防癌症)试验的中心的数据。
精选参考文献
1. Budzyń K, Romańczyk M, Kitala D, 等. 内镜医生在接触结肠镜检查中的人工智能后技能下降的风险:一项多中心观察性研究. Lancet Gastroenterol Hepatol. 2025年10月;10(10):896-903. doi: 10.1016/S2468-1253(25)00133-5.
2. Corley DA, Jensen CD, Marks AR, 等. 腺瘤检出率与结直肠癌和死亡风险. N Engl J Med. 2014;370:1298–1306. PMID: 24881923.
(关于人工智能辅助结肠镜检查和ADR的最新文献正在迅速发展;临床医生应查阅最近的系统综述和社会指南,以获取最新的证据和实施建议。)

