ハイライト
- 多施設観察研究(ACCEPT試験センター)では、AI補助ポリープ検出への継続的な曝露が、その後の非AI標準大腸内視鏡検査での腺腫検出率(ADR)に統計的に有意な6.0%の絶対値低下(28.4%から22.4%;p=0.0089)が関連していた。
- 多変量解析では、AIへの曝露がADRの低下(オッズ比 0.69)と独立して関連していたのに対し、患者の年齢が高齢である場合と男性はADRが高いことを予測していました。
- 結果は、ルーチンのAI使用後に『スキル低下』や操作者行動の変化の可能性を示唆しており、モニタリング、トレーニングの適応、およびAI設計の変更が必要であることを意味します。
背景:ADRと人間のパフォーマンスの重要性
腺腫検出率(ADR)は、大腸内視鏡検査の主要な品質指標であり、高いADRは間隔大腸癌や大腸癌死亡リスクの低減と確実に関連しています。ランドマークの集団データによれば、ADRが1%上昇するごとに、大腸内視鏡検査後の間隔大腸癌リスクが有意に低下することが示されています。したがって、ADRを変化させる介入(プラスでもマイナスでも)は、患者のアウトカムとスクリーニングプログラムの効果性に直接影響を与えます。
人工知能(AI)、特にリアルタイムのコンピュータ支援検出(CADe)システムは、内視鏡医が大腸内視鏡検査中に潜在的なポリープを指摘することで支援するために開発されました。無作為化試験と観察研究は、一般的にAIが有効な場合にADRが向上することを報告しており、AIは世界中の内視鏡部門で急速に導入されています。しかし、AIが利用可能でない場合(例えば、システムダウンタイム中やAIを備えていない部門)に内視鏡医の行動がどのように変化するかは十分に特徴付けられていません。自動化の怠慢、過度の依存、または検索戦略の変更の可能性は、自動化支援への依存によりユーザーの独立したパフォーマンスが時間とともに低下するという偶発的なスキル低下に対する懸念を引き起こします。
研究デザイン
この後向きの多施設観察研究では、ACCEPT試験に参加している4つのポーランドの内視鏡センターからのデータを使用しました。各センターは2021年末にAIポリープ検出ツールを導入し、試験のロジスティクスに従って、実施後の期間の内視鏡検査は実施日の日付に基づいてランダムにAIまたは標準ケアに割り当てられました。研究者は、AI導入前の3ヶ月(前AI)と、AI導入後3ヶ月以内に行われたAIを使用しない手順(後AI曝露)の間に実施された非AI標準大腸内視鏡検査を比較しました。対象は診断的大腸内視鏡検査で、除外基準には強力な抗凝固療法、妊娠、以前の大腸切除術、または炎症性腸疾患が含まれました。
主要なアウトカムは、AIへのルーチン曝露前後で標準的な非AI大腸内視鏡検査のADRの変化でした。二次分析には、ADRの独立した予測因子を特定するための多変量ロジスティック回帰分析と、患者の人口統計学的特性と手順の組み合わせの記述統計が含まれました。
主要な知見
対象と手順
2021年9月8日から2022年3月9日の間に、研究では1,443件の非AI大腸内視鏡検査を評価しました。そのうち、AI導入前に795件、AIが利用可能になった後(ただしこれらの手順では使用されなかった)に648件が実施されました。患者の中央年齢は61歳(四分位範囲 45–70)、女性は58.7%でした。
主要アウトカム:ADRの変化
AI導入前の標準大腸内視鏡検査のADRは28.4%(226/795)から、AI曝露後の22.4%(145/648)に低下しました。絶対差は−6.0%(95%信頼区間 −10.5 から −1.6;p=0.0089)でした。この結果は、内視鏡医がAIシステムを使用した後、AIなしで大腸内視鏡検査を行う際の検出性能の統計的かつ臨床的に重要な低下を示しています。
多変量予測因子のADR
潜在的な混雑要因を調整した後も、AIへの曝露はADRの低下(オッズ比 [OR] 0.69;95%信頼区間 0.53–0.89)と独立して関連していました。他の独立した予測因子として、男性患者の性別(OR 1.78;95%信頼区間 1.38–2.30)と年齢が60歳以上(60歳未満と比較)(OR 3.60;95%信頼区間 2.74–4.72)がADRが高いことを予測していました。これらの人口統計学的関連は、既知の患者要因とポリープの頻度との関係と一致しています。
大きさと臨床的意義の解釈
ADRの6%の絶対値低下は意味があります。ADRと間隔大腸癌との確立された関連を考えると、この低下が持続すると、人口レベルでの下流の癌リスクが高くなる可能性があります。多変量分析は、この低下が患者の年齢や性別の分布の変化だけでは説明できないことを示すことで、関連性を強めています。ただし、本研究は観察研究であり因果関係を証明することはできません。代替的な説明とバイアスの可能性が残っています(制限事項を参照)。
専門家のコメントとメカニズムの検討
AI曝露後にADRが低下する理由は何でしょうか?複数の非排他的なメカニズムが考えられます:
- 自動化の怠慢/過度の依存:AIのプロンプトに慣れた内視鏡医は、ツールが利用できない場合に視覚的な検索の警戒心が鈍り、病変を見逃す可能性があります。
- 検索戦略の変化:AIは、操作者が粘膜をスキャンする方法を変える可能性があります。AIのプロンプトに焦点を当てることで、AIが利用できないときに必要な系統的な粘膜検査技術を無視する可能性があります。
- 認知的負荷軽減:内視鏡医は、一時的または微妙な所見を検出するためにAIに依存し、努力的な検出プロセスを削減する可能性があります。
- 選択とワークフローの要因:AIが一部の症例で使用され、他の症例では使用されない場合、ワークフローの違いやスケジューリング(例:より複雑な症例にAIを割り当てる)が観察されたADRの変化を混乱させる可能性があります。
これらの仮説は、自動化が設計、フィードバック、およびタスク配分によって、オペレーターのスキルを補完したり損なったりする方法を説明する人間工学の文献と一致しています。
臨床的およびトレーニング上の意味
本研究は、AIが臨床に統合されるにつれて、内視鏡医のスキルを維持および監視するための積極的な戦略の必要性を強調しています。可能な措置には以下のものが含まれます:
- AIの使用に関わらず、個々の内視鏡医レベルでのADRの継続的な監視を行い、閾値が低い場合は再教育またはレビューを促します。
- AIの使用あり・なしの両方でポリープ検出を明示的に教える構造化されたトレーニングカリキュラムを提供し、基本的な視覚検索スキル、退去技術、送気、および粘膜露出を強調します。
- ローテーションまたは分割プラクティスモデルを導入し、医師が一定の量の非AI手順を実施することを確保して、支援なしでの能力を維持します。
- 学習(トレーニングモード)、プロンプトの可視性の段階的な削減、または独立した意思決定を奨励する二重フィードバックを提供するデバイスとインターフェースの設計変更。
- 検出スキルの時間的な変化を客観的に測定するシミュレーションと能力評価ツール。
制限事項と代替的な説明
これらの知見の解釈を緩和する重要な注意点があります:
- 観察的、非ランダム化デザイン:前後比較と多変量調整が使用されましたが、残存する混雑要因や時間的な傾向が観察されたADRの低下の一部または全部を説明している可能性があります。
- 症例の混合とスケジューリングバイアス:除外基準即便り、期間間の指示、腸管準備の質、鎮静、または病変の頻度の未測定の違いがADRに影響を与える可能性があります。
- ハワーズ効果とパフォーマンスバイアス:観察されていることや試験への参加が行動を変えることがあります。さらに、実施後の期間における検査のAIまたは非AIへの割り当て(日付によるランダム化)が系統的な違いを作り出す可能性があります。
- 短い観察期間:分析には3ヶ月前と3ヶ月後のウィンドウが使用されました。長期フォローアップが必要です。
- 汎用性:本研究はポーランドの4つの施設で実施されました。結果は他の医療システムや異なるトレーニングモデルを持つ設定、または他のAIシステムでは異なる可能性があります。
- 未測定の操作者要因:個々の内視鏡医の経験、基準のADR、およびAIに対する態度は簡潔な要約には詳細に記載されておらず、これらは効果を修正する可能性があります。
これらの制限により、データは因果関係の確定的な証拠ではなく、仮説を生成するものです。
実践的な推奨事項
- 個々の内視鏡医レベルでのADRをAIの使用に応じて継続的に監視し、予期しない低下が見られた場合は迅速に調査します。
- 非AI検出スキルの強化—退去技術、粘膜視覚化、および系統的な検査を含む継続的な教育を通じて、能力を維持します。
- AIを導入する際には、実装科学を計画します。期待される結果を定義し、基準となるパフォーマンス指標を収集し、スキル低下を軽減するステップ(例:二重モードのトレーニングセッション)を組み込みます。
- 人間工学の専門家を巻き込んでAIを統合し、警戒心を維持し、過度の依存を減らし、教育的なフィードバックを提供するインターフェースを設計します。
- デバイスのダウンタイムを報告し、システムが利用できない場合の高品質な非AI手順を実施するためのプロトコルを確立します。
研究と政策の優先事項
本研究は、さらなる研究と規制に関する緊急の問いを提起しています:
- 無作為化試験またはクロスオーバーデザインが必要です。これにより、AI曝露が支援なしのパフォーマンスに与える因果効果を隔離し、スキル低下の持続期間と逆転可能性を定量できます。
- 長期的な研究により、オペレーターを長い間追跡し、低下が一時的か進行的かを明確にし、個人の感受性要因を識別します。
- 頻度と提示の目立たせ方、トレーニングモードなどのAI設計機能を調査し、ネガティブな行動効果を最小限に抑える方法を探ります。
- 規制ガイドラインとデバイス承認の道筋は、AIが有効な場合の効果だけでなく、ルーチンのAI使用が支援なしのオペレーターのパフォーマンスに及ぼす影響も考慮すべきです。
結論
本多施設観察研究は、AI補助ポリープ検出へのルーチン曝露が、内視鏡医がAIなしで大腸内視鏡検査を行う際にADRが低下する可能性があるという重要な早期の信号を提供しています。これは、ADRと癌の結果の関連性を考えると、人間工学の観点から説明可能であり、臨床的に意味があります。ただし、観察デザインと潜在的な混雑要因により因果推論は制限されます。内視鏡医、デバイスデザイナー、および医療システムは、内視鏡医のパフォーマンスを積極的に監視し、トレーニングを適応させ、コアの内視鏡スキルをサポートする—代わりに置き換える—AIシステムを設計する必要があります。さらに、コントロールされた長期研究が必要です。現象を確認し、メカニズムを解明し、効果的な軽減策を開発します。
資金源と試験情報
報告された研究は、欧州委員会と日本学術振興会の資金提供を受けました。本研究は、ACCEPT(Artificial Intelligence in Colonoscopy for Cancer Prevention)試験に参加するセンターのデータを使用しました。
選択的な参考文献
1. Budzyń K, Romańczyk M, Kitala D, et al. Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study. Lancet Gastroenterol Hepatol. 2025 Oct;10(10):896-903. doi: 10.1016/S2468-1253(25)00133-5.
2. Corley DA, Jensen CD, Marks AR, et al. Adenoma detection rate and risk of colorectal cancer and death. N Engl J Med. 2014;370:1298–1306. PMID: 24881923.
(AI補助大腸内視鏡検査とADRに関する追加文献は急速に進化しており、最新の証拠と実装の推奨事項については最近の体系的レビューと学会のガイドラインを参照してください。)

