胃内視鏡における人工知能：大規模多施設ランダム化比較試験の成果を解読

ハイライト

29,514人の患者集団において、AI支援は病理学的に確認された胃新生物の主要検出率に有意な改善をもたらさなかった（RR, 1.13; P = .25）。
AIの統合により、平均的な盲点数が2.52から1.07に大幅に減少し、内視鏡品質の標準化における重要な役割を示唆した。
探査分析では、経験の浅い内視鏡医や臨床疲労度が高い時期に有意な利点が見られた。
AIシステムは病理学的に確認された胃腺癌に対する診断感度100%を達成したが、低悪性度上皮内新生物への有用性は限定的である。

背景

胃癌は世界中でがん関連死亡の主要因であり、特に東アジアではその影響が大きい。予後は診断時のステージに大きく依存するが、早期胃新生物の検出は依然として重要な臨床課題である。従来の白光内視鏡（EGD）はスクリーニングの金標準だが、内視鏡医の経験、手技の疲労、微妙な粘膜変化の同定の困難さなどの人間要因により制限されている。これまでの研究では、日常的な内視鏡検査で最大20%の胃癌が見落とされる可能性があると推定されている。

これらの課題に対処するために、ディープラーニングに基づくコンピュータ支援検出（CADe）および診断（CADx）システムが開発された。初期段階の研究や単施設試験では有望な結果が示されているが、大規模多施設RCTからの高品質な証拠は乏しかった。最近、DongらによってGastroenterology誌に発表された研究は、現実の高頻度臨床設定におけるこれらの技術の評価を提供している。

主な内容

研究方法と設計

本試験は2021年12月から2023年11月にかけて中国の24の病院で実施され、堅牢な無作為化デザインを用いて29,514人の参加者を登録した。患者はAI支援EGD群または従来の非支援EGD群に無作為に割り付けられた。主要アウトカムは、厳格な中央病理学的レビュー後の胃新生物（胃癌および上皮内新生物を含む）の検出率であり、二次アウトカムは広範な臨床的影響を捉えるために設計され、盲点の数、検査時間、腸管化生や胃萎縮などの前駆病変の検出率などが含まれていた。

主要および二次アウトカム

一部の小規模なパイロット研究とは対照的に、Intention-To-Treat（ITT）解析では、AIが病理学的に確認された胃新生物の検出率に有意な改善をもたらしていないことが明らかになった。AI群の検出率は1.42%で、対照群の1.25%（相対リスク[RR], 1.13; 95% CI, 0.92-1.38; P = .25）だった。

しかし、いくつかの二次アウトカムはシステムの性能について詳細な洞察を提供した：

元の病理学的不一致：中央レビュー前の元の病理学的報告に基づくと、AI群は検出率に統計的に有意な改善を示した（4.06% 対 3.57%; RR, 1.14; P = .03）。これは、AIが境界線にある病変や病理学者間の変動性のある病変をより多く同定している可能性を示唆している。
品質管理：最も注目すべき発見の1つは「盲点」の減少である。AIシステムはリアルタイムで粘膜被覆を監視し、平均的な見落とし領域数を2.52から1.07に削減した（P < .001）。これは、AIが個々の病変の生物学的検出率を変えるわけではないが、検査の徹底性を大幅に向上させていることを示している。
手技指標：AI支援手技は、AI生成アラートの評価やシステムによって促された追加生検を行う時間を反映して、検査時間と総手技時間が長い傾向が見られた。

サブグループおよび感度分析

サブグループ分析は、おそらく最も臨床的に実践可能なデータを提供した。AIの利点は、経験年数の少ない内視鏡医の間でより顕著だった。さらに、「疲労期」（シフトの終わりや多忙な日）には、AIシステムが重要な安全網として機能し、人間のエラーによって低下する可能性のある検出率を維持した。診断精度に関しては、システムは高度病変に対して非常に感度が高く、確認された腺癌の100%と高度上皮内新生物の91.9%を検出したが、低悪性度病変に対する感度は低かった（57.1%）。

専門家コメント

この試験の結果は、慎重な解釈を必要とするパラドックスを呈している。研究は主要エンドポイントを達成しなかったが、データをAI技術の失敗と見るべきではない。代わりに、参加施設の内視鏡医の高い基準のスキルが「天井効果」を生み出し、専門家の手でAIが絶対検出率に与える増分的な利益が統計的に示すのが難しいことを強調している。

盲点の大幅な減少は、検出率自体と同じくらい重要であると主張できる。臨床実践において、検査の一貫性は長期的ながん予防の代理指標である。すべての解剖学的部位が視覚化されることを確保することで、AIシステムは個々の内視鏡医の精神状態やスケジュールに依存しない標準的なケアレベルを提供する。ただし、手技時間の増加と元の病理学的報告との乖離は、「過剰診断」のリスクか、少なくとも臨床上無意味な生検の増加を示唆しており、医師は100%の感度を追求する一方で、手技の非効率性や良性生検による患者の不安をバランスさせる必要がある。

結論

この多施設RCTは、上部消化管内視鏡におけるAIの役割に関する最新の包括的なデータを提供している。専門家の手で病理学的に確認された胃新生物の検出率を増加させる「万能薬」となるわけではないが、品質保証、研修医教育、疲労軽減におけるAIの役割は否定できない。盲点の減少は、手技の標準化における大きな進歩を代表している。

今後の研究は、AIアルゴリズムの特異性を向上させ、間隔がんの長期的影響を調査することに焦点を当てるべきである。現時点では、AIは臨床判断の代替ではなく、手技品質を向上させる洗練された「副操縦士」として捉えるべきである。

参考文献

Dong Z, Wu L, Du H, et al. Effect of a Computer-Aided Device for Detecting Gastric Neoplasms: A Multicenter, Randomized Controlled Trial. Gastroenterology. 2026; PMID: 41801173.
Pimentel-Nunes P, et al. Endoscopic submucosal dissection: European Society of Gastrointestinal Endoscopy (ESGE) Guideline. Endoscopy. 2022. (コンテクストガイドライン).
Zhang M, et al. Deep learning in gastric cancer: A review. World J Gastroenterol. 2023. (コンテクストレビュー).

胃内視鏡における人工知能：大規模多施設ランダム化比較試験の成果を解読

ハイライト

背景

主な内容

研究方法と設計

主要および二次アウトカム

サブグループおよび感度分析

専門家コメント

結論

参考文献

Comments

コメントを残すコメントをキャンセル

ハイライト

背景

主な内容

研究方法と設計

主要および二次アウトカム

サブグループおよび感度分析

専門家コメント

結論

参考文献

Comments

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル