ハイライト
• オフラインのFRCOphth Part 2準備問題のクロスセクション評価において、7つの基礎モデル(FMs)はテキストの選択肢問題で高い成績を示しました。最高成績のFM(Claude 3.5 Sonnet)は77.7%の精度を達成し、専門家の眼科医と同等の成績でした。
• 多モーダル性能(画像や他の非テキスト入力が含まれる問題)は大幅に低く、最上位の多モーダルFM(GPT-4o)の成績は57.5%でした。専門医や研修医より成績が低かったです。
• 結果は、FMsがテキストの眼科質問への回答や教育に即時的な有用性を示唆していますが、多モーダル推論の現在の制限と、ドメイン固有の多モーダル訓練、調整、前向き検証の必要性を強調しています。
背景
眼科は非常に視覚的な専門分野であり、診断決定は通常、眼底写真、光学干渉断層計(OCT)、裂隙灯写真、表形式の臨床データに依存します。基礎モデル(FMs)が言語と視覚入力を処理する能力が進化するにつれ、眼科での教育、トリアージ、臨床ワークフロー支援の可能性が高まっています。これまでの医学における大規模言語モデル(LLMs)の評価は主にテキストのみのタスク(臨床シナリオ、試験形式の質問)に焦点を当てており、モデルファミリーの各世代間で急速な改善が報告されています。しかし、テキストと画像、チャート、テーブルを含む多モーダル入力を含む最新のFMsの厳密な、対比評価は限定的であり、特に知識と画像解釈スキルをテストする専門試験内では特にそうutherlandます。
研究デザイン
このクロスセクション研究(Rocha et al., JAMA Ophthalmol, 2025)では、7つの基礎モデルを評価しました:GPT-4o(OpenAI)、Gemini 1.5 Pro(Google)、Claude 3.5 Sonnet(Anthropic)、Llama-3.2-11B(Meta)、DeepSeek V3(High-Flyer)、Qwen2.5-Max(Alibaba Cloud)、Qwen2.5-VL-72B(Alibaba Cloud)。これらのモデルは、王立眼科カレッジフェローシップ(FRCOphth)Part 2筆記試験の準備に広く使用されている教科書から抽出されたオフラインの選択肢問題に答えるよう依頼されました。質問には、テキストのみの項目と、画像や他の視覚データを組み込んだ多モーダル項目が含まれていました。
比較対象の人間グループには、若手医師、眼科研修医、専門眼科医が含まれました。主要アウトカムは精度で、モデルが生成した答えが教科書の正解のアルファベットと一致する割合で定義されました。モデルと人間グループの間の統計的比較は、差、95%信頼区間、適切なP値で報告されました。
主要な知見
テキスト質問の性能
テキストのみの選択肢問題では、Claude 3.5 Sonnetが77.7%の精度を達成し、最高成績でした。順位と報告された精度は以下の通りです:Claude 3.5 Sonnet(77.7%)、GPT-4o(69.9%)、Qwen2.5-Max(69.3%)、DeepSeek V3(63.2%)、Gemini Advanced(62.6%)、Qwen2.5-VL-72B(58.3%)、Llama-3.2-11B(50.7%)。
医師グループと比較して、Claude 3.5 Sonnetは眼科研修医(差9.0%;95%信頼区間2.4%–15.6%;P = .01)と若手医師(差35.2%;95%信頼区間28.3%–41.9%;P < .001)を上回りました。専門眼科医との成績は同等でした(差1.3%;95%信頼区間−5.1%~7.4%;P = .72)。
GPT-4o(69.9%)は、参考のために含まれた以前のOpenAIモデル(GPT-4:差8.5%;95%信頼区間1.1%–15.8%;P = .02、GPT-3.5:差21.8%;95%信頼区間14.3%–29.2%;P < .001)を著しく上回り、テキストタスクにおける後続のFMリリースでの継続的な改善を示しています。
多モーダル質問の性能
画像の解釈や視覚-テキストの統合推論を必要とする多モーダル項目では、FMの性能が大幅に低下しました。GPT-4oが評価されたモデルの中で最も高く、57.5%の精度を達成しました。その他の多モーダル結果は以下の通りです:Claude 3.5 Sonnet(47.5%)、Qwen2.5-VL-72B(45.0%)、Gemini Advanced(35.0%)、Llama-3.2-11B(25.0%)。
医師グループとの比較では、GPT-4oは若手医師グループ(差15.0%;95%信頼区間−6.7%~36.7%;P = .18)を上回りましたが、専門眼科医(成績範囲70.0%–85.0%;P = .16)や眼科研修医(成績範囲62.5%–80%;P = .35)より弱かったです。点推定は、経験の少ない医師に対する相対的な改善の信号を示唆していましたが、専門家との多モーダルのギャップは依然として臨床上有意義でした。
結果の解釈
これらの知見は、最先端のFMsが眼科のテキストのみの試験形式の質問で経験豊富な医師に匹敵する性能を示していることを示していますが、現実世界の眼科解釈に近い多モーダルタスクではその利点が完全には反映されていません。テキスト項目での優れた性能は、教育(試験準備、正解の説明)、単純なテキスト質問の意思決定支援、知識検索の補助としての潜在的な有用性を示唆しています。逆に、多モーダルの弱点は、画像解釈が中心となる臨床展開(網膜疾患のトリアージ、OCT解釈など)において、大量のヒューマンオーバーシュートや専門モデルの再学習なしには注意が必要であることを示しています。
専門家コメントと批判的評価
本研究の強みには、複数の最新の基礎モデルの直接比較、多モーダル項目の包含、異なる医師経験レベルとのベンチマークが含まれます。試験準備用教科書の使用により、標準化された参考解答が得られ、再現性が向上します。
重要な制約や潜在的な混在因子について解釈を控えめにする必要があります。まず、データセットは単一の試験準備ソースから派生しており、質問のスタイル、難易度分布、FM事前学習に使用されたコーパスとの重複の可能性がモデルの性能に影響を与える可能性があります。次に、教科書項目でのモデルのオフラインテストは、現実世界の画像取得変動性(照明、解像度、アーティファクト)や、患者の病歴、過去の画像、リアルタイムの相互作用などの典型的な臨床コンテキストを再現しません。さらに、精度のみでは限られた指標であり、校正(信頼度と正確さ)、説明の品質、幻覚の傾向は臨床信頼性に不可欠ですが、提供された要約データでは詳細に報告されていません。
方法論的な観点から、操作条件(プロンプトエンジニアリング、画像前処理、許可されるモデルコンテキスト、チェーンオブサンクションプロンプティングの使用)は、FMの出力を大幅に影響します。これらの操作的な詳細の透明性の欠如は、再現性と一般化可能性を制限する可能性があります。
臨床的および翻訳的な含意
医師と教育者にとっての実践的な取組は以下の通りです:
• 教育:強力なテキスト機能を持つFMsは、インタラクティブな学習支援、正しい答えの説明の生成、形成的評価のサポートに使用できます。あいまいまたは画像依存の質問への適用には、適切な検証なしでは誤りを拡散するリスクがあります。
• 決定支援:テキストベースの臨床決定支援(ガイドラインの要約、検査表の解釈、紹介状の作成など)は可能と思われます。画像解釈が必須のタスクでは、現在の市販のFMsは慎重に使用し、医師の監督下で統合する必要があります。
• 研究と開発:多モーダル項目でのパフォーマンスギャップは、眼科ビジョン言語データセットとドメイン固有のイメージング(眼底、OCT、裂隙灯)および構造化された臨床データのためのFMの微調整への対象投資を支持します。臨床展開前のヒューマンインザループワークフロー、安全エンドポイントの評価、前向き臨床検証が必要です。
今後の方向性
眼科での多モーダルFMのパフォーマンスを向上させるための重点領域には以下の通りです:
• 臨床的多様性を捉えたキュレーションされた多モーダルデータセット:現実的な画像アーティファクト、マルチデバイス変動性、広範な疾患発生率が必要です。
• ハイブリッドアーキテクチャ:眼科画像に特化したビジョンモデルと大規模言語モデルをリトリーバーオーグメンテッドおよびモジュラーフュージョン技術を用いて組み合わせることで、各モダリティの最良の機能を維持します。
• 解釈可能性と校正:システムは特定の画像特徴に関連付けられた解釈可能な理由を提供し、医師の意思決定をサポートするためにキャリブレートされた信頼度スコアを報告する必要があります。
• 前向き臨床試験と実世界テスト:評価パスは、診断精度、患者アウトカム、ワークフローエフィシェンシー、予期しない危害(誤った安心感、過剰な紹介、偏り)を測定する必要があります。
結論
Rocha et al.は、現代の基礎モデルがテキストのみの眼科試験問題で専門家レベルの性能に近づき、教育と特定のテキストベースの臨床タスクに即時的な価値を提供することを示しています。しかし、画像とテキストを統合する多モーダル推論は明確な制限であり、眼科でのFMの臨床的有望性は、対象モーダリティのデータキュレーション、ドメイン固有の微調整、失敗モードの透明な評価、ヒューマンオーバーシュート付きの厳密な前向き検証が必要です。
資金源とclinicaltrials.gov
資金源:提供された記事概要には指定されていません。ユーザーは、資金源と開示事項については元のJAMA Ophthalmology出版物を参照する必要があります。
参考文献
1. Rocha H, Chong YJ, Thirunavukarasu AJ, et al. Performance of Foundation Models vs Physicians in Textual and Multimodal Ophthalmological Questions. JAMA Ophthalmol. 2025 Nov 13:e254255. doi: 10.1001/jamaophthalmol.2025.4255. Epub ahead of print. PMID: 41231508; PMCID: PMC12616532.
2. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med. 2019 Jan;25(1):44-56. doi:10.1038/s41591-018-0300-7.
実装に興味のある読者は、方法論的な詳細やAIの医療機器と診療所での臨床決定支援に関する最新の規制ガイダンスについては、JAMA Ophthalmologyの全文記事を参照してください。

