亮点
• 在一项对离线 FRCOphth 第二部分准备题目的横断面评估中,七个基础模型(FMs)在文本多项选择题上表现出色;表现最佳的基础模型(Claude 3.5 Sonnet)准确率达到 77.7%,与专家眼科医生相当。
• 多模态表现(包括图像或其他非文本输入的问题)仍然显著较低:顶级多模态基础模型(GPT-4o)得分为 57.5%,低于专家临床医生和住院医师的表现。
• 结果表明,基础模型在回答文本眼科查询和教育方面具有直接用途,但也突显了当前多模态推理的局限性以及对领域特定多模态训练、校准和前瞻性验证的需求。
背景
眼科是一个高度视觉化的专业;诊断决策通常依赖于眼底照片、光学相干断层扫描(OCT)、裂隙灯图像和表格化的临床数据。随着基础模型(FMs)的发展,能够处理语言和视觉输入,其在眼科教育、分诊和临床工作流程中的潜力非常吸引人。大多数先前对大型语言模型(LLMs)在医学中的评估主要集中在仅文本的任务(临床病例、板式问题),报告了模型家族各代之间的快速改进。然而,对当前基础模型的严格、面对面评估,特别是包括多模态输入(图像、图表、表格)的专业考试,仍然有限,尤其是在测试知识和图像解释技能的考试中。
研究设计
这项横断面研究(Rocha 等人,JAMA 眼科,2025 年)评估了七个基础模型:GPT-4o(OpenAI)、Gemini 1.5 Pro(Google)、Claude 3.5 Sonnet(Anthropic)、Llama-3.2-11B(Meta)、DeepSeek V3(High-Flyer)、Qwen2.5-Max(阿里云)和 Qwen2.5-VL-72B(阿里云)。这些模型被要求回答从广泛使用的 FRCOphth 第二部分书面考试准备教材中抽取的离线多项选择题。问题包括仅文本项和包含图像或其他视觉数据的多模态项。
对照组包括初级医生、眼科住院医师和专家眼科医生。主要结果是准确率,定义为模型生成的答案与教材标注字母答案相符的比例。统计比较包括模型与人类组之间的差异、95% 置信区间和适当的 P 值。
关键发现
文本问题表现
在仅文本的多项选择题中,Claude 3.5 Sonnet 的准确率最高,达到 77.7%。排名顺序和报告的准确率如下:Claude 3.5 Sonnet(77.7%)、GPT-4o(69.9%)、Qwen2.5-Max(69.3%)、DeepSeek V3(63.2%)、Gemini Advanced(62.6%)、Qwen2.5-VL-72B(58.3%)和 Llama-3.2-11B(50.7%)。
与临床组相比,Claude 3.5 Sonnet 超过了眼科住院医师(差异 9.0%;95% CI,2.4%–15.6%;P = .01)和初级医生(差异 35.2%;95% CI,28.3%–41.9%;P < .001)。其表现与专家眼科医生相当(差异 1.3%;95% CI,−5.1% 至 7.4%;P = .72)。
GPT-4o(69.9%)显著优于作为参考的早期 OpenAI 模型:GPT-4(差异 8.5%;95% CI,1.1%–15.8%;P = .02)和 GPT-3.5(差异 21.8%;95% CI,14.3%–29.2%;P < .001),强调了后续基础模型版本在文本任务上的持续改进。
多模态问题表现
多模态项目——需要解释图像或结合视觉-文本推理——显示了基础模型性能的显著下降。GPT-4o 在评估的模型中领先,准确率为 57.5%。其他多模态结果包括 Claude 3.5 Sonnet(47.5%)、Qwen2.5-VL-72B(45.0%)、Gemini Advanced(35.0%)和 Llama-3.2-11B(25.0%)。
在临床组比较中,GPT-4o 超过初级医生组(差异 15.0%;95% CI,−6.7% 至 36.7%;P = .18),但弱于专家眼科医生(准确率范围 70.0%–85.0%;P = .16)和眼科住院医师(准确率范围 62.5%–80%;P = .35)。虽然点估计值表明相对于经验较少的临床医生有所改善,但与专家相比的多模态差距仍具有临床意义。
结果解读
这些发现表明,最先进的基础模型在眼科的仅文本考试风格问题上现在可以与有经验的临床医生匹敌,但在近似真实世界眼科解释的多模态任务中,这种优势并未完全转化为实际应用。在文本项目上的出色表现表明其在教育(考试准备、问题解释)、简单文本查询的决策支持以及知识检索方面的潜在用途。相反,多模态弱点提示在图像解释至关重要的临床部署(如视网膜疾病分诊、OCT 解释)中应谨慎使用,除非有大量的人类监督或专门的模型再训练。
专家评论和批判性评价
该研究的优势包括多个当代基础模型的面对面比较、多模态项目的纳入以及不同临床经验水平的基准测试。使用考试准备教材产生标准化的参考答案,有助于可重复性。
关键的局限性和潜在混杂因素应谨慎解释。首先,数据集源自单一考试准备来源;问题风格、难度分布和可能与基础模型预训练语料库的重叠会影响模型性能。其次,离线测试模型在教材项目上不能复制现实世界的图像获取变异性(照明、分辨率、伪影)和典型的临床背景,其中患者病史、既往影像学检查和实时互动很重要。第三,准确性本身是一个有限的指标;校准(置信度与正确性)、解释质量和幻觉倾向对于临床可信度至关重要,但在提供的总结数据中未详细报告。
从方法论的角度来看,操作条件(提示工程、图像预处理、允许的模型上下文以及是否使用链式思考提示)可以实质性地影响基础模型输出。缺乏这些操作细节的透明度会限制可重复性和普遍性。
临床和转化意义
对于临床医生和教育者,实用的结论是:
• 教育:具有强大文本能力的基础模型可以用作交互式学习辅助工具,生成正确答案的解释,并支持形成性评估。在应用于模糊或图像依赖的问题时,未经适当验证可能会传播错误。
• 决策支持:基于文本的临床决策支持(例如,总结指南、解释实验室表格、起草转诊信)似乎可行。对于图像解释至关重要的任务,当前现成的基础模型应谨慎使用,并与临床医生监督相结合。
• 研究和开发:多模态项目上的性能差距支持对眼科视觉-语言数据集和基础模型的领域特定成像(眼底、OCT、裂隙灯)及结构化临床数据的定向投资。在临床部署前需要进行前瞻性临床验证、安全终点评估和人类参与的工作流程。
未来方向
提高眼科多模态基础模型性能的优先领域包括:
• 经策划的多模态数据集,捕捉临床多样性:需要现实的成像伪影、多设备变异性及广泛的疾病流行情况以用于微调和外部验证。
• 混合架构:通过检索增强和模块化融合技术,将专门的视觉模型(经过眼科图像训练)与大型语言模型结合,可能保留每种模态的最佳特性。
• 可解释性和校准:系统必须提供与特定图像特征相关的可解释理由,并报告校准后的置信度分数,以支持临床决策。
• 前瞻性临床试验和现实世界测试:评估路径应测量诊断准确性、患者结局、工作流程效率和意外危害(误报、过度转诊、偏见)。
结论
Rocha 等人的研究表明,当代基础模型在仅文本的眼科考试问题上接近专家级表现,为教育和某些基于文本的临床任务提供了即时价值。然而,多模态推理——即整合图像和文本的能力——仍然是一个明显的局限性。基础模型在眼科的临床前景将需要有针对性的多模态数据策划、领域特定的微调、失败模式的透明评估以及在广泛临床采用前的严格前瞻性验证和人类监督。
资金和 clinicaltrials.gov
资金:未在提供的文章摘要中指定。用户应查阅原始 JAMA 眼科出版物以了解声明的资金和披露信息。
参考文献
1. Rocha H, Chong YJ, Thirunavukarasu AJ, et al. Performance of Foundation Models vs Physicians in Textual and Multimodal Ophthalmological Questions. JAMA Ophthalmol. 2025 Nov 13:e254255. doi: 10.1001/jamaophthalmol.2025.4255. Epub ahead of print. PMID: 41231508; PMCID: PMC12616532.
2. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med. 2019 Jan;25(1):44-56. doi:10.1038/s41591-018-0300-7.
感兴趣的读者应查阅完整的 JAMA 眼科文章以获取方法学的具体细节,以及当前关于医疗设备和临床决策支持中 AI 的监管指导。

