AI智能体在临床实践中的价值评估

AI智能体在临床实践中的价值评估

人工智能(AI)正在迅速改变临床医学,特别是通过使用能够理解和生成类似人类文本的大规模语言模型(LLM)。最近,基于LLM构建的AI智能体——能够规划任务、使用外部工具、与其他智能体协调并执行复杂的多步骤临床工作流程的高级系统——作为解决未满足医疗需求的创新工具出现。这些智能体有望增强临床决策、减轻临床医生的认知负担、优化诊断准确性、加快证据综合、辅助治疗计划制定,并提高行政效率。日益复杂的医学知识和患者数据量需要能够处理多个数据流和实时更新的智能系统,超越静态模型。然而,尽管兴趣日益浓厚,但在AI智能体相对于标准LLM提供的性能增益、多智能体与单智能体框架的比较优势以及有效整合辅助临床工具以高效完成医疗任务等方面仍存在关键的知识空白。

研究设计

这项系统评价分析了2022年10月1日至2025年8月5日期间发表在PubMed、Web of Science和Scopus数据库中的同行评审研究,这些研究定量评估了AI智能体在临床环境中的实施情况。符合条件的研究包括那些将AI智能体应用于临床和行政医疗任务的研究,并且有明确的性能比较,对比基线LLM或其他标准。两位独立审稿人(A.G.,M.O.)系统地提取了所采用的AI架构、性能指标(如准确度或临床结果改善)、临床应用和评估数据集的数据。数据提取过程中出现的分歧通过讨论解决,必要时咨询第三位审稿人(E.K.)。纳入的研究涵盖了从诊断、预后、治疗计划到临床操作和医学教育等临床领域的范围。

主要发现

20项符合严格纳入标准的研究主要发表于2024年至2025年之间,分析了从临床病例系列(16-302例)、医疗记录和电生理报告(总计419份报告)、多项选择临床问题(5,120项)、证据综合查询(50-500项查询)、117名实际患者的患者数据、广泛的计算案例(>10,000次计算)和基因组/生物数据集(包括生物标志物面板、纳米抗体、基因集和科学文章)等多样化的数据集。

所有评估的AI智能体框架在准确性和任务效能方面均一致优于其基线LLM对应物。临床应用特别集中在决策支持角色上,其中诊断和预后,尤其是罕见病识别,占研究的40%。其他重要领域包括证据综合(25%)、治疗计划(15%)、临床操作如预约安排(10%)、基因组学(10%)和医学教育(5%)。

出现了三种主要的AI智能体架构原型:单智能体工具调用框架(40%)、无集成工具使用的多智能体系统(25%)和带有工具调用的混合多智能体系统(35%)。主导这些智能体的主要LLM是GPT-4家族模型(75%),辅以Llama-3、Claude-3 Opus和Gemini-1.5模型。

关于多智能体系统,确定了两种不同的方法。没有工具增强的纯多智能体框架在基线LLM上的表现适度提升(中位数增加+14.05%,四分位间距8.95-45.15%)。混合多智能体工具调用系统的表现略有提升(中位数+17.17%,四分位间距4.12-39.3%),但存在显著差异。这种高变异性可能反映了任务的异质性,因为某些任务可以通过单个智能体或较简单的工具增强LLM来管理,而其他任务则需要更复杂的多智能体协调。

值得注意的多智能体成功示例包括:
– Qu等人利用微调的CRISPR-Llama3模型完成22个基因编辑任务,跨越288个基准测试,并进行了湿实验室基因敲除验证。
– Swanson等人开发的“虚拟实验室”包含免疫学和机器学习领域的专门智能体,促进了经过实验验证的抗体开发。
– 王(2025年)部署了一个多智能体肿瘤治疗计划器,在肺癌治疗中超过了标准ECHO自动计划,提高了+4.75%。
– Ke等人开发的系统显著减轻了临床决策偏差,将复杂偏倚病例的准确性从0%提高到76%,超过医生的表现。
– Chen等人通过多智能体框架改进了罕见病诊断的推理过程。

多智能体系统在高度复杂的临床领域表现出特别的优势,这些领域需要整合多样化专业知识和详细的推理步骤。相反,当应用于适合简单计算方法的任务时,多智能体协作的额外复杂性并未带来相对于单独使用工具的实质性优势。

对智能体数量和工具集成的分析显示,基于智能体数量的性能曲线呈倒U形,最佳结果出现在4-5个智能体时,之后性能下降(β = -8.815,R² = 0.162)。工具数量与任务性能呈弱正相关(β = 8.869,R² = 0.377),但这些关系受到任务和研究设计异质性的影响。

多智能体系统内的共识和协调机制各不相同:由主管领导的协调(36.4%)、顺序处理(45.5%)、多数投票(9.1%)和定制方法(9.1%)。这些策略对性能提升的贡献各不相同。

单智能体工具调用框架通常实现了显著的中位数改进53个百分点,特别是在药物剂量和目标证据检索等离散临床任务中表现出色。多智能体系统在管理和应对高复杂性和不确定性方面表现出色,强调了将AI架构复杂性与临床任务复杂性对齐以获得最佳收益的重要性。

专家评论

综述的证据证实了AI智能体在增强临床决策和操作工作流程方面的变革潜力,但也强调了部署中的细微差别。虽然多智能体架构在复杂任务中表现出显著优势,但在更适合单智能体或工具增强LLM的简单场景中,几乎没有看到好处,这突显了需要根据任务进行设计选择。

方法学考虑值得重视:大多数研究缺乏前瞻性随机设计,限制了在真实世界环境中的通用性和安全性评估。此外,几份报告中对合成或模拟数据的选择依赖性限制了适用性。观察到的倒U效应强调,超过最佳数量的合作智能体可能会降低结果,可能是由于协调开销或输入冲突。

当前的临床指南和专家意见尚未纳入特定的AI智能体使用建议,反映了这一领域的新兴性质。继续提高AI架构的透明度、可重复性和外部验证仍然是关键。

局限性

任务异质性、研究设计和结果测量的差异阻碍了定量荟萃分析。前瞻性随机对照试验的数量有限,限制了对临床效果、安全性和成本影响的证据强度。多篇研究报告中对合成数据集的重度依赖可能高估了实际性能。此外,智能体共识和工具集成的最佳方法仍有待标准化。

结论

与独立的LLM相比,集成大规模语言模型的AI智能体无疑提高了临床任务的性能,尤其是在系统复杂性与任务需求相匹配时。多智能体系统在高度复杂、多方面的临床情景中展现出最大的前景,而简单任务可能通过单智能体工具增强模型得到充分解决。

这些发现标志着临床AI应用的范式转变,解锁了以前无法通过基础LLM访问的领域。未来,使用真实世界患者数据的大型前瞻性、多中心临床试验对于严格评估安全性、有效性、可扩展性和成本效益至关重要。透明报告、标准化评估框架和针对临床工作流程的整合路径将是成功临床转化的关键。

本系统评价的主要资金来自西奈山伊坎医学院的机构资源,包括临床和转化科学奖(CTSA)拨款UL1TR004419和NIH基础设施拨款S10OD026880和S10OD030463。作者承认内容准确性独立于资助机构的责任。

参考文献

Gorenshtein A, Omar M, Glicksberg BS, Nadkarni GN, Klang E. AI Agents in Clinical Medicine: A Systematic Review. medRxiv [Preprint]. 2025 Aug 26:2025.08.22.25334232. doi: 10.1101/2025.08.22.25334232 . PMID: 40909853 ; PMCID: PMC12407621 .

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注