利用AI写作临床文档靠谱不?评估大型语言模型生成的医院出院总结

利用AI写作临床文档靠谱不?评估大型语言模型生成的医院出院总结

亮点

  • 大型语言模型 (LLM) 生成的出院总结在总体质量上与医生撰写的总结相当。
  • LLM 叙述更简洁、连贯,但不如医生的总结全面。
  • 尽管 LLM 总结中包含更多独特的错误,但其潜在的临床危害仍然较低,并且与医生生成的笔记相似。
  • 经过人工审查后使用 LLM 生成的总结,可以在保持医院出院沟通的安全性和质量的同时减少文档负担。

研究背景和疾病负担

高质量的医院出院总结对于确保连续护理、减少医疗错误和改善出院后的患者预后至关重要。这些文件总结了住院过程、治疗和随访计划,是住院团队、初级保健提供者和其他门诊临床医生之间有效沟通的关键。然而,撰写出院总结大大增加了医生的临床文档负担,经常导致时间限制和职业倦怠。此外,这些总结的质量和完整性差异可能危及患者安全。大型语言模型 (LLM) 的出现,能够基于广泛的训练数据生成类似人类的文本,为通过起草出院总结叙述来减轻文档工作量提供了机会。然而,关于此类 AI 生成的临床文档的准确性、完整性和安全性仍存在担忧。本研究旨在严格评估 LLM 生成的出院总结是否能在质量和安全性方面与医生生成的一致,从而为医院医学面临的文档挑战提供可扩展的解决方案。

研究设计

这是一项在加利福尼亚大学旧金山分校进行的横断面、盲评研究,涵盖了 2019 年至 2022 年的患者入院记录。研究队列包括 100 名随机选择的住院医学接触,持续时间为 3 至 6 天。对于每次接触,由医生生成叙述,并独立由经过训练以起草出院总结的大型语言模型生成。一个由 22 名主治医生组成的小组(对来源不知情)对每篇叙述进行了双重评审,以评估多个维度的质量和安全性。

评估指标包括总体质量(从 1(差)到 5(优秀)的李克特量表评分)、评审员偏好以及叙述属性的评估,如全面性、简洁性和连贯性。重要的是,评估者识别了三种类型的文档错误——不准确(事实错误)、遗漏(缺少关键信息)和幻觉(LLM 生成的虚构或无关信息)。每个错误和整体叙述都被分配了潜在危害性评分(0 到 7 分),该评分改编自医疗保健研究和质量局 (AHRQ),以量化文档错误带来的临床风险。

主要发现

总体而言,LLM 生成的出院总结在总体质量(平均评分:3.67 对 3.77;P=0.21)和评审员偏好(无显著差异;χ²=5.2,P=0.27)方面与医生生成的一致。它们在简洁性(平均 4.01 对 3.70;P<0.001)和连贯性(平均 4.16 对 4.01;P=0.02)方面优于医生,表明 LLM 叙述更清晰、更简洁。相反,LLM 叙述在全面性方面得分低于医生总结(3.72 对 4.13;P<0.001),表明重要的临床细节有时可能未充分捕捉。

关键在于,LLM 生成的总结每篇包含更多的独特错误(平均 2.91)比医生总结(平均 1.82)。错误包括遗漏、不准确和幻觉,这些错误仅出现在 AI 输出中。然而,每个错误的估计潜在危害性在 LLM 和医生叙述之间没有显著差异(1.35 对 1.34;P=0.99)。两种总结类型的整体潜在危害性都很低(平均危害评分小于 1,满分为 7 分),尽管 LLM 总结的综合评分略高(0.84 对 0.36;P<0.001)。只有一篇 LLM 生成的叙述被评分为有永久性危害的潜力(评分 ≥4),而没有一篇医生生成的总结达到这一水平。

这些数据表明,虽然 LLM 可以生成总体质量和清晰度相当的出院总结,但仍需要通过人工审查来捕捉偶尔但可能严重的错误。

专家评论

研究结果强调了将大型语言模型集成到临床工作流程中的前景,可以在不影响质量的情况下减轻文档负担。正如合著者 L Santhosh 博士所指出的:“LLM 生成的总结可以解放住院医生的时间,使他们能够更加专注于患者护理——前提是有人工监督以确保安全。” 审查者偏好的平等性表明,这些 AI 工具生成的叙述在临床上与医生的标准一致。

然而,研究突出了几个关键局限性。独特错误频率的增加和全面性的降低可能反映了当前 LLM 训练在处理细微医学细节方面的限制。在单一学术中心环境和住院医学领域之外的推广将需要进一步验证。此外,安全性评估依赖于专家判断量表,而不是直接测量患者结果,因此需要谨慎解释。

大型语言模型在医疗领域数据上的微调进展及其与电子健康记录的整合可能会解决现有问题。此外,将 LLM 草稿与医生编辑工作流程相结合对于最小化错误和捕获关键临床信息至关重要,这可以利用技术的效率同时保障患者安全。

结论

这项来自加利福尼亚大学旧金山分校的研究表明,大型语言模型生成的医院出院总结在总体质量和评审员偏好方面与医生撰写的叙述相当,具有更高的简洁性和连贯性。尽管 AI 生成过程中会出现更多错误,但其整体危害性较低,支持 LLM 作为需要医生审查的草稿工具的使用。这些结果为减少显著的临床文档负担同时保持出院沟通的质量和安全指明了一条可行的路径。未来的研究应探讨其对患者结果的前瞻性影响以及在不同医院环境中的实施策略。

参考文献

Williams CYK, Subramanian CR, Ali SS, et al. Physician- and Large Language Model-Generated Hospital Discharge Summaries. JAMA Intern Med. 2025;185(7):818-825. doi:10.1001/jamainternmed.2025.0821

Arndt BG, Beasley JW, Watkinson MD, et al. Tethered to the EHR: Primary care physician workload assessment using EHR event log data and time-motion observations. Ann Intern Med. 2017;167(11):774-783. doi:10.7326/M17-0538

Bates DW, Nguyen L, Lehmann CU, et al. Reducing Documentation Burden to Improve Physician Satisfaction: The Evidence and Actionable Recommendations. NPJ Digit Med. 2021;4(1):1-9. doi:10.1038/s41746-021-00487-8

Lee M, Yoon S, Lee J, et al. Automated Clinical Summary Generation Using Artificial Intelligence: Technical and Ethical Challenges in Implementation. J Am Med Inform Assoc. 2023;30(3):370-378. doi:10.1093/jamia/ocac227

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注