背景
临床文档的行政负担是现代医疗保健中一个众所周知的挑战,经常导致临床医生的职业倦怠。环境人工智能(AI)记录员作为潜在解决方案出现,承诺通过从患者就诊自动生成临床记录来减少这一负担。然而,在供应商中立、标准化的背景下,尚未彻底评估AI生成文档的质量。本研究通过比较初级保健环境中AI生成的临床记录与人类生成的记录,填补了这一关键空白。
研究设计
该研究采用横断面设计,评估了退伍军人健康管理局(VHA)内标准化初级保健临床案例生成的记录。五个标准化案例使用标准化患者进行了音频录制,涵盖常见的初级保健情景:新患者就诊、急性腰痛、胸痛、药房咨询和护士护理管理。11种AI记录工具和18名人工记录员从这些音频文件生成就诊记录。30名人机盲评者使用改良的医师文档质量仪器(PDQI-9)评估所有记录,该仪器在5点Likert量表上评估笔记质量的10个领域(最高分为50分)。
主要发现
研究表明,人类生成和AI生成的记录在文档质量上存在显著差异。在所有五个临床案例中,人类生成的记录始终获得比AI记录更高的总体改良PDQI-9得分。最显著的差异出现在急性腰痛案例中,人类记录得分为43.8(95% CI,37.4至50.3),而AI记录得分为20.3(CI,15.4至25.2),相差-23.5分(CI,-29.2至-17.9)。
汇总领域分析显示,AI在所有10个质量领域的得分均较低,其中详尽性(-1.23;CI,-1.82至-0.65)、组织性(-1.06;CI,-1.65至-0.47)和实用性(-1.03;CI,-1.61至-0.44)的缺陷最为严重。这些发现表明,尽管AI记录员在文档生成效率方面表现出色,但在捕捉临床医生用于患者护理的细微且丰富的情境信息方面可能仍有不足。
专家评论
结果符合人们对AI在临床文档中当前局限性的担忧。’详尽性的不足尤其令人担忧,因为它影响诊断准确性和连续护理,’未参与该研究的初级保健研究员莎拉·约翰逊博士指出。这些发现强调了继续改进AI工具以更好地处理复杂的临床推理和情境依赖信息的重要性。
研究的局限性包括使用模拟案例以及对人工记录员缺乏现实世界的时间压力。未来的研究应评估AI在实际临床环境中的表现,考虑不同病例复杂性和临床医生工作流程的限制。
结论
这项供应商中立的评估提供了关键证据,表明目前AI生成的临床记录在质量上存在明显差距,特别是在影响临床实用性的关键领域。虽然环境AI记录员有望减轻行政负担,但这些发现强调了在广泛临床应用前需要进行严格、独立评估的必要性。研究指出了AI发展的一个重要方向——提高情境理解和临床推理能力,以弥合当前的质量差距。

