亮点
- 人工智能决策支持软件提高了初级保健医生在肺功能测定解读中的诊断准确性。
- 在慢性阻塞性肺疾病(COPD)病例中,效果最为显著,比标准护理提高了15.9%。
- 人工智能辅助还增强了鉴别诊断和技术质量评估,但并未显著增加医生的信心或改善模式解读。
- 人工智能可能有助于解决初级保健中长期存在的呼吸系统疾病漏诊和误诊问题。
研究背景与疾病负担
慢性呼吸系统疾病,包括慢性阻塞性肺疾病(COPD)和哮喘,是全球发病率和死亡率的主要原因。肺功能测定是诊断和监测这些疾病的金标准,然而,研究表明,初级保健中肺功能测定的质量和医生对结果的解读信心高度不一致。这种不一致性导致了漏诊、过度诊断和误诊,从而错过了治疗机会,导致不当的治疗和医疗费用增加。尽管人工智能(AI)决策支持系统在专科环境中展示了增强肺功能解读的潜力,但在初级保健这一前线环境中,医生的专业知识和资源更加有限,其效用仍不清楚。
研究设计
这项平行组、随机、对照优效性试验(ClinicalTrials.gov 标识符,NCT05933694)旨在确定人工智能决策支持软件是否可以提高初级保健医生在解读肺功能测定结果方面的表现。试验招募了参与肺功能测定的临床医生(全科医生、护士等),他们被随机分配通过在线平台评估50个真实世界的肺功能测定案例,要么使用(干预组)要么不使用(对照组)人工智能决策支持软件。主要终点是医生首选诊断与由专家肺科医生建立的参考诊断的一致性。关键次要终点包括鉴别诊断的准确性、肺功能测定技术质量的评估、肺功能测定模式的解读以及医生自评的信心。
主要发现
共有400名医生接受了筛查,其中234名被随机分组,133名(干预组67名,对照组66名)完成了全部评估。受试者主要是女性(73%),42%为全科医生,50%为护士,反映了初级保健中肺功能测定用户的实际情况。
添加人工智能决策支持软件后,诊断表现有了统计学上的显著改善。干预组医生首选诊断与专家参考诊断的一致性平均高出9.0个百分点(95% CI,4.5至13.3%;P=0.001)。值得注意的是,在计划的COPD病例亚组分析中,改善更为明显,平均差异为15.9个百分点(95% CI,9.0至22.7%;P<0.001)。
次要结果表明,人工智能支持提高了医生提供准确鉴别诊断和评估肺功能测定追踪技术质量的能力。然而,人工智能支持并未显著影响模式识别(例如,区分阻塞性和限制性模式)或自我报告的解读信心。
这些结果强调了人工智能支持在临床上和统计上的重要性,尤其是在提高COPD的识别方面——这种疾病在初级保健环境中经常被漏诊。软件对技术质量评估的影响也值得关注,因为测试质量不佳会削弱整个肺功能测定的诊断路径。
专家评论
这些发现与之前的专科研究结果一致,将人工智能的好处扩展到了初级保健领域,而这里对决策支持的需求可能更大。正如最近的全球指南(如GOLD和GINA)所强调的,正确解读肺功能测定是呼吸系统疾病管理的基础,但由于培训和经验有限,社区环境中的解读往往不足。试验的实用方法——使用真实世界案例和多样化的医生群体——增强了其结果的外部有效性。
然而,有几个局限性需要考虑。首先,线上研究格式无法完全复制临床工作流程、患者互动或实时决策的复杂性。其次,医生信心的缺乏改善可能表明需要更集成的、教育性的AI工具,而不仅仅是诊断支持。最后,诊断表现的绝对改善相对较小,这表明人工智能应补充而非替代医生的判断,并且持续的肺功能测定培训仍然是必要的。
结论
这项随机对照试验提供了强有力的证据,证明人工智能辅助的肺功能测定解读可以显著提高初级保健医生的诊断准确性,特别是对于COPD。通过减少误诊和提高技术评估,人工智能有潜力解决初级保健水平上呼吸系统疾病管理的关键问题。未来的研究应探索将AI工具整合到常规临床工作流程中,评估其对患者结局的影响,并制定策略以增强医生的参与度和信心。
参考文献
1. 人工智能辅助初级保健中的肺功能测定解读:随机对照试验。NEJM AI. 2025;2(8). DOI: 10.1056/AIoa2400804.
2. 全球慢性阻塞性肺疾病倡议(GOLD)2024年报告。https://goldcopd.org.
3. Culver BH, 等. 标准化肺功能报告推荐。美国胸科学会官方技术声明。Am J Respir Crit Care Med. 2017;196(11):1463-1472.