ChatGPT-4作为在线门诊助手在产后乳腺炎管理中的评估:一项观察性研究分析

ChatGPT-4作为在线门诊助手在产后乳腺炎管理中的评估:一项观察性研究分析

引言

产后乳腺炎是一种常见的炎症性疾病,影响哺乳期妇女,特征为乳房疼痛、肿胀,有时伴有感染。有效的门诊管理对于确保及时治疗、患者舒适以及预防脓肿形成等并发症至关重要。将人工智能(AI)整合到临床工作流程中,有望增强门诊决策和患者教育。由OpenAI开发的先进语言模型ChatGPT因其能够向临床医生和患者提供信息和支持而受到关注。然而,其在特定门诊环境中的表现,如涉及产后乳腺炎的一般外科病例,仍需进一步探索。

目的

本研究旨在评估ChatGPT-4作为虚拟门诊助手在管理产后乳腺炎方面的实用性。具体而言,研究评估了ChatGPT-4对土耳其语提出的常见患者问题的回答在准确性、清晰度、全面性、遵循临床指南和安全性方面的表现。

方法

从面向土耳其语患者的公共卫生网站和在线论坛收集了15个关于产后乳腺炎的常见问题。这些问题被分为四个类别:一般信息(2个问题)、症状和诊断(6个问题)、治疗(2个问题)和预后(5个问题)。

每个问题于2024年9月3日提交给ChatGPT-4,并记录了一个土耳其语答案。一个由五名评估者组成的小组——三名获得认证的普通外科医生和两名普通外科住院医师——根据五个标准评估了这些回答:

1. 长度足够覆盖主题
2. 使用患者可以理解的语言
3. 提供的医疗信息准确
4. 遵循当前的临床指南
5. 确保建议中的患者安全

定量指标包括用于评估书面健康信息质量的DISCERN工具、适应土耳其语的Flesch-Kincaid可读性评分以及通过组内相关系数(ICC)计算的评价者间可靠性。

结果

所有15个问题都进行了评估。总体而言,ChatGPT-4的回答被评估小组评为“优秀”,尤其是在与治疗和预后相关的查询中。统计分析显示,不同类型问题的DISCERN评分存在显著差异(P = .01),治疗和预后问题得分高于一般和诊断问题。然而,在长度、可理解性、准确性、指南遵循或患者安全方面的评价者评分、JAMA基准评分或可读性水平方面未发现显著差异(P > .05)。

评估参数之间的评价者间一致性良好(ICC = 0.772),但在考虑个别标准时一致性有所不同。相关性分析表明,主观评价者评分与客观质量指标之间没有显著的整体关联。值得注意的是,对于某个特定问题,文献遵循性和患者安全之间存在强烈的正相关(r = 0.968,P < .001)。

讨论

研究结果表明,ChatGPT-4可以提供可靠的、清晰的产后乳腺炎信息,特别是在治疗选择和预后方面,这是患者决策的关键领域。该模型的回答通常与当前的临床指南一致,并强调了患者安全。

然而,评估者之间的差异和某些评估的主观性质突显了在临床环境中继续改进AI工具的必要性。主观和客观质量指标之间缺乏强相关性,突显了评估AI生成的健康信息的挑战。

未来的研究应集中在通过迭代提问技术和定期更新其医学知识库来提高AI助手的可靠性。这种动态方法可以提高AI回答的准确性、清晰度和临床安全性,使其在门诊护理中更加有效和易于访问。

结论

ChatGPT-4展示了作为虚拟门诊助手在产后乳腺炎管理中的有前景的能力,尤其是在提供治疗和预后信息方面。然而,在广泛临床应用之前,仍需进一步优化和严格验证。将AI工具与持续的临床监督相结合将是最大化收益并保障患者安全的关键。

参考文献

Dolu F, Ay OF, Kupeli AH, Karademir E, Büyükavcı MH. Evaluation of ChatGPT-4 as an Online Outpatient Assistant in Puerperal Mastitis Management: Content Analysis of an Observational Study. JMIR Med Inform. 2025 Jul 24;13:e68980. doi: 10.2196/68980. PMID: 40705609; PMCID: PMC12288767.

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注