AI与家庭医生：评估ChatGPT-4o对常见初级保健查询的回答

研究背景与疾病负担

初级保健是全面医疗保健的基石，涵盖了从急性病到慢性病管理和预防保健的各种医疗问题。随着对家庭医生需求的增长，可用于彻底患者教育和个人化咨询的时间往往受到限制。与此同时，人工智能（AI）技术，特别是像ChatGPT-4o这样的大型语言模型，作为潜在的辅助工具在医疗保健交付中崭露头角。它们承诺能够快速、一致且详细地回答患者的查询，可能补充医生的建议并改善结果。评估AI相对于人类临床医生的能力对于定义其角色至关重要，尤其是在初级保健查询通常涉及细致入微、以患者为中心的沟通，将医学准确性与同理心相结合的情况下。

研究设计

伊南等人（2025年）的研究进行了比较、观察性的横断面分析，涉及200个精心策划的临床问题，这些问题是常见的家庭医学场景的反映。这些问题通过系统的文献回顾和专家验证开发，以确保代表性和临床相关性。

三位经验丰富的家庭医生独立回答了这一数据集，ChatGPT-4o（当时OpenAI的最新生成语言模型版本）也进行了回答。为了最小化偏倚，所有回答都进行了匿名处理，并由三位独立的家庭医学专家随机评估。评估指标分为四个维度，使用标准化的李克特量表：

– 适当性（1-6）：回答对临床情境的适宜性。
– 准确性（1-6）：提供的医学信息的正确性。
– 全面性（1-3）：回答覆盖问题相关方面的程度。
– 同理心（1-5）：表达理解和以患者为中心的程度。

此外，记录了回答的字数以评估长度和详细程度。

主要发现

研究表明，ChatGPT-4o在所有评估指标上均表现出统计学显著的优越性（p < 0.01）。值得注意的是，ChatGPT-4o的平均得分如下：

– 适当性：5.8 ± 0.5 对比医生的 4.3 ± 1.0
– 准确性：5.8 ± 0.5 对比医生的 4.5 ± 1.1
– 全面性：2.4 ± 0.6 对比医生的 1.4 ± 0.7
– 同理心：4.8 ± 0.4 对比医生的 4.0 ± 0.8

这些差异不仅强调了AI提供准确和相关答案的能力，还表明AI能够在回答中展现出显著的同理心，这是算法响应中一个常常出乎意料的方面。

ChatGPT-4o的回答长度明显更长（平均298.8 ± 82.3字）相比医生的回答（平均106.1 ± 95.0字），这表明AI提供了更多的详细解释，这可能与较高的全面性得分有关。

在特定主题的分析中，ChatGPT-4o在两个领域——一般咨询和儿童感染——中的表现接近但未达到显著性（p = 0.07 和 0.08）。这些领域可能反映了需要细致临床判断的情景，其中人类经验具有特别重要的作用。

专家评论

这些发现令人信服，表明像ChatGPT-4o这样的AI工具可以通过增强患者教育和支持临床决策来补充初级保健，提供广泛、准确且富有同理心的信息。较高的同理心得分挑战了传统观点，即AI缺乏情感智能，暗示经过精心训练的模型可以生成与患者心理社会需求产生共鸣的回应。

然而，明显较长的AI回答引发了关于效率和患者偏好的考虑，强调了需要根据实际用途调整回答长度。此外，一般咨询和儿童感染领域的近乎等效性提示了需要复杂临床判断或文化背景信息的情境，这些情境中资深临床医生表现出色。

研究的局限性包括评估的受控、模拟性质——现实世界的临床情景涉及动态互动、体格检查和细微的决策，而不仅仅是文本回答。此外，尽管标准化了，但专家评分者的主观评价可能会引入解释变异性。

未来的研究方向应调查AI如何融入工作流程，避免给临床医生或患者带来过多信息的负担，并确保跨不同人群的文化和语言适应性。

结论

伊南等人的比较分析预示着一个范式转变，AI（以ChatGPT-4o为代表）可以通过提供高度适当的、准确的、全面的和富有同理心的答案来有效补充家庭医生，回答初级保健中的患者查询。潜在的应用范围包括增强患者教育、支持临床推理和丰富医学培训。

对于临床实践，AI可以作为初始信息来源或决策支持工具，使医生能够专注于复杂的临床判断和人际关系。然而，谨慎地整合并注意回答的简洁性和文化相关性仍然是关键。

持续的研究应探索真实世界的研究，评估患者结果、满意度和安全性，验证AI在实验框架之外的作用。AI与人类临床医生的合作有望实现更加便捷、知情和富有同情心的初级保健。

参考文献

İnan M, Suvak Ö, Aypak C. 初级保健中的AI：ChatGPT与家庭医生在患者查询上的比较。Int J Med Inform. 2025年11月;203:106047. doi: 10.1016/j.ijmedinf.2025.106047. Epub 2025年7月12日。PMID: 40664020。

AI与家庭医生：评估ChatGPT-4o对常见初级保健查询的回答

研究背景与疾病负担

研究设计

主要发现

专家评论

结论

参考文献

Comments

发表回复取消回复

研究背景与疾病负担

研究设计

主要发现

专家评论

结论

参考文献

Comments

发表回复 取消回复

发表回复取消回复