AI So với Bác sĩ Gia đình: Đánh giá Trả lời của ChatGPT-4o đối với Các Truy vấn Thường gặp trong Chăm sóc Cơ bản

Nền tảng Nghiên cứu và Gánh nặng Bệnh tật

Chăm sóc cơ bản là nền tảng của hệ thống y tế toàn diện, giải quyết một loạt các vấn đề y tế từ bệnh cấp tính đến quản lý bệnh mãn tính và chăm sóc dự phòng. Yêu cầu ngày càng tăng đối với bác sĩ gia đình thường hạn chế thời gian dành cho giáo dục sức khỏe kỹ lưỡng và tư vấn cá nhân hóa. Trong khi đó, công nghệ trí tuệ nhân tạo (AI), đặc biệt là các mô hình ngôn ngữ lớn như ChatGPT-4o, đã xuất hiện như công cụ hỗ trợ tiềm năng trong việc cung cấp dịch vụ y tế. Chúng hứa hẹn phản hồi nhanh chóng, nhất quán và chi tiết cho các truy vấn của bệnh nhân, có thể bổ sung lời khuyên của bác sĩ và cải thiện kết quả. Đánh giá khả năng của AI so với các bác sĩ lâm sàng là quan trọng để xác định vai trò của nó, đặc biệt là vì các truy vấn chăm sóc cơ bản thường đòi hỏi giao tiếp hướng đến bệnh nhân tinh vi, kết hợp độ chính xác y tế với lòng đồng cảm.

Thiết kế Nghiên cứu

Nghiên cứu tham chiếu của İnan et al. (2025) đã thực hiện phân tích quan sát cắt ngang so sánh liên quan đến 200 câu hỏi lâm sàng được tuyển chọn kỹ lưỡng, phản ánh các tình huống phổ biến trong y học gia đình. Các câu hỏi này được phát triển thông qua xem xét tài liệu có hệ thống và xác nhận chuyên gia để đảm bảo tính đại diện và liên quan lâm sàng.

Ba bác sĩ gia đình có kinh nghiệm đã độc lập trả lời dữ liệu này, cũng như ChatGPT-4o, phiên bản mới nhất của mô hình ngôn ngữ sinh thành của OpenAI vào thời điểm đó. Để giảm thiểu thiên lệch, tất cả các phản hồi đều được ẩn danh và đánh giá ngẫu nhiên bởi ba chuyên gia y học gia đình độc lập. Các tiêu chí đánh giá được cấu trúc thành bốn chiều sử dụng thang đo Likert chuẩn:

– Tính phù hợp (1-6): Sự phù hợp của phản hồi với bối cảnh lâm sàng.
– Độ chính xác (1-6): Độ chính xác của thông tin y tế được cung cấp.
– Sự toàn diện (1-3): Phạm vi mà phản hồi bao gồm các khía cạnh liên quan của câu hỏi.
– Lòng đồng cảm (1-5): Sự thể hiện sự hiểu biết và hướng đến bệnh nhân.

Ngoài ra, số từ của các phản hồi được ghi lại để đánh giá độ dài và chi tiết.

Kết quả Chính

Nghiên cứu đã chứng minh sự vượt trội thống kê đáng kể của ChatGPT-4o trên tất cả các tiêu chí đánh giá (p < 0.01). Đặc biệt, điểm trung bình của ChatGPT-4o là:

– Tính phù hợp: 5.8 ± 0.5 so với 4.3 ± 1.0 của bác sĩ.
– Độ chính xác: 5.8 ± 0.5 so với 4.5 ± 1.1 của bác sĩ.
– Sự toàn diện: 2.4 ± 0.6 so với 1.4 ± 0.7 của bác sĩ.
– Lòng đồng cảm: 4.8 ± 0.4 so với 4.0 ± 0.8 của bác sĩ.

Những sự khác biệt này nhấn mạnh khả năng của AI không chỉ cung cấp câu trả lời y tế chính xác và liên quan mà còn làm điều đó với lòng đồng cảm đáng chú ý, một khía cạnh thường không mong đợi từ phản hồi thuật toán.

Độ dài của các phản hồi của ChatGPT-4o dài hơn đáng kể (trung bình 298.8 ± 82.3 từ) so với câu trả lời của bác sĩ (trung bình 106.1 ± 95.0 từ), cho thấy sự giải thích chi tiết hơn của AI, có thể liên quan đến điểm số toàn diện cao hơn.

Trong các phân tích cụ thể theo chủ đề, ChatGPT-4o vượt trội hơn bác sĩ một cách nhất quán ngoại trừ hai lĩnh vực—Tư vấn Chung và Nhiễm trùng Trẻ em—với sự khác biệt thống kê gần nhưng không đạt mức ý nghĩa (p = 0.07 và 0.08 tương ứng). Những khu vực này có thể phản ánh các tình huống phán đoán lâm sàng tinh vi nơi kinh nghiệm con người mang trọng lượng đặc biệt.

Bình luận của Chuyên gia

Những kết quả này rất thuyết phục, cho thấy các công cụ AI như ChatGPT-4o có thể hỗ trợ chăm sóc cơ bản bằng cách nâng cao giáo dục bệnh nhân và hỗ trợ quyết định lâm sàng với thông tin rộng rãi, chính xác và đồng cảm. Điểm số lòng đồng cảm cao hơn thách thức quan niệm truyền thống rằng AI thiếu trí tuệ cảm xúc, ngụ ý rằng các mô hình được đào tạo cẩn thận có thể tạo ra các phản hồi gây tiếng vang với nhu cầu tâm lý-xã hội của bệnh nhân.

Tuy nhiên, các phản hồi AI dài hơn đáng kể đặt ra những cân nhắc về hiệu quả và sở thích của bệnh nhân, nhấn mạnh cần phải điều chỉnh độ dài câu trả lời cho sử dụng thực tế. Ngoài ra, sự tương đương gần như vậy trong Tư vấn Chung và Nhiễm trùng Trẻ em gợi ý các ngữ cảnh yêu cầu phán đoán lâm sàng phức tạp hoặc thông tin văn hóa cụ thể nơi các bác sĩ có kinh nghiệm vượt trội.

Hạn chế của nghiên cứu bao gồm bản chất kiểm soát, mô phỏng của đánh giá—các tình huống lâm sàng thực tế liên quan đến các tương tác động, khám lâm sàng và phán đoán tinh vi vượt quá các phản hồi văn bản. Hơn nữa, các đánh giá chủ quan của các chuyên gia đánh giá, mặc dù đã được chuẩn hóa, có thể giới thiệu sự biến đổi giải thích.

Hướng nghiên cứu trong tương lai nên điều tra sự tích hợp AI vào quy trình làm việc để tránh gây quá tải cho các bác sĩ hoặc bệnh nhân với thông tin quá nhiều và đảm bảo tính phù hợp văn hóa và ngôn ngữ trên các dân số đa dạng.

Kết luận

Phân tích so sánh của İnan et al. báo hiệu một sự thay đổi mô hình nơi AI, được minh họa bằng ChatGPT-4o, có thể hiệu quả bổ sung cho bác sĩ gia đình bằng cách cung cấp các câu trả lời phù hợp, chính xác, toàn diện và đồng cảm cao cho các truy vấn của bệnh nhân trong chăm sóc cơ bản. Các ứng dụng tiềm năng bao gồm nâng cao giáo dục bệnh nhân, hỗ trợ suy luận lâm sàng và làm phong phú thêm đào tạo y tế.

Đối với thực hành lâm sàng, AI có thể đóng vai trò là nguồn thông tin ban đầu hoặc công cụ hỗ trợ quyết định, giải phóng bác sĩ tập trung vào các phán đoán lâm sàng phức tạp và mối quan hệ giao tiếp. Tuy nhiên, tích hợp cẩn thận với sự chú ý đến việc tinh chỉnh câu trả lời cho sự ngắn gọn và phù hợp văn hóa vẫn là quan trọng.

Nghiên cứu tiếp theo nên khám phá các nghiên cứu thực tế đánh giá kết quả, sự hài lòng và an toàn của bệnh nhân, xác thực vai trò của AI ngoài các khuôn khổ thử nghiệm. Sự hợp tác giữa AI và các bác sĩ lâm sàng hứa hẹn một tương lai của chăm sóc cơ bản dễ tiếp cận, thông thái và đồng cảm hơn.