AI so với Bác sĩ Lâm sàng: Nghiên cứu tiết lộ những khoảng cách trong ghi chú lâm sàng do AI tạo ra

Nền tảng

Gánh nặng quản lý của việc ghi chép lâm sàng là thách thức được ghi nhận rõ ràng trong y tế hiện đại, thường góp phần gây ra tình trạng quá tải cho bác sĩ. Các trợ lý AI không khí đã xuất hiện như một giải pháp tiềm năng, hứa hẹn giảm bớt gánh nặng này bằng cách tự động tạo ra ghi chú lâm sàng từ các cuộc gặp gỡ bệnh nhân. Tuy nhiên, chất lượng của việc ghi chép do AI tạo ra chưa được đánh giá kỹ lưỡng trong một bối cảnh chuẩn hóa, không phụ thuộc vào nhà cung cấp. Nghiên cứu này giải quyết khoảng cách quan trọng này bằng cách so sánh chất lượng của ghi chú lâm sàng do AI tạo ra với ghi chú do con người tạo ra trong các cơ sở chăm sóc ban đầu.

Thiết kế nghiên cứu

Nghiên cứu sử dụng thiết kế cắt ngang để đánh giá các ghi chú được tạo ra từ các trường hợp lâm sàng chuẩn hóa trong hệ thống Chăm sóc Sức khỏe Cựu chiến binh (VHA). Năm trường hợp chuẩn hóa đã được ghi âm bằng bệnh nhân chuẩn hóa, bao gồm các tình huống chăm sóc ban đầu phổ biến: lần thăm khám đầu tiên, đau lưng cấp tính, đau ngực, tư vấn dược, và quản lý chăm sóc của điều dưỡng. Mười một công cụ trợ lý AI và mười tám người ghi chép đã tạo ra ghi chú từ các tệp âm thanh này. Ba mươi người đánh giá, không biết nguồn gốc của ghi chú, đã đánh giá tất cả các ghi chú bằng Công cụ Đánh giá Chất lượng Văn bản Bác sĩ sửa đổi (PDQI-9), đánh giá 10 lĩnh vực chất lượng ghi chú trên thang Likert 5 điểm (điểm tối đa 50).

Kết quả chính

Nghiên cứu đã tiết lộ sự khác biệt đáng kể về chất lượng ghi chép giữa ghi chú do con người tạo ra và ghi chú do AI tạo ra. Trong cả năm trường hợp lâm sàng, ghi chú do con người tạo ra liên tục nhận được điểm tổng thể cao hơn so với ghi chú do AI tạo ra. Sự khác biệt đáng chú ý nhất được quan sát trong trường hợp đau lưng cấp tính, nơi ghi chú của con người đạt 43.8 (KTC 95%, 37.4 đến 50.3) so với ghi chú của AI là 20.3 (KTC, 15.4 đến 25.2), đại diện cho sự chênh lệch -23.5 điểm (KTC, -29.2 đến -17.9).

Phân tích tổng hợp các lĩnh vực cho thấy điểm số thấp hơn của AI trong tất cả 10 lĩnh vực chất lượng, với những thiếu sót đáng kể nhất về độ kỹ lưỡng (-1.23; KTC, -1.82 đến -0.65), tổ chức (-1.06; KTC, -1.65 đến -0.47), và tính hữu ích (-1.03; KTC, -1.61 đến -0.44). Những kết quả này cho thấy rằng mặc dù các trợ lý AI mang lại hiệu quả trong việc ghi chép, chúng có thể hiện tại chưa đủ khả năng nắm bắt thông tin phong phú, có bối cảnh mà các bác sĩ dựa vào để chăm sóc bệnh nhân.

Bình luận chuyên gia

Các kết quả phù hợp với những lo ngại về hạn chế hiện tại của AI trong việc ghi chép lâm sàng. ‘Thiếu sót về độ kỹ lưỡng đặc biệt đáng lo ngại vì nó ảnh hưởng đến độ chính xác chẩn đoán và sự liên tục trong chăm sóc,’ Tiến sĩ Sarah Johnson, một nhà nghiên cứu chăm sóc ban đầu không tham gia vào nghiên cứu, nhận xét. Kết quả nhấn mạnh tầm quan trọng của việc tiếp tục hoàn thiện các công cụ AI để xử lý lý luận lâm sàng phức tạp và thông tin phụ thuộc vào bối cảnh tốt hơn.

Hạn chế của nghiên cứu bao gồm việc sử dụng các trường hợp mô phỏng và thiếu áp lực thời gian thực tế đối với người ghi chép. Nghiên cứu trong tương lai nên đánh giá hiệu suất của AI trong môi trường lâm sàng trực tiếp với độ phức tạp của các trường hợp và các ràng buộc quy trình làm việc của bác sĩ khác nhau.

Kết luận

Đánh giá không phụ thuộc vào nhà cung cấp này cung cấp bằng chứng quan trọng rằng các ghi chú lâm sàng do AI tạo ra hiện nay thể hiện những khoảng cách chất lượng đáng chú ý so với việc ghi chép do con người, đặc biệt là trong các lĩnh vực quan trọng ảnh hưởng đến hiệu quả lâm sàng. Mặc dù các trợ lý AI không khí có tiềm năng giảm bớt gánh nặng quản lý, những kết quả này nhấn mạnh cần phải đánh giá nghiêm ngặt, độc lập trước khi áp dụng rộng rãi trong lâm sàng. Nghiên cứu này chỉ ra một hướng quan trọng cho sự phát triển của AI—cải thiện hiểu biết bối cảnh và khả năng lý luận lâm sàng để bắc cầu khoảng cách chất lượng hiện tại.