Tiêu điểm
- Các tóm tắt xuất viện do mô hình ngôn ngữ lớn (LLM) tạo ra thể hiện chất lượng tổng thể tương đương với các tóm tắt do bác sĩ viết.
- Câu chuyện LLM ngắn gọn và mạch lạc hơn nhưng ít toàn diện hơn so với tóm tắt của bác sĩ.
- Mặc dù các tóm tắt LLM chứa nhiều lỗi độc đáo hơn, khả năng gây hại lâm sàng của chúng vẫn thấp và tương tự như các ghi chú do bác sĩ tạo ra.
- Sử dụng các tóm tắt do LLM tạo ra sau khi xem xét của con người có thể giảm gánh nặng tài liệu đồng thời duy trì sự an toàn và chất lượng trong giao tiếp xuất viện tại bệnh viện.
Nền tảng và gánh nặng bệnh tật của nghiên cứu
Các tóm tắt xuất viện chất lượng cao là rất quan trọng để đảm bảo sự liên tục chăm sóc, giảm thiểu sai sót y tế và cải thiện kết quả sau khi xuất viện. Các tài liệu này tóm tắt quá trình điều trị, các biện pháp điều trị và kế hoạch theo dõi, là yếu tố cần thiết cho giao tiếp hiệu quả giữa các nhóm điều trị nội trú, bác sĩ chăm sóc chính và các bác sĩ ngoại trú khác. Tuy nhiên, việc tạo ra các tóm tắt xuất viện góp phần đáng kể vào gánh nặng tài liệu lâm sàng đối với bác sĩ, thường dẫn đến hạn chế thời gian và burnout. Hơn nữa, sự biến đổi về chất lượng và độ hoàn thiện của các tóm tắt này có thể ảnh hưởng đến sự an toàn của bệnh nhân. Sự xuất hiện của các mô hình ngôn ngữ lớn (LLMs), có khả năng tạo ra văn bản giống con người dựa trên dữ liệu huấn luyện rộng rãi, mang lại cơ hội giảm bớt gánh nặng tài liệu bằng cách soạn thảo các câu chuyện xuất viện. Tuy nhiên, vẫn còn những lo ngại về độ chính xác, độ toàn diện và độ an toàn của tài liệu lâm sàng do AI tạo ra. Nghiên cứu này nhằm đánh giá một cách nghiêm ngặt xem các tóm tắt xuất viện do LLM tạo ra có thể đạt được chất lượng và độ an toàn tương đương với các tóm tắt do bác sĩ tạo ra hay không, có thể cung cấp giải pháp có thể mở rộng cho thách thức tài liệu gặp phải trong y học bệnh viện.
Thiết kế nghiên cứu
Đây là một nghiên cứu đánh giá ngang hàng, mù đôi, được thực hiện tại Đại học California, San Francisco, bao gồm các đợt nhập viện từ năm 2019 đến 2022. Đối tượng nghiên cứu bao gồm 100 lần nhập viện nội trú y học được chọn ngẫu nhiên kéo dài từ 3 đến 6 ngày. Đối với mỗi lần nhập viện, các câu chuyện được tạo ra bởi bác sĩ và độc lập sản xuất bởi một mô hình ngôn ngữ lớn được đào tạo để soạn thảo tóm tắt xuất viện. Một hội đồng 22 bác sĩ trưởng—mù về nguồn gốc—xem xét từng câu chuyện song song để đánh giá nhiều chiều về chất lượng và độ an toàn.
Các tiêu chí đánh giá bao gồm chất lượng tổng thể được đánh giá theo thang Likert từ 1 (kém) đến 5 (tuyệt vời), sự ưu tiên của người đánh giá, và đánh giá các thuộc tính của câu chuyện như độ toàn diện, ngắn gọn và mạch lạc. Quan trọng là, người đánh giá xác định ba loại lỗi tài liệu—sai lệch (lỗi thực tế), thiếu sót (thiếu thông tin quan trọng), và ảo tưởng (thông tin được tạo ra hoặc không liên quan do LLM). Mỗi lỗi và câu chuyện tổng thể được gán điểm mức độ gây hại tiềm ẩn từ 0 đến 7, được điều chỉnh từ Cơ quan Nghiên cứu và Chất lượng Chăm sóc Sức khỏe (AHRQ), để lượng hóa rủi ro lâm sàng do lỗi tài liệu gây ra.
Kết quả chính
Tổng thể, các tóm tắt xuất viện do LLM tạo ra được đánh giá tương đương với các tóm tắt do bác sĩ tạo ra về chất lượng tổng thể (điểm trung bình: 3.67 so với 3.77; P=0.21) và sự ưu tiên của người đánh giá (không có sự khác biệt đáng kể; χ2=5.2, P=0.27). Chúng vượt trội hơn bác sĩ về độ ngắn gọn (điểm trung bình 4.01 so với 3.70; P<0.001) và mạch lạc (điểm trung bình 4.16 so với 4.01; P=0.02), cho thấy các câu chuyện LLM rõ ràng và ngắn gọn hơn. Ngược lại, các câu chuyện LLM ít toàn diện hơn, điểm số thấp hơn so với tóm tắt của bác sĩ (3.72 so với 4.13; P<0.001), cho thấy các chi tiết lâm sàng quan trọng có thể không được ghi nhận đầy đủ.
Quan trọng, các tóm tắt do LLM tạo ra chứa nhiều lỗi độc đáo hơn mỗi tóm tắt (trung bình 2.91) so với các tóm tắt của bác sĩ (trung bình 1.82). Các lỗi bao gồm thiếu sót, sai lệch và ảo tưởng độc đáo đối với đầu ra AI. Tuy nhiên, khả năng gây hại tiềm ẩn của mỗi lỗi không có sự khác biệt đáng kể giữa các câu chuyện LLM và bác sĩ (1.35 so với 1.34; P=0.99). Cả hai loại tóm tắt đều hiển thị mức độ gây hại tổng thể thấp (điểm hại trung bình dưới 1, trên thang 0-7), mặc dù các tóm tắt LLM có điểm tổng hợp cao hơn (0.84 so với 0.36; P<0.001). Chỉ có một câu chuyện do LLM tạo ra được ghi nhận với khả năng gây hại vĩnh viễn (điểm ≥4), trong khi không có tóm tắt nào do bác sĩ tạo ra đạt mức này.
Dữ liệu này cho thấy rằng mặc dù LLM có thể tạo ra các tóm tắt xuất viện với chất lượng và độ rõ ràng tương đương, cần phải cảnh giác để phát hiện các lỗi hiếm gặp nhưng có thể nghiêm trọng thông qua xem xét của con người.
Bình luận chuyên gia
Các kết quả nhấn mạnh sự hứa hẹn của việc tích hợp các mô hình ngôn ngữ lớn vào quy trình làm việc lâm sàng để giảm bớt gánh nặng tài liệu mà không hy sinh chất lượng. Như đồng tác giả Dr. L Santhosh lưu ý: “Các tóm tắt do LLM tạo ra có thể giải phóng thời gian của bác sĩ, cho phép tập trung nhiều hơn vào chăm sóc bệnh nhân—miễn là giám sát của con người đảm bảo sự an toàn.” Sự bình đẳng được chứng minh trong sự ưu tiên của người đánh giá cho thấy các công cụ AI này tạo ra các câu chuyện lâm sàng có thể sử dụng được nhất quán với tiêu chuẩn của bác sĩ.
Tuy nhiên, nghiên cứu này cũng nêu bật các hạn chế quan trọng. Tần suất tăng của các lỗi độc đáo và độ toàn diện giảm có thể phản ánh giới hạn hiện tại của việc đào tạo LLM về các chi tiết y tế tinh vi. Sự tổng quát hóa ngoài môi trường trung tâm học thuật đơn lẻ và lĩnh vực y học nội trú sẽ yêu cầu kiểm chứng thêm. Ngoài ra, việc đánh giá độ an toàn dựa trên các thang điểm phán đoán chuyên gia thay vì đo lường trực tiếp kết quả bệnh nhân, đòi hỏi diễn giải thận trọng.
Những tiến bộ liên tục trong việc tinh chỉnh LLM với dữ liệu miền y tế và tích hợp vào hồ sơ sức khỏe điện tử có thể giải quyết các hạn chế hiện tại. Hơn nữa, việc kết hợp các bản nháp LLM với quy trình chỉnh sửa của bác sĩ là quan trọng để tối thiểu hóa lỗi và thu thập thông tin lâm sàng quan trọng, tận dụng hiệu quả của công nghệ đồng thời bảo vệ sự an toàn của bệnh nhân.
Kết luận
Nghiên cứu này từ Đại học California, San Francisco cho thấy các tóm tắt xuất viện do mô hình ngôn ngữ lớn tạo ra đạt được chất lượng và sự ưu tiên của người đánh giá tương đương với các câu chuyện do bác sĩ viết, với độ ngắn gọn và mạch lạc hơn. Mặc dù có nhiều lỗi hơn khi tạo ra bằng AI, mức độ gây hại tổng thể của chúng thấp, hỗ trợ việc sử dụng LLM như công cụ soạn thảo chịu sự xem xét của bác sĩ. Kết quả này chỉ ra con đường hành động hướng tới việc giảm gánh nặng tài liệu lâm sàng đáng kể trong khi duy trì chất lượng và độ an toàn của giao tiếp xuất viện. Nghiên cứu tiếp theo nên khám phá tác động triển vọng đối với kết quả bệnh nhân và các chiến lược triển khai trong các cơ sở y tế đa dạng.
Tài liệu tham khảo
Williams CYK, Subramanian CR, Ali SS, et al. Physician- and Large Language Model-Generated Hospital Discharge Summaries. JAMA Intern Med. 2025;185(7):818-825. doi:10.1001/jamainternmed.2025.0821
Arndt BG, Beasley JW, Watkinson MD, et al. Tethered to the EHR: Primary care physician workload assessment using EHR event log data and time-motion observations. Ann Intern Med. 2017;167(11):774-783. doi:10.7326/M17-0538
Bates DW, Nguyen L, Lehmann CU, et al. Reducing Documentation Burden to Improve Physician Satisfaction: The Evidence and Actionable Recommendations. NPJ Digit Med. 2021;4(1):1-9. doi:10.1038/s41746-021-00487-8
Lee M, Yoon S, Lee J, et al. Automated Clinical Summary Generation Using Artificial Intelligence: Technical and Ethical Challenges in Implementation. J Am Med Inform Assoc. 2023;30(3):370-378. doi:10.1093/jamia/ocac227