Sự hợp tác giữa con người và AI cải thiện suy luận lâm sàng trong nhãn khoa nhưng có nguy cơ tự tin thái quá và thiên vị tự động hóa

Một mặt trận mới của suy luận lâm sàng: Cầu nối với sự hợp tác giữa con người và AI

Suy luận lâm sàng là nền tảng của y học, nhưng nó vẫn là một trong những nhiệm vụ phức tạp nhất mà các bác sĩ phải nắm vững, đặc biệt là trong các lĩnh vực chuyên sâu như nhãn khoa. Khi các mô hình ngôn ngữ lớn (LLMs) tiếp tục phát triển, khái niệm về Sự Hợp Tác Giữa Con Người và AI (HAC) đã chuyển từ lý thuyết sang thực tế thử nghiệm. Một nghiên cứu gần đây của Ong et al., được công bố trên Tạp chí Quốc tế về Thông tin Y tế, cung cấp một đánh giá quan trọng về cách AI đối thoại, cụ thể là Claude-3.5-Sonnet, hỗ trợ các chuyên gia y tế trong việc giải quyết các trường hợp thực tế khó khăn.

Trong khi các nghiên cứu trước đây tập trung vào hiệu suất độc lập của các mô hình AI, nghiên cứu này chuyển hướng sang sự tương tác giữa máy móc và bác sĩ. Kết quả cung cấp một góc nhìn tinh tế: AI có thể là một đồng minh chẩn đoán mạnh mẽ, nhưng việc tích hợp nó vào quy trình làm việc lâm sàng gặp nhiều khó khăn tâm lý và phương pháp luận cần được giải quyết để đảm bảo an toàn cho bệnh nhân và độ chính xác chẩn đoán.

Tổng quan

Sự hợp tác HAC đã cải thiện đáng kể độ chính xác chẩn đoán trung bình từ 0.45 lên 0.60 trong nhóm các sinh viên, bác sĩ nội trú và bác sĩ nhãn khoa đã được chứng nhận.
Độ chính xác của AI làm việc độc lập (0.70) vượt qua độ chính xác của nỗ lực hợp tác giữa con người và AI (0.60), nổi bật một ‘khoảng cách hợp tác.’
Sự hợp tác đã tăng đáng kể sự tự tin của bác sĩ và giảm gánh nặng nhận thức, thậm chí trong các trường hợp cuối cùng chẩn đoán sai.
Thành công của sự hợp tác phụ thuộc rất nhiều vào độ khó cơ bản của trường hợp, chỉ có những lợi ích đáng kể khi độ chính xác của con người vượt qua một ngưỡng nhất định.

Nền tảng: Thách thức của suy luận chẩn đoán chuyên sâu

Các lỗi chẩn đoán vẫn là một mối quan tâm đáng kể trong chăm sóc sức khỏe, thường xuất phát từ các thiên vị nhận thức, quá tải thông tin hoặc độ phức tạp của các biểu hiện lâm sàng hiếm gặp. Trong nhãn khoa, nơi chẩn đoán thường dựa trên các dấu hiệu thị giác tinh vi và kiến thức hệ thống tích hợp, mức độ rủi ro cao. Các mô hình ngôn ngữ lớn (LLMs) đã thể hiện khả năng đáng kinh ngạc trong việc vượt qua các kỳ thi chứng chỉ và cung cấp các chẩn đoán phân biệt, nhưng vai trò của chúng như một ‘phi công phụ’ trong suy luận thời gian thực còn ít được hiểu rõ. Câu hỏi trung tâm của nghiên cứu Ong et al. là liệu một giao diện đối thoại có thực sự tăng cường trí tuệ của con người hay chỉ đơn giản là giới thiệu các dạng thiên vị mới, như thiên vị tự động hóa—xu hướng quá phụ thuộc vào các hệ thống tự động hóa.

Thiết kế nghiên cứu: Một thí nghiệm chéo nghiêm ngặt

Các nhà nghiên cứu sử dụng thiết kế thí nghiệm chéo để tối thiểu hóa sự biến đổi cá nhân. Đối tượng nghiên cứu bao gồm 30 người tham gia được chia thành ba nhóm: 10 bác sĩ nhãn khoa đã được chứng nhận, 10 bác sĩ nội trú nhãn khoa và 10 sinh viên y khoa năm cuối. Sự phân tầng này cho phép đánh giá cách kinh nghiệm lâm sàng ảnh hưởng đến hiệu quả của sự hợp tác AI.

Nhiệm vụ bao gồm giải quyết 30 trường hợp khó khăn được lấy từ JAMA Ophthalmology, nổi tiếng với độ phức tạp chẩn đoán. Mỗi người tham gia hoàn thành các trường hợp trong hai điều kiện khác nhau:

1. Làm việc độc lập (Chỉ có con người): Người tham gia đưa ra chẩn đoán bằng kiến thức hiện tại và tài liệu trường hợp được cung cấp.
2. Hợp tác (HAC): Người tham gia tham gia cuộc trò chuyện văn bản tự do với Claude-3.5-Sonnet để đưa ra chẩn đoán.

Điểm cuối chính là độ chính xác chẩn đoán. Các điểm cuối phụ bao gồm sự tự tin tự đánh giá (được đo trên thang Likert) và gánh nặng nhận thức (được đánh giá thông qua Chỉ số Gánh Nặng Công Việc NASA). Ngoài ra, các nhà nghiên cứu đã tiến hành phân tích sâu vào các nhật ký tương tác, phân loại các hành vi của LLM thành sáu mẫu chấp nhận hoặc tranh luận với người dùng.

Kết quả chính: Những lợi ích đáng kể với một khoảng cách tồn tại

Bất thường về hiệu suất: HAC so với AI-Only

Kết quả đáng chú ý nhất là sự cải thiện tổng thể về độ chính xác. Độ chính xác trung bình tăng từ 0.45 trong điều kiện chỉ có con người lên 0.60 trong điều kiện HAC (P < 0.001). Tuy nhiên, sự cải thiện này không đạt được mức độ hiệu suất của AI làm việc độc lập, đạt 0.70. Điều này cho thấy con người thường 'lọc ra' hoặc bỏ qua những gợi ý chính xác do AI cung cấp, hoặc ngược lại, AI không thuyết phục được con người khi con người đã quyết định theo một con đường sai lầm.

Thú vị hơn, lợi ích của AI không đồng đều. Trong khi 80% người tham gia thấy cải thiện hoặc ổn định hiệu suất, 20% thực sự làm việc kém hơn khi hợp tác với AI. Sự giảm hiệu suất này thường xảy ra khi AI cung cấp thông tin hợp lý nhưng sai lệch mà bác sĩ sau đó chấp nhận, một ví dụ điển hình của thiên vị tự động hóa.

Sự tự tin và gánh nặng nhận thức: Sự thay đổi tâm lý

Một trong những kết quả đáng lo ngại từ góc độ an toàn là tác động đến tâm lý của bác sĩ. HAC đã tăng đáng kể sự tự tin tự đánh giá và giảm gánh nặng nhận thức (P < 0.001 cho cả hai). Mặc dù việc giảm căng thẳng và tăng sự tự tin thường là tích cực, những hiệu ứng này được quan sát ngay cả trong các phiên 'HAC thất bại'. Nói cách khác, AI khiến các bác sĩ cảm thấy chắc chắn hơn và ít căng thẳng hơn về quyết định của họ, ngay cả khi những quyết định đó là sai. Điều này có thể tạo ra một 'cảm giác an toàn giả tạo' dẫn đến việc giảm sự hoài nghi cần thiết cho quyết định y tế ở mức độ cao.

Khi HAC thất bại: Phân tích hành vi

Các nhà nghiên cứu phân loại các mẫu tương tác để hiểu tại sao một số hợp tác thành công trong khi những hợp tác khác thất bại. Trong các phiên HAC thành công, mẫu phổ biến nhất (92.6%) là LLM đưa ra một gợi ý chính xác mà con người sau đó chấp nhận. Ngược lại, 58.6% các phiên thất bại liên quan đến LLM đưa ra một gợi ý sai mà con người chấp nhận mà không đủ thách thức. Điều này nhấn mạnh một điểm yếu quan trọng: các bác sĩ có thể thiếu ‘trình độ AI’ hoặc độ sâu kiến thức cụ thể cần thiết để xác minh các gợi ý của AI khi trường hợp nằm ngoài phạm vi chuyên môn của họ.

Bình luận của chuyên gia: Điều hướng ‘thung lũng kỳ lạ’ của AI lâm sàng

Việc sử dụng các kiểm định t cặp trượt của nghiên cứu tiết lộ một ‘ngưỡng độ khó’ quan trọng. HAC hiệu quả nhất khi tỷ lệ phản hồi đúng của con người chỉ là 47%. Khi các trường hợp quá khó và độ chính xác của con người giảm xuống dưới 30%, sự hợp tác AI không cung cấp một sự cải thiện đáng kể. Điều này cho thấy rằng đối với các trường hợp ‘không thể chẩn đoán’, các mô hình AI hiện tại có thể chưa cung cấp bước đột phá cần thiết, hoặc giao diện con người-AI chưa được tối ưu hóa cho sự không chắc chắn cực độ.

Từ góc độ lâm sàng, các kết quả này cho thấy AI nên được xem như một ‘đối tác suy luận’ thay vì một ‘tiên tri’. Thực tế là AI làm việc độc lập vượt trội hơn đội ngũ con người-AI là một lời kêu gọi hành động cho thiết kế giao diện tốt hơn. Hệ thống tương lai không chỉ phải cung cấp câu trả lời chính xác mà còn phải cung cấp bằng chứng cơ bản theo cách cho phép bác sĩ đánh giá logic một cách phê phán. Mục tiêu là ‘trí tuệ được tăng cường’, nơi quyết định cuối cùng vượt trội hơn những gì con người hoặc AI có thể đạt được một mình.

Hạn chế của nghiên cứu bao gồm tập trung vào một chuyên ngành y tế duy nhất và việc sử dụng một mô hình LLM cụ thể (Claude-3.5-Sonnet). Các mô hình khác hoặc các lĩnh vực lâm sàng khác có thể mang lại kết quả khác nhau. Ngoài ra, bối cảnh thử nghiệm có thể không hoàn toàn bắt chước áp lực thời gian và sự phân tâm môi trường của một phòng khám thực tế.

Kết luận: Ý nghĩa cho tương lai của thực hành y tế

Nghiên cứu của Ong et al. chứng minh rằng Sự Hợp Tác Giữa Con Người và AI là một công cụ mạnh mẽ để cải thiện độ chính xác chẩn đoán trong các trường hợp nhãn khoa phức tạp. Tuy nhiên, nó cũng là một câu chuyện cảnh báo về tác động tâm lý của AI. Việc giảm gánh nặng nhận thức và tăng sự tự tin phải được cân nhắc với việc kiểm tra lâm sàng nghiêm ngặt.

Đối với các giáo viên y học, các kết quả này cho thấy cần phải đưa kỹ năng tương tác với AI vào chương trình giảng dạy. Các bác sĩ phải được dạy cách tranh luận với AI, cách phát hiện các ảo tưởng và cách duy trì sự hoài nghi lành mạnh. Đối với các chuyên gia chính sách y tế, ‘khoảng cách hợp tác’—đội ngũ hoạt động kém hơn AI riêng lẻ—cho thấy chúng ta vẫn đang ở giai đoạn đầu của việc tối ưu hóa giao diện con người-máy. Khi chúng ta tiến tới một tương lai mà AI phổ biến trong phòng khám, trọng tâm phải là đảm bảo rằng các công cụ này giúp sắc bén hóa, thay vì làm mờ, tư duy lâm sàng.

Tham khảo

1. Ong KT, Seo J, Kim H, Kim J, Kim J, Kim S, Yeo J, Choi EY. Success and failure of human-AI collaboration in clinical reasoning: An experimental study on challenging real-world cases. Int J Med Inform. 2026 Feb 10;211:106342. doi: 10.1016/j.ijmedinf.2026.106342.
2. JAMA Ophthalmology. Case Records of the Massachusetts Eye and Ear Infirmary. (Nguồn tài liệu cho các trường hợp nghiên cứu).
3. Parasuraman R, Manzey DH. Complacency and Bias in Human Use of Automation: An Attentional Integration. Human Factors. 2010;52(3):381-410.