Nổi bật
• Trong một đánh giá ngang hàng về các câu hỏi chuẩn bị cho kỳ thi Phần 2 của Hiệp hội Hoàng gia về Nhãn khoa (FRCOphth), bảy mô hình nền tảng (FMs) đã thể hiện hiệu suất cao đối với các câu hỏi trắc nghiệm chỉ dựa trên văn bản; mô hình FM hiệu suất cao nhất (Claude 3.5 Sonnet) đạt độ chính xác 77,7%, tương đương với các bác sĩ nhãn khoa chuyên nghiệp.
• Hiệu suất đa phương thức (câu hỏi bao gồm hình ảnh hoặc đầu vào không phải văn bản khác) vẫn thấp đáng kể: mô hình FM đa phương thức hàng đầu (GPT-4o) đạt 57,5%, kém hơn so với các bác sĩ lâm sàng và thực tập sinh.
• Kết quả cho thấy tính hữu ích ngay lập tức của FMs trong việc trả lời các câu hỏi văn bản về nhãn khoa và giáo dục, nhưng cũng làm nổi bật những hạn chế hiện tại về lý luận đa phương thức và nhu cầu phải đào tạo đa phương thức cụ thể theo lĩnh vực, hiệu chỉnh và kiểm định triển khai.
Nền tảng
Nhãn khoa là một chuyên ngành có tính trực quan cao; quyết định chẩn đoán thường dựa vào ảnh đáy mắt, tomography quang học (OCT), ảnh kính khe hở và dữ liệu lâm sàng được lập bảng. Khi các mô hình nền tảng (FMs) phát triển để xử lý cả ngôn ngữ và đầu vào thị giác, tiềm năng hỗ trợ giáo dục, phân loại và quy trình lâm sàng trong nhãn khoa trở nên hấp dẫn. Hầu hết các đánh giá trước đây về các mô hình ngôn ngữ lớn (LLMs) trong y học tập trung vào các nhiệm vụ chỉ dựa trên văn bản (câu chuyện lâm sàng, câu hỏi kiểu kỳ thi), báo cáo sự cải thiện nhanh chóng qua các phiên bản của các dòng mô hình. Tuy nhiên, các đánh giá nghiêm ngặt, so sánh trực tiếp giữa các FMs hiện đại bao gồm đầu vào đa phương thức (hình ảnh, biểu đồ, bảng) vẫn còn hạn chế, đặc biệt là trong các kỳ thi chuyên ngành kiểm tra cả kiến thức và kỹ năng diễn giải hình ảnh.
Thiết kế nghiên cứu
Nghiên cứu ngang hàng này (Rocha et al., JAMA Ophthalmol, 2025) đã đánh giá bảy mô hình nền tảng: GPT-4o (OpenAI), Gemini 1.5 Pro (Google), Claude 3.5 Sonnet (Anthropic), Llama-3.2-11B (Meta), DeepSeek V3 (High-Flyer), Qwen2.5-Max (Alibaba Cloud) và Qwen2.5-VL-72B (Alibaba Cloud). Các mô hình được yêu cầu trả lời các câu hỏi trắc nghiệm nhiều lựa chọn ngoại tuyến được rút từ sách giáo trình phổ biến để chuẩn bị cho kỳ thi Phần 2 viết của Hiệp hội Hoàng gia về Nhãn khoa (FRCOphth). Các câu hỏi bao gồm các câu hỏi chỉ dựa trên văn bản và các câu hỏi đa phương thức kết hợp hình ảnh hoặc dữ liệu thị giác khác.
Các nhóm đối chứng bao gồm các bác sĩ trẻ, thực tập sinh nhãn khoa và các bác sĩ nhãn khoa chuyên nghiệp. Kết quả chính là độ chính xác, được định nghĩa là tỷ lệ các câu trả lời do mô hình tạo ra trùng khớp với đáp án được ghi trong sách giáo trình. So sánh thống kê giữa các mô hình và các nhóm con người được báo cáo bằng sự khác biệt, khoảng tin cậy 95% và giá trị P khi phù hợp.
Kết quả chính
Hiệu suất câu hỏi văn bản
Đối với các câu hỏi trắc nghiệm chỉ dựa trên văn bản, Claude 3.5 Sonnet đạt độ chính xác cao nhất là 77,7%. Thứ hạng và độ chính xác được báo cáo như sau: Claude 3.5 Sonnet (77,7%), GPT-4o (69,9%), Qwen2.5-Max (69,3%), DeepSeek V3 (63,2%), Gemini Advanced (62,6%), Qwen2.5-VL-72B (58,3%) và Llama-3.2-11B (50,7%).
So với các nhóm bác sĩ, Claude 3.5 Sonnet vượt trội hơn so với thực tập sinh nhãn khoa (sự khác biệt 9,0%; khoảng tin cậy 95%, 2,4%–15,6%; P = .01) và các bác sĩ trẻ (sự khác biệt 35,2%; khoảng tin cậy 95%, 28,3%–41,9%; P < .001). Hiệu suất của nó tương đương với các bác sĩ nhãn khoa chuyên nghiệp (sự khác biệt 1,3%; khoảng tin cậy 95%, −5,1% đến 7,4%; P = .72).
GPT-4o (69,9%) đáng chú ý vượt trội hơn so với các mô hình OpenAI cũ hơn được đưa vào tham chiếu: GPT-4 (sự khác biệt 8,5%; khoảng tin cậy 95%, 1,1%–15,8%; P = .02) và GPT-3.5 (sự khác biệt 21,8%; khoảng tin cậy 95%, 14,3%–29,2%; P < .001), khẳng định sự cải thiện liên tục qua các phiên bản FM tiếp theo trong các nhiệm vụ văn bản.
Hiệu suất câu hỏi đa phương thức
Các câu hỏi đa phương thức — yêu cầu diễn giải hình ảnh hoặc lý luận kết hợp thị giác-văn bản — tiết lộ sự giảm đáng kể về hiệu suất của FM. GPT-4o dẫn đầu các mô hình được đánh giá với độ chính xác 57,5%. Các kết quả đa phương thức khác bao gồm Claude 3.5 Sonnet (47,5%), Qwen2.5-VL-72B (45,0%), Gemini Advanced (35,0%) và Llama-3.2-11B (25,0%).
Trong các so sánh với các bác sĩ, GPT-4o vượt trội hơn so với nhóm các bác sĩ trẻ (sự khác biệt 15,0%; khoảng tin cậy 95%, −6,7% đến 36,7%; P = .18) nhưng yếu hơn so với các bác sĩ nhãn khoa chuyên nghiệp (độ chính xác từ 70,0%–85,0%; P = .16) và thực tập sinh nhãn khoa (độ chính xác từ 62,5%–80%; P = .35). Mặc dù các ước lượng điểm cho thấy tín hiệu cải thiện so với các bác sĩ ít kinh nghiệm, nhưng khoảng cách đa phương thức so với các chuyên gia vẫn có ý nghĩa lâm sàng.
Giải thích kết quả
Các kết quả này cho thấy các FMs tiên tiến nhất hiện nay đã sánh ngang với các bác sĩ có kinh nghiệm trong các câu hỏi kiểu kỳ thi chỉ dựa trên văn bản về nhãn khoa, nhưng lợi ích này chưa chuyển hóa đầy đủ sang các nhiệm vụ đa phương thức gần với việc diễn giải nhãn khoa thực tế. Hiệu suất vượt trội trên các câu hỏi văn bản cho thấy tiềm năng sử dụng trong giáo dục (chuẩn bị kỳ thi, giải thích câu trả lời đúng), hỗ trợ quyết định đối với các truy vấn văn bản đơn giản, và như một công cụ bổ trợ truy xuất kiến thức. Ngược lại, các yếu điểm đa phương thức cảnh báo về việc triển khai lâm sàng nơi diễn giải hình ảnh đóng vai trò trung tâm (ví dụ, phân loại bệnh võng mạc, diễn giải OCT) mà không có giám sát đáng kể của con người hoặc huấn luyện lại mô hình chuyên biệt.
Bình luận chuyên gia và đánh giá phê phán
Lợi thế của nghiên cứu bao gồm so sánh trực tiếp giữa nhiều mô hình nền tảng hiện đại, bao gồm các câu hỏi đa phương thức, và đánh giá chuẩn đối với các mức độ kinh nghiệm khác nhau của các bác sĩ. Việc sử dụng sách giáo trình chuẩn bị kỳ thi tạo ra một khóa câu trả lời chuẩn hóa, giúp tăng tính tái tạo.
Các hạn chế chính và các yếu tố gây nhiễu tiềm ẩn nên làm giảm sự hiểu lầm. Đầu tiên, dữ liệu được lấy từ nguồn chuẩn bị kỳ thi duy nhất; phong cách câu hỏi, phân phối độ khó và khả năng trùng lặp với các tập dữ liệu được sử dụng trong quá trình tiền huấn luyện của FM có thể ảnh hưởng đến hiệu suất của mô hình. Thứ hai, việc thử nghiệm ngoại tuyến của các mô hình trên các mục sách giáo trình không tái tạo được sự biến đổi của việc thu thập hình ảnh thực tế (ánh sáng, độ phân giải, hiện tượng nhiễu) và bối cảnh lâm sàng điển hình, nơi lịch sử bệnh nhân, hình ảnh trước đó và tương tác thời gian thực quan trọng. Thứ ba, độ chính xác đơn thuần là một thước đo giới hạn; hiệu chỉnh (tín nhiệm so với độ chính xác), chất lượng giải thích và xu hướng tưởng tượng là thiết yếu cho sự tin cậy lâm sàng nhưng không được báo cáo chi tiết trong dữ liệu tổng hợp được cung cấp.
Từ góc độ phương pháp, điều kiện hoạt động (kỹ thuật thiết kế lệnh, tiền xử lý hình ảnh, ngữ cảnh cho phép của mô hình, và liệu có sử dụng kích thích suy nghĩ chuỗi hay không) có thể ảnh hưởng đáng kể đến các đầu ra của FM. Thiếu minh bạch về các chi tiết hoạt động này có thể hạn chế tính tái tạo và tính tổng quát.
Nhận xét lâm sàng và dịch chuyển
Đối với các bác sĩ và nhà giáo dục, các nhận xét thực tế là:
• Giáo dục: Các FMs có khả năng văn bản mạnh có thể được sử dụng như các công cụ học tập tương tác, tạo ra các giải thích cho các câu trả lời đúng, và hỗ trợ đánh giá định hình. Chúng có nguy cơ truyền bá lỗi khi áp dụng cho các câu hỏi mơ hồ hoặc phụ thuộc vào hình ảnh mà không có xác minh đúng đắn.
• Hỗ trợ quyết định: Hỗ trợ quyết định lâm sàng dựa trên văn bản (ví dụ, tóm tắt hướng dẫn, diễn giải các bảng xét nghiệm, soạn thảo thư giới thiệu) dường như khả thi. Đối với các nhiệm vụ mà diễn giải hình ảnh là thiết yếu, các FMs hiện tại nên được sử dụng thận trọng và tích hợp với giám sát của bác sĩ.
• Nghiên cứu và phát triển: Khoảng cách hiệu suất trên các câu hỏi đa phương thức hỗ trợ đầu tư có mục tiêu vào các tập dữ liệu ngôn ngữ-hình ảnh nhãn khoa và điều chỉnh tinh tế của FMs cho dữ liệu hình ảnh cụ thể theo lĩnh vực (đáy mắt, OCT, kính khe hở) và dữ liệu lâm sàng có cấu trúc. Cần có kiểm định lâm sàng triển vọng, đánh giá các điểm cuối an toàn, và quy trình làm việc có sự can thiệp của con người trước khi triển khai lâm sàng.
Hướng phát triển trong tương lai
Các lĩnh vực ưu tiên để cải thiện hiệu suất đa phương thức của FM trong nhãn khoa bao gồm:
• Tập dữ liệu đa phương thức được tuyển chọn: cần có các hiện tượng nhiễu hình ảnh thực tế, sự biến đổi của các thiết bị đa dạng, và phổ biến rộng rãi của các bệnh để điều chỉnh tinh tế và kiểm định bên ngoài.
• Kiến trúc hybrid: kết hợp các mô hình thị giác chuyên biệt (được huấn luyện trên hình ảnh nhãn khoa) với các mô hình ngôn ngữ lớn thông qua kỹ thuật tích hợp và mô-đun có sự hỗ trợ của truy xuất có thể giữ lại các đặc điểm tốt nhất của mỗi phương thức.
• Giải thích và hiệu chỉnh: hệ thống phải cung cấp các lý do có thể giải thích được liên quan đến các đặc điểm hình ảnh cụ thể và báo cáo các điểm số tín nhiệm đã hiệu chỉnh để hỗ trợ quyết định của bác sĩ.
• Thử nghiệm lâm sàng triển vọng và thử nghiệm thực tế: các đường dẫn đánh giá nên đo lường độ chính xác chẩn đoán, kết quả bệnh nhân, hiệu quả quy trình làm việc, và các tác hại không mong muốn (sự yên tâm sai lệch, quá nhiều giới thiệu, thiên vị).
Kết luận
Rocha et al. cho thấy các mô hình nền tảng hiện đại đạt mức độ hiệu suất gần bằng với chuyên gia trên các câu hỏi trắc nghiệm chỉ dựa trên văn bản về nhãn khoa, mang lại giá trị ngay lập tức cho giáo dục và một số nhiệm vụ lâm sàng dựa trên văn bản. Tuy nhiên, lý luận đa phương thức — khả năng tích hợp hình ảnh và văn bản như các bác sĩ nhãn khoa — vẫn là một hạn chế rõ ràng. Sự hứa hẹn lâm sàng của FMs trong nhãn khoa sẽ yêu cầu tuyển chọn dữ liệu đa phương thức có mục tiêu, điều chỉnh tinh tế cụ thể theo lĩnh vực, đánh giá minh bạch các chế độ thất bại, và kiểm định triển khai nghiêm ngặt với sự giám sát của con người trước khi áp dụng rộng rãi lâm sàng.
Kinh phí và clinicaltrials.gov
Kinh phí: Không được chỉ định trong tóm tắt bài báo được cung cấp. Người dùng nên tham khảo bản công bố gốc của JAMA Ophthalmology để biết kinh phí và tiết lộ đã được tuyên bố.
Tài liệu tham khảo
1. Rocha H, Chong YJ, Thirunavukarasu AJ, et al. Performance of Foundation Models vs Physicians in Textual and Multimodal Ophthalmological Questions. JAMA Ophthalmol. 2025 Nov 13:e254255. doi: 10.1001/jamaophthalmol.2025.4255. Epub ahead of print. PMID: 41231508; PMCID: PMC12616532.
2. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med. 2019 Jan;25(1):44-56. doi:10.1038/s41591-018-0300-7.
Người đọc quan tâm đến việc triển khai nên tham khảo bài báo JAMA Ophthalmology đầy đủ để biết các chi tiết phương pháp, cũng như hướng dẫn quản lý hiện hành về AI trong thiết bị y tế và hỗ trợ quyết định lâm sàng tại điểm chăm sóc.

