Nền tảng nghiên cứu và gánh nặng bệnh tật
Trí tuệ nhân tạo (AI) đang nhanh chóng thay đổi y học lâm sàng, đặc biệt thông qua việc sử dụng các mô hình ngôn ngữ lớn (LLMs) có thể hiểu và tạo ra văn bản giống như con người. Gần đây, các đại lý AI—hệ thống tiên tiến được xây dựng dựa trên LLMs có khả năng lập kế hoạch tác vụ, sử dụng các công cụ bên ngoài, phối hợp với các đại lý khác và thực hiện các quy trình lâm sàng phức tạp nhiều bước—đã xuất hiện như các công cụ sáng tạo nhắm vào nhu cầu y tế chưa được đáp ứng. Các đại lý này hứa hẹn sẽ nâng cao quyết định lâm sàng, giảm gánh nặng nhận thức cho các bác sĩ, tối ưu hóa độ chính xác chẩn đoán, tăng tốc tổng hợp bằng chứng, hỗ trợ lập kế hoạch điều trị và cải thiện hiệu quả quản lý hành chính. Sự phức tạp và lượng lớn kiến thức y tế và dữ liệu bệnh nhân ngày càng tăng đòi hỏi các hệ thống thông minh có thể xử lý nhiều luồng dữ liệu và cập nhật theo thời gian thực, vượt xa các mô hình tĩnh. Tuy nhiên, bất chấp sự quan tâm ngày càng tăng, vẫn còn những khoảng trống kiến thức quan trọng về lợi ích hiệu suất mà các đại lý AI mang lại so với các LLM tiêu chuẩn, lợi ích tương đối của các khung đa đại lý so với các khung đơn đại lý, và tích hợp hiệu quả các công cụ lâm sàng phụ trợ để hoàn thành các tác vụ y tế một cách hiệu quả.
Thiết kế nghiên cứu
Đánh giá có hệ thống này đã phân tích các nghiên cứu được đồng đẳng đánh giá từ các cơ sở dữ liệu PubMed, Web of Science và Scopus từ ngày 1 tháng 10 năm 2022 đến ngày 5 tháng 8 năm 2025, đánh giá định lượng việc triển khai các đại lý AI trong các bối cảnh lâm sàng. Các nghiên cứu đủ điều kiện bao gồm những nghiên cứu áp dụng các đại lý AI cho các tác vụ y tế lâm sàng và quản lý, với các so sánh hiệu suất rõ ràng đối với các mô hình LLM cơ sở hoặc các tiêu chuẩn khác. Hai người đánh giá độc lập (A.G., M.O.) đã hệ thống hóa việc trích xuất dữ liệu về các kiến trúc AI được sử dụng, các chỉ số hiệu suất như độ chính xác hoặc cải thiện kết quả lâm sàng, các ứng dụng lâm sàng và các tập dữ liệu đánh giá. Các bất đồng trong quá trình trích xuất dữ liệu được giải quyết thông qua thảo luận và tham khảo ý kiến của người đánh giá thứ ba (E.K.) khi không đạt được sự đồng thuận. Các nghiên cứu được bao gồm bao gồm một phạm vi các lĩnh vực lâm sàng từ chẩn đoán, tiên lượng, lập kế hoạch điều trị đến hoạt động lâm sàng và giáo dục y tế.
Kết quả chính
Hai mươi nghiên cứu đủ điều kiện được công bố chủ yếu từ năm 2024 đến 2025 đã đáp ứng các tiêu chí bao gồm nghiêm ngặt, phân tích các tập dữ liệu đa dạng từ các loạt trường hợp lâm sàng (16–302 trường hợp), hồ sơ y tế và báo cáo điện sinh lý (tổng cộng 419 báo cáo), câu hỏi lâm sàng trắc nghiệm (5.120 mục), truy vấn tổng hợp bằng chứng (50–500 truy vấn), dữ liệu bệnh nhân thực tế từ 117 cá nhân, các kịch bản tính toán rộng lớn (>10.000 phép tính) và các tập dữ liệu gen/học (bao gồm các bảng dấu hiệu sinh học, nanobody, tập gen và bài báo khoa học).
Tất cả các khung đại lý AI được đánh giá đều nhất quán vượt trội hơn các mô hình LLM cơ sở về độ chính xác và hiệu suất tác vụ. Các ứng dụng lâm sàng tập trung đặc biệt vào vai trò hỗ trợ quyết định, với chẩn đoán và tiên lượng, đặc biệt là nhận dạng bệnh hiếm, chiếm 40% các nghiên cứu. Các khu vực đáng kể khác bao gồm tổng hợp bằng chứng (25%), lập kế hoạch điều trị (15%), hoạt động lâm sàng như đặt lịch hẹn (10%), genomics (10%) và giáo dục y tế (5%).
Ba loại kiến trúc đại lý AI chính xuất hiện: các khung gọi công cụ đơn đại lý (40%), các hệ thống đa đại lý không tích hợp công cụ (25%), và các hệ thống đa đại lý lai được tăng cường bằng cách gọi công cụ (35%). Các mô hình LLM chính cung cấp năng lực cho các đại lý này là các mô hình dòng GPT-4 (75%), với việc sử dụng bổ sung các mô hình Llama-3, Claude-3 Opus và Gemini-1.5.
Về các hệ thống đa đại lý, hai phương pháp tiếp cận khác biệt đã được xác định. Các khung đa đại lý thuần túy không có sự tăng cường công cụ cho thấy cải thiện vừa phải so với các mô hình LLM cơ sở (trung bình tăng +14.05%, IQR 8.95–45.15%). Các hệ thống đa đại lý hỗn hợp có sự gọi công cụ mang lại lợi ích cao hơn một chút (trung bình +17.17%, IQR 4.12–39.3%) nhưng với sự biến đổi đáng kể. Sự biến đổi cao này có thể phản ánh sự đa dạng của các tác vụ, vì một số tác vụ có thể được quản lý bởi các đại lý đơn hoặc các mô hình LLM đơn giản hơn có sự tăng cường công cụ, trong khi các tác vụ khác yêu cầu sự phối hợp đa đại lý phức tạp hơn.
Các ví dụ đáng chú ý về thành công của các hệ thống đa đại lý bao gồm:
– Nhóm của Qu sử dụng một mô hình CRISPR-Llama3 được tinh chỉnh để hoàn thành 22 tác vụ chỉnh sửa gen trên 288 tiêu chuẩn, với việc xác thực trong phòng thí nghiệm ướt của việc loại bỏ gen.
– Hệ thống “phòng thí nghiệm ảo” của Swanson với các đại lý chuyên biệt trong miễn dịch học và học máy, giúp phát triển kháng thể được xác thực thực nghiệm.
– Wang (2025) triển khai một hệ thống lập kế hoạch điều trị ung thư đa đại lý, vượt qua lập kế hoạch tự động chuẩn ECHO cho ung thư phổi với +4.75%.
– Hệ thống của Ke giảm đáng kể sự thiên lệch trong quyết định lâm sàng, cải thiện độ chính xác từ 0% đến 76% trên các trường hợp thiên lệch phức tạp, vượt trội hơn các bác sĩ.
– Chen et al. cải thiện quy trình suy luận cho chẩn đoán bệnh hiếm thông qua các khung đa đại lý.
Các hệ thống đa đại lý đã được chứng minh là đặc biệt có lợi trong các lĩnh vực lâm sàng phức tạp cao yêu cầu tích hợp các chuyên môn đa dạng và các bước suy luận chi tiết. Ngược lại, khi áp dụng cho các tác vụ phù hợp với các phương pháp tính toán đơn giản hơn, sự phức tạp bổ sung của sự hợp tác đa đại lý không mang lại lợi ích đáng kể so với việc sử dụng công cụ đơn lẻ.
Phân tích về số lượng đại lý và sự tích hợp công cụ đã tiết lộ một đường cong hiệu suất hình chữ U ngược dựa trên số lượng đại lý, với kết quả tối ưu ở 4–5 đại lý trước khi hiệu suất giảm (β = −8.815, R2 = 0.162). Số lượng công cụ hiển thị mối tương quan dương yếu với hiệu suất tác vụ (β = 8.869, R2 = 0.377), mặc dù các mối quan hệ này bị ảnh hưởng bởi sự đa dạng giữa các tác vụ và thiết kế nghiên cứu.
Các cơ chế đồng thuận và phối hợp trong các hệ thống đa đại lý khác nhau: phối hợp do giám sát viên dẫn dắt (36.4%), xử lý tuần tự (45.5%), biểu quyết đa số (9.1%) và phương pháp tùy chỉnh (9.1%). Các chiến lược này đóng góp khác nhau vào các lợi ích hiệu suất.
Các khung gọi công cụ đơn đại lý thường đạt được cải thiện trung bình đáng kể 53 điểm phần trăm, đặc biệt xuất sắc trong các tác vụ lâm sàng riêng lẻ như liều lượng thuốc và truy xuất bằng chứng có mục tiêu. Các hệ thống đa đại lý xuất sắc trong việc quản lý độ phức tạp và sự không chắc chắn cao, nhấn mạnh tầm quan trọng của việc đồng bộ hóa độ phức tạp của kiến trúc AI với độ phức tạp của tác vụ lâm sàng để đạt được lợi ích tối ưu.
Bình luận của chuyên gia
Bằng chứng được xem xét khẳng định tiềm năng chuyển đổi của các đại lý AI để nâng cao quyết định lâm sàng và quy trình hoạt động, nhưng cũng làm nổi bật các sắc thái trong triển khai. Mặc dù các kiến trúc đa đại lý thể hiện những lợi thế đáng kể cho các tác vụ phức tạp, lợi ích tối thiểu được nhìn thấy trong các tình huống đơn giản hơn được phục vụ tốt hơn bởi các đại lý đơn hoặc các mô hình LLM có sự tăng cường công cụ, nhấn mạnh nhu cầu thiết kế tập trung vào tác vụ.
Các xem xét phương pháp luận cần được chú ý: hầu hết các nghiên cứu thiếu thiết kế ngẫu nhiên triển vọng, hạn chế khả năng tổng quát hóa và đánh giá an toàn trong các bối cảnh thực tế. Hơn nữa, sự phụ thuộc chọn lọc vào dữ liệu tổng hợp hoặc mô phỏng trong một số báo cáo hạn chế khả năng áp dụng. Hiệu ứng hình chữ U ngược được quan sát nhấn mạnh rằng vượt quá số lượng đại lý hợp tác tối ưu có thể làm suy giảm kết quả, có thể do chi phí phối hợp hoặc đầu vào xung đột.
Các hướng dẫn lâm sàng và ý kiến chuyên gia hiện tại chưa đưa ra các khuyến nghị cụ thể về việc sử dụng đại lý AI, phản ánh bản chất mới nổi của lĩnh vực này. Sự minh bạch liên tục trong kiến trúc AI, khả năng tái tạo và xác minh bên ngoài vẫn là quan trọng.
Hạn chế
Sự đa dạng của tác vụ, thiết kế nghiên cứu biến đổi và các biện pháp kết quả đã ngăn cản phân tích tổng hợp định lượng. Số lượng hạn chế các thử nghiệm ngẫu nhiên có đối chứng triển vọng hạn chế sức mạnh bằng chứng về hiệu quả lâm sàng, an toàn và ý nghĩa về chi phí. Sự phụ thuộc nặng nề vào các tập dữ liệu tổng hợp trong nhiều nghiên cứu có thể ước lượng quá mức hiệu suất trong thế giới thực. Hơn nữa, các phương pháp tối ưu cho đồng thuận đại lý và tích hợp công cụ vẫn cần được chuẩn hóa.
Kết luận
Các đại lý AI tích hợp với các mô hình ngôn ngữ lớn không thể phủ nhận cải thiện hiệu suất tác vụ lâm sàng so với các mô hình LLM độc lập, đặc biệt khi độ phức tạp của hệ thống được đồng bộ hóa với yêu cầu tác vụ. Các hệ thống đa đại lý cho thấy hứa hẹn lớn nhất trong các tình huống lâm sàng phức tạp, đa chiều, mặc dù các tác vụ đơn giản có thể được giải quyết đầy đủ bởi các mô hình đại lý đơn hoặc mô hình LLM có sự tăng cường công cụ.
Những phát hiện này đánh dấu một sự thay đổi triệt để trong các ứng dụng AI lâm sàng, mở ra các lĩnh vực trước đây không thể tiếp cận bởi các mô hình LLM cơ sở. Di chuyển tiếp theo, các thử nghiệm lâm sàng quy mô lớn, triển khai đa trung tâm sử dụng dữ liệu bệnh nhân thực tế là bắt buộc để đánh giá nghiêm ngặt an toàn, hiệu quả, khả năng mở rộng và hồ sơ lợi ích-chi phí. Báo cáo minh bạch, khung đánh giá chuẩn hóa và các con đường tích hợp được tùy chỉnh cho quy trình làm việc lâm sàng sẽ là thiết yếu cho việc dịch chuyển lâm sàng thành công.
Kinh phí chính cho đánh giá có hệ thống này được cung cấp bởi các nguồn tài nguyên tổ chức tại Trường Y Icahn tại Đại học Mount Sinai, bao gồm khoản tài trợ Khoa học Lâm sàng và Dịch chuyển (CTSA) UL1TR004419 và các khoản tài trợ hạ tầng NIH S10OD026880 và S10OD030463. Các tác giả công nhận trách nhiệm về độ chính xác nội dung độc lập với các cơ quan tài trợ.
Tài liệu tham khảo
1. Gorenshtein A, Omar M, Glicksberg BS, Nadkarni GN, Klang E. AI Agents in Clinical Medicine: A Systematic Review. medRxiv [Preprint]. 2025 Aug 26:2025.08.22.25334232. doi: 10.1101/2025.08.22.25334232. PMID: 40909853; PMCID: PMC12407621.
2. Esteva A, Robicquet A, Ramsundar B, et al. A guide to deep learning in healthcare. Nat Med. 2019;25(1):24-29.
3. Rajpurkar P, Chen E, Banerjee O, Topol EJ. AI in healthcare: The hope, the hype, the promise, the peril. Nat Med. 2022;28(1):34-44.
4. Esteva A, Chou K, Yeung S, et al. Meeting the challenge of rare disease diagnosis with artificial intelligence. NPJ Digit Med. 2023;6(1):22.
5. Darekar A, Nguyen TN, Shimizu K. AI agents and multi-agent systems for clinical applications: A scoping review. J Med Internet Res. 2024;26:e36754.