Tổng quan
Các thiết bị y tế có hỗ trợ AI đã phát triển nhanh chóng, đặc biệt trong lĩnh vực chẩn đoán hình ảnh và tim mạch, nhưng chỉ khoảng một nửa cung cấp dữ liệu hiệu suất lâm sàng tại thời điểm phê duyệt của FDA.
Dữ liệu cụ thể về giới tính hoặc tuổi tác được báo cáo trong ít hơn một phần ba các nghiên cứu lâm sàng, hạn chế hiểu biết về khả năng áp dụng thiết bị trên các quần thể đa dạng.
Thiết kế hồi cứu chiếm ưu thế trong việc xác minh thiết bị, trong khi các thử nghiệm tiền cứu và ngẫu nhiên vẫn rất hiếm, đặt ra câu hỏi về độ tin cậy của bằng chứng.
Sự thiếu hụt dữ liệu chi tiết về phát triển và hiệu suất làm nổi bật những khoảng trống đáng kể trong việc đánh giá khả năng tổng quát hóa lâm sàng của các thiết bị này.
Nền tảng nghiên cứu và gánh nặng bệnh tật
Trí tuệ nhân tạo (AI) ngày càng được tích hợp vào các thiết bị y tế với lời hứa hẹn cải thiện độ chính xác chẩn đoán, dự đoán và hướng dẫn điều trị. FDA đã công nhận và phê duyệt hàng trăm thiết bị y tế có hỗ trợ AI trong thập kỷ gần đây, phản ánh sự quan tâm lâm sàng rộng rãi và tiến bộ công nghệ. Các thiết bị này chủ yếu tập trung vào các lĩnh vực lâm sàng có ảnh hưởng lớn như chẩn đoán hình ảnh—đâu là việc diễn giải hình ảnh đóng vai trò quan trọng—và các tình trạng tim mạch và thần kinh, nơi quyết định kịp thời có thể ảnh hưởng đáng kể đến kết quả.
Mặc dù có sự phát triển này, khả năng tổng quát hóa lâm sàng rộng rãi—ý nghĩa là khả năng hoạt động an toàn và hiệu quả của các thiết bị trên một phạm vi rộng bệnh nhân và môi trường thực tế—vẫn chưa chắc chắn. Tổng quát hóa là cần thiết để đảm bảo cung cấp chăm sóc y tế công bằng và ngăn ngừa tác hại từ các mô hình AI bị thiên lệch hoặc không chính xác. Hơn nữa, do độ phức tạp của các thuật toán AI và quá trình phát triển, các nghiên cứu kiểm chứng lâm sàng nghiêm ngặt là quan trọng nhưng có thể thiếu, đặc biệt là về sự bao gồm nhân khẩu học và đánh giá tiền cứu.
Thiết kế nghiên cứu
Nghiên cứu cắt ngang này đã phân tích tất cả các thiết bị y tế có hỗ trợ AI được FDA phê duyệt và liệt kê công khai đến ngày 31 tháng 8 năm 2024. Dữ liệu được trích xuất bao gồm chuyên ngành thiết bị, loại (chỉ phần mềm so với cấy ghép) và sự hiện diện của dữ liệu đánh giá lâm sàng được báo cáo trong các bản tóm tắt của FDA.
Các điểm cuối chính được đánh giá bao gồm mức độ và thiết kế của các nghiên cứu hiệu suất lâm sàng hỗ trợ việc phê duyệt thiết bị, việc báo cáo các chỉ số hiệu suất phân biệt như độ nhạy, độ đặc hiệu và diện tích dưới đường cong (AUC), và việc bao gồm dữ liệu phân nhóm cụ thể về tuổi và giới tính quan trọng để đánh giá tổng quát hóa.
Kết quả chính
Tổng cộng 903 thiết bị y tế có hỗ trợ AI được bao gồm, chủ yếu trong chẩn đoán hình ảnh (76.6%), y học tim mạch (10.1%) và thần kinh học (3.2%). Hầu hết là thiết bị chỉ phần mềm (73.5%), với số lượng nhỏ là thiết bị cấy ghép (0.7%). Đáng chú ý, các mô tả chi tiết về quá trình phát triển thiết bị, bao gồm dữ liệu huấn luyện và thiết kế thuật toán, hầu như vắng mặt trong các bản tóm tắt công khai của FDA.
Các nghiên cứu hiệu suất lâm sàng đã được ghi nhận cho 505 thiết bị (55.9%), trong khi 218 thiết bị (24.1%) báo cáo rõ ràng không có nghiên cứu hiệu suất. Trong số các nghiên cứu này, thiết kế hồi cứu là phổ biến nhất (38.2%), với các nghiên cứu tiền cứu chiếm 8.1% và các thử nghiệm kiểm soát ngẫu nhiên chỉ 2.4%. Điều này gây ra lo ngại về độ tin cậy và độ tin cậy của cơ sở bằng chứng cho nhiều thiết bị.
Chỉ số hiệu suất phân biệt được báo cáo cho ít hơn một phần tư các thiết bị, với độ nhạy được ghi nhận cho 36.2%, độ đặc hiệu cho 34.9% và AUC chỉ 16.2%. Các chỉ số này cung cấp thông tin quan trọng về độ chính xác chẩn đoán nhưng vẫn được báo cáo ít trong các bản tóm tắt công khai.
Quan trọng không kém, độ chi tiết nhân khẩu học trong dữ liệu hiệu suất bị hạn chế. Chỉ 28.7% các nghiên cứu lâm sàng báo cáo kết quả cụ thể về giới tính, và 23.2% đề cập đến phân nhóm liên quan đến tuổi. Sự thiếu hụt này cản trở việc hiểu rõ hiệu suất của các thiết bị AI trên các nhóm bệnh nhân khác nhau, một yếu tố quan trọng đối với khả năng tổng quát hóa lâm sàng.
Bình luận chuyên gia
Các kết quả nhấn mạnh một khoảng cách đáng kể giữa sự phát triển nhanh chóng của các thiết bị y tế có hỗ trợ AI và chất lượng và minh bạch của bằng chứng lâm sàng hỗ trợ việc sử dụng chúng. Các nghiên cứu hồi cứu chiếm ưu thế, mặc dù thông tin, nhưng ít nghiêm ngặt hơn so với các thử nghiệm tiền cứu hoặc ngẫu nhiên cần thiết để xác nhận hiệu quả và an toàn. Thiếu hụt dữ liệu phân nhóm nhân khẩu học gây ra lo ngại về sự công bằng; không có dữ liệu này, các thiết bị có nguy cơ hoạt động kém hoặc chẩn đoán sai ở các nhóm không được đại diện.
Hơn nữa, sự vắng mặt của dữ liệu phương pháp luận chi tiết trong các bản tóm tắt công khai của FDA hạn chế khả năng của các bác sĩ để đánh giá thiết bị một cách khách quan trước khi áp dụng. TS. GCM Siontis, đồng tác giả, nhấn mạnh tầm quan trọng của “theo dõi liên tục và đánh giá lại định kỳ để xác định và giải quyết các thay đổi hiệu suất không mong đợi trong quá trình sử dụng lâm sàng rộng rãi”, khẳng định rằng việc phê duyệt quy định không phải là điểm kết thúc mà là điểm bắt đầu của đánh giá liên tục.
Những thách thức này phù hợp với các yêu cầu rộng rãi hơn về tiêu chuẩn đánh giá nghiêm ngặt hơn cho các thiết bị y tế có hỗ trợ AI, bao gồm việc áp dụng thiết kế thử nghiệm tiền cứu, khung báo cáo minh bạch và giám sát chủ động sau phê duyệt. Giải quyết những thiếu sót này là quan trọng để đảm bảo công nghệ AI nâng cao thay vì đe dọa chăm sóc bệnh nhân.
Kết luận
Phân tích toàn diện này cho thấy mặc dù các thiết bị y tế có hỗ trợ AI đang nhanh chóng được phê duyệt, những hạn chế đáng kể trong cơ sở bằng chứng lâm sàng và tiêu chuẩn báo cáo hạn chế khả năng tổng quát hóa lâm sàng của chúng. Hơn một nửa không có đánh giá tiền cứu hoặc ngẫu nhiên, và dữ liệu phân nhóm nhân khẩu học được báo cáo ít khi.
Diễn tiến tiếp theo, xác minh lâm sàng nghiêm ngặt thông qua các nghiên cứu tiền cứu và ngẫu nhiên, cùng với việc báo cáo minh bạch và bao gồm dữ liệu nhân khẩu học, là cần thiết. Các biện pháp này sẽ giúp bảo vệ việc sử dụng hiệu quả và công bằng của các thiết bị y tế có hỗ trợ AI trên các nhóm bệnh nhân đa dạng. Các bác sĩ và cơ quan quản lý phải nhấn mạnh giám sát sau thị trường liên tục để phát hiện và giảm thiểu bất kỳ suy giảm hiệu suất hoặc thiên lệch nào.
Nghiên cứu này nhấn mạnh nhu cầu cấp bách phải cân bằng giữa sáng tạo và bằng chứng nghiêm ngặt để tận dụng tối đa tiềm năng của AI trong y học lâm sàng đồng thời giảm thiểu rủi ro liên quan đến việc áp dụng công nghệ quá sớm hoặc không được xác minh đầy đủ.
Tham khảo
1. Windecker D, Baj G, Shiri I, Kazaj PM, Kaesmacher J, Gräni C, Siontis GCM. Generalizability of FDA-Approved AI-Enabled Medical Devices for Clinical Use. JAMA Netw Open. 2025 Apr 1;8(4):e258052. doi:10.1001/jamanetworkopen.2025.8052. PMID:40305017; PMCID:PMC12044510.
2. Topol EJ. High-performance medicine: the convergence of human and artificial intelligence. Nat Med. 2019 Jan;25(1):44-56. doi:10.1038/s41591-018-0300-7.
3. Amann J, Blasimme A, Vayena E, Frey D, Madai VI. Explainability for artificial intelligence in healthcare: a multidisciplinary perspective. BMC Med Inform Decis Mak. 2020 Oct 20;20(1):310. doi:10.1186/s12911-020-01332-6.
4. FDA. Artificial Intelligence and Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD) Action Plan. FDA.gov. 2021.
5. Gottesman O, Johansson F, Komorowski M, Faisal AA, Sontag D, Doshi-Velez F, Celi LA, Badawi O. Guidelines for Reinforcement Learning in Healthcare. Nat Med. 2019 Jan;25(1):16-18. doi:10.1038/s41591-018-0342-5.