Độ chính xác cao và khả năng hoạt động xuyên đối tượng dân số: Các mô hình AI-ECG để phát hiện RCTCT đi qua kiểm chứng độc lập
Những điểm nổi bật
- Kiểm chứng độc lập của bốn mô hình AI-ECG quốc tế đã thể hiện hiệu suất mạnh mẽ trong việc phát hiện rối loạn chức năng co tâm thất trái (RCTCT), với AUROCs dao động từ 0.83 đến 0.93.
- Các mô hình vẫn hiệu quả ngay cả trong các nhóm phụ có độ phức tạp thấp hơn (AUROC 0.87–0.96), gợi ý tính hữu ích trong các dân số sàng lọc tổng quát.
- Dù có hiệu suất cao, hầu hết các mô hình AI-ECG đã công bố đều mang rủi ro cao về sai lệch do báo cáo kém và thiếu kiểm chứng bên ngoài.
- Sự hạn chế về tính sẵn có của mô hình vẫn là một cổng nghẽn đáng kể cho việc kiểm chứng độc lập và chuyển đổi lâm sàng của các công cụ y tế kỹ thuật số.
Bắt buộc lâm sàng để cải thiện sàng lọc RCTCT
Rối loạn chức năng co tâm thất trái (RCTCT) là tiền đề chính dẫn đến suy tim có triệu chứng, tình trạng liên quan đến tỷ lệ mắc bệnh, tử vong và chi phí y tế đáng kể. Việc phát hiện sớm RCTCT—thông thường được định nghĩa là phân suất tống máu tâm thất trái (LVEF) ≤40% hoặc ≤50%—là rất quan trọng vì các can thiệp dược lý dựa trên bằng chứng, như chất ức chế SGLT2 và chất ức chế ACE, có thể cải thiện đáng kể kết quả. Tuy nhiên, các phương pháp sàng lọc hiện tại, bao gồm khám lâm sàng và xét nghiệm NT-proBNP, thường thiếu độ nhạy hoặc độ đặc hiệu cần thiết cho việc sàng lọc dân số hiệu quả về mặt chi phí. Mặc dù siêu âm tim là tiêu chuẩn vàng, việc sử dụng nó để sàng lọc đại trà bị hạn chế bởi chi phí và yêu cầu về nhân viên chuyên môn.
Điện tâm đồ được tăng cường bởi Trí tuệ nhân tạo (AI-ECG) đã xuất hiện như một giải pháp có tiềm năng cách mạng. Bằng cách áp dụng học sâu cho dữ liệu ECG 12 đạo trình tiêu chuẩn, các mô hình này có thể nhận dạng các mẫu tinh vi của bệnh tim cấu trúc mà mắt người không thể nhìn thấy. Mặc dù đã có nhiều mô hình được công bố, chúng thường được phát triển và kiểm chứng trong cùng một hệ thống chăm sóc sức khỏe, đặt ra câu hỏi về khả năng tổng quát hóa của chúng trên các dân số bệnh nhân khác nhau và môi trường lâm sàng.
Thiết kế nghiên cứu: Một cách tiếp cận nghiêm ngặt để kiểm chứng bên ngoài
Trong một nghiên cứu mang tính đột phá được công bố trên JACC Advances, Croon et al. đã tìm cách giải quyết những khoảng trống này bằng cách tiến hành một đánh giá hệ thống và lần đầu tiên kiểm chứng độc lập đối đầu các mô hình AI-ECG cho RCTCT. Các nhà nghiên cứu đã xác định 51 mô hình từ 35 nghiên cứu nhưng gặp phải những rào cản đáng kể về minh bạch: chỉ có bốn nhóm (từ Hàn Quốc, Hoa Kỳ, Đài Loan và Hà Lan) đồng ý chia sẻ mô hình của họ để kiểm tra độc lập.
Kiểm chứng bên ngoài được thực hiện sử dụng một danh sách đăng ký được phân loại tốt của 1,203 bệnh nhân liên tục đang trải qua chụp cộng hưởng từ tim (MRI) lâm sàng thông thường tại một trung tâm đơn lẻ. MRI đóng vai trò là tiêu chuẩn vàng để đánh giá LVEF. Độ tuổi trung bình của nhóm nghiên cứu là 59 tuổi, với 35% là nữ giới. Các nhà nghiên cứu đã đánh giá hiệu suất mô hình trong hai nhóm: nhóm liên tục toàn bộ và một nhóm phụ có độ phức tạp thấp hơn được thiết kế để mô phỏng một dân số sàng lọc với tỷ lệ RCTCT 15%. Rủi ro sai lệch được đánh giá bằng Công cụ Đánh giá Rủi ro Sai lệch Mô hình Dự đoán (PROBAST).
Những phát hiện chính: Chỉ số hiệu suất và sự nhất quán giữa các mô hình
Kết quả của cuộc so sánh đối đầu là đáng chú ý về mức độ nhất quán. Trong nhóm bệnh nhân toàn bộ, diện tích dưới đường cong đặc trưng hoạt động nhận dạng (AUROC) của bốn mô hình dao động từ 0.83 đến 0.93. Khi áp dụng cho nhóm phụ có độ phức tạp thấp hơn—những nhóm đại diện hơn cho môi trường chăm sóc ban đầu hoặc sàng lọc—hiệu suất được cải thiện, với AUROCs dao động từ 0.87 đến 0.96.
Một sự nhất quán qua các nhóm phụ
Một trong những phát hiện đáng chú ý nhất là khả năng hoạt động mạnh mẽ của các mô hình qua các đặc điểm bệnh nhân khác nhau. Hiệu suất vẫn cao qua các nhóm tuổi và giới. Tuy nhiên, nghiên cứu đã xác định một số tình huống lâm sàng cụ thể mà hiệu suất giảm nhẹ. Các mô hình kém chính xác hơn ở bệnh nhân có phức hợp QRS rộng (≥120 ms) hoặc những người bị rung nhĩ. Điều này là hợp lý về mặt sinh học, vì các rối loạn dẫn truyền lớn có thể che giấu những thay đổi tái phân cực tinh vi mà các mô hình AI thường sử dụng để phát hiện RCTCT.
Sự nhất quán giữa các mô hình
Thú vị thay, mặc dù được đào tạo trên các dân số địa lý và dân tộc đa dạng—từ Đông Á đến Bắc Mỹ và châu Âu—có sự nhất quán đáng kể giữa các mô hình. Điều này gợi ý rằng các đặc điểm được học bởi các mạng nơ-ron này có thể đại diện cho những thay đổi bệnh lý cơ bản của tim thay vì các hiện tượng cụ thể của dân số.
Đối mặt với thách thức của sai lệch và tái tạo
Mặc dù dữ liệu hiệu suất là hứa hẹn, phần đánh giá hệ thống của nghiên cứu đã nhấn mạnh những mối lo ngại đáng kể về tình trạng nghiên cứu AI trong tim mạch. Các nhà nghiên cứu đã phát hiện ra rằng đa số các mô hình đã công bố có rủi ro cao về sai lệch. Các vấn đề phổ biến bao gồm:
- Mô tả không đầy đủ về các nhóm phát triển và tiêu chí loại trừ.
- Thiếu rõ ràng về cách các mô hình được hiệu chỉnh.
- Không thực hiện kiểm chứng bên ngoài độc lập trong các ấn phẩm gốc.
Hơn nữa, tỷ lệ chia sẻ mô hình thấp (chỉ 4 trong 35 nghiên cứu) làm nổi bật một rào cản lớn đối với sự tiến bộ. Để AI-ECG trở thành công cụ lâm sàng tiêu chuẩn, cộng đồng y tế phải hướng tới một văn hóa khoa học mở, nơi các mô hình được chia sẻ cho việc kiểm toán và kiểm chứng độc lập qua các môi trường lâm sàng đa dạng.
Bình luận của chuyên gia: Từ bàn thí nghiệm đến giường bệnh
Các phát hiện của Croon et al. cung cấp một cơ sở bằng chứng mạnh mẽ cho tính hữu ích lâm sàng của AI-ECG. AUROCs cao trong nhóm phụ có độ phức tạp thấp là đặc biệt hứa hẹn cho sàng lọc suy tim trong chăm sóc ban đầu. Nếu được tích hợp vào máy ECG tiêu chuẩn, các thuật toán này có thể cung cấp một đánh giá rủi ro ngay lập tức và tiết kiệm chi phí, xác định những bệnh nhân cần được đánh giá thêm bằng siêu âm tim.
Tuy nhiên, việc triển khai lâm sàng đòi hỏi nhiều hơn chỉ là AUROCs cao. Chúng ta phải xem xét tính chất “hộp đen” của các mô hình này. Các bác sĩ thường ngần ngại dựa vào một thuật toán nếu họ không thể hiểu được lý do sinh lý học cơ bản. Nghiên cứu trong tương lai nên tập trung vào các kỹ thuật AI giải thích (XAI) để làm nổi bật các phần của sóng ECG đang thúc đẩy dự đoán. Ngoài ra, các thử nghiệm ngẫu nhiên triển vọng là cần thiết để xác định xem việc sàng lọc bằng AI-ECG có thực sự cải thiện kết quả lâm sàng, như giảm nhập viện hoặc tử vong, so với các thực hành tiêu chuẩn hiện tại hay không.
Kết luận: Một lời kêu gọi khoa học mở trong y tế kỹ thuật số
Nghiên cứu kiểm chứng độc lập đầu tiên này xác nhận rằng AI-ECG là một công cụ mạnh mẽ để phát hiện RCTCT, cho thấy độ chính xác cao ngay cả khi các mô hình được đào tạo trên các dân số khác nhau. Sự nhất quán của kết quả qua bốn mô hình được chia sẻ cho thấy công nghệ đang trưởng thành và sẵn sàng cho các thử nghiệm lâm sàng nghiêm ngặt hơn.
Tuy nhiên, nghiên cứu cũng là một lời nhắc nhở quan trọng về nhu cầu minh bạch. Rủi ro sai lệch cao trong tài liệu rộng rãi và khó khăn trong việc thu được mô hình để kiểm chứng là những rào cản đáng kể. Để AI thực sự cách mạng hóa tim mạch, các nhà nghiên cứu phải ưu tiên khả năng tái tạo và truy cập mở. Chỉ thông qua kiểm chứng độc lập, chúng ta mới có thể xây dựng lòng tin cần thiết để tích hợp các công cụ kỹ thuật số này vào thực hành lâm sàng hàng ngày và cuối cùng cải thiện việc chăm sóc cho những bệnh nhân có nguy cơ mắc suy tim.
Tài liệu tham khảo
Croon PM, Boonstra MJ, Allaart CP, et al. Artificial Intelligence-Enhanced Electrocardiogram Models for Detection of Left Ventricular Dysfunction: A Comparison Study. JACC Adv. 2026;5(2):102572. doi:10.1016/j.jacadv.2025.102572.
Heidenreich PA, Bozkurt B, Aguilar D, et al. 2022 AHA/ACC/HFSA Guideline for the Management of Heart Failure: A Report of the American College of Cardiology/American Heart Association Joint Committee on Clinical Practice Guidelines. J Am Coll Cardiol. 2022;79(17):e263-e421.
Attia ZI, Kapa S, Lopez-Jimenez F, et al. Screening for cardiac contractile dysfunction using an artificial intelligence-enabled electrocardiogram. Nat Med. 2019;25(1):70-74.

