Trí tuệ nhân tạo thích ứng biến đổi việc đánh giá sự kiện tim mạch: Thuật toán mới đạt độ chính xác gần bằng con người trên nhiều điểm cuối

Bối cảnh: Thách thức về việc đánh giá sự kiện tim mạch trong các thử nghiệm lâm sàng

Phân loại điểm cuối lâm sàng (CEC) đại diện cho tiêu chuẩn vàng trong việc đo lường điểm cuối tim mạch trong các thử nghiệm lâm sàng đương đại. Quy trình này đảm bảo rằng các sự kiện điểm cuối được phân loại nhất quán và có thể tái hiện, từ đó giảm thiểu thiên lệch và nâng cao tính hợp lệ của kết quả thử nghiệm. Tuy nhiên, cách tiếp cận CEC truyền thống mang lại gánh nặng thực tế đáng kể: nó yêu cầu thời gian, nguồn lực tài chính và chuyên môn đáng kể. Khi các thử nghiệm tim mạch ngày càng phức tạp, với nhiều điểm cuối và các định nghĩa tổng hợp tinh vi, nhu cầu về việc đánh giá điểm cuối hiệu quả nhưng chính xác trở nên cấp bách hơn bao giờ hết.

Sự xuất hiện của trí tuệ nhân tạo (AI) trong y tế đã mở ra những khả năng mới để tự động hóa các đánh giá lâm sàng phức tạp. Các mô hình ngôn ngữ lớn và kiến trúc dựa trên transformer đã thể hiện khả năng đáng kinh ngạc trong việc hiểu và xử lý văn bản y tế, đặt ra câu hỏi liệu các công nghệ này có thể được tận dụng để đánh giá điểm cuối hay không. Tuy nhiên, vẫn còn lo ngại về khả năng tổng quát hóa của các hệ thống AI trên các dân số thử nghiệm khác nhau, định nghĩa điểm cuối và phương pháp thu thập dữ liệu.

Một nghiên cứu đột phá được công bố trên tạp chí Circulation vào tháng 3 năm 2026 đã giải quyết trực tiếp những thách thức này. Nhóm nghiên cứu, do các nhà điều tra từ Đại học Duke và các tổ chức hợp tác, đã phát triển và xác nhận một thuật toán AI thích ứng đặc biệt được thiết kế để đánh giá sự kiện tim mạch, với mục tiêu tham vọng là tạo ra một hệ thống có khả năng thích ứng với các định nghĩa điểm cuối mới mà không cần phải đào tạo lại hoàn toàn.

Thiết kế nghiên cứu và phương pháp

Các nhà nghiên cứu đã sử dụng một cách tiếp cận đa giai đoạn để phát triển và xác nhận hệ thống AI thích ứng của họ, mà họ gọi là ADAPT-CEC. Thuật toán ban đầu được phát triển sử dụng dữ liệu từ thử nghiệm ODYSSEY OUTCOMES, một thử nghiệm kết quả tim mạch giai đoạn 3 lớn đã tuyển chọn bệnh nhân có hội chứng vành cấp tính gần đây. Đội ngũ phát triển tập trung vào ba điểm cuối tim mạch quan trọng: nhồi máu cơ tim (MI), đột quỵ và suy tim.

Để xác nhận bên ngoài, các nhà nghiên cứu đã chuyển sang thử nghiệm EUCLID, tuyển chọn bệnh nhân mắc bệnh tim mạch do xơ vữa động mạch ổn định. Việc xác nhận bên ngoài này đặc biệt quan trọng vì thử nghiệm EUCLID bao gồm các định nghĩa điểm cuối khác so với ODYSSEY OUTCOMES, cung cấp cơ hội để kiểm tra khả năng thích ứng của thuật toán. Điều quan trọng là, quá trình xác nhận EUCLID đã bao gồm một giai đoạn thích ứng, trong đó thuật toán nhận thông tin từ chỉ 20 sự kiện nghi ngờ EUCLID mỗi loại điểm cuối. Sự thích ứng ngắn gọn này được thiết kế để giúp hệ thống học các đặc điểm cụ thể của thử nghiệm mà không cần đào tạo lại rộng rãi.

Các điểm cuối chính được xem xét trong quá trình xác nhận EUCLID bao gồm nhồi máu cơ tim, đột quỵ, tử vong tim mạch và các sự kiện chảy máu—loại sau đại diện cho một loại điểm cuối hoàn toàn khác không nằm trong bộ dữ liệu gốc.

Để thiết lập các tiêu chuẩn hiệu suất, các nhà nghiên cứu đã so sánh ADAPT-CEC với hai phương pháp thay thế. Phương pháp đầu tiên là việc đánh giá trực tiếp sử dụng GPT 4.0, một mô hình ngôn ngữ lớn hàng đầu, mà không có bất kỳ điều chỉnh cụ thể cho thử nghiệm. Phương pháp thứ hai là một cách tiếp cận lai, trong đó ADAPT-CEC xử lý các sự kiện nghi ngờ có mức độ dự đoán chắc chắn cao, trong khi các sự kiện nằm trong 30% mức độ chắc chắn thấp nhất được chuyển cho các nhà đánh giá con người.

Hiệu suất được đánh giá chủ yếu bằng các điểm F1, cân bằng giữa độ chính xác và độ phủ, cung cấp một biện pháp toàn diện về độ chính xác phân loại. Các phân tích phụ xem xét tỷ lệ phần trăm các điểm cuối và không phải điểm cuối được phân loại đúng, cũng như tác động của các chiến lược đánh giá khác nhau đến các hiệu ứng điều trị ước tính.

Kết quả chính: So sánh hiệu suất giữa các chiến lược

Nghiên cứu đã đánh giá 13.885 sự kiện điểm cuối chính nghi ngờ của EUCLID, cung cấp một bộ dữ liệu mạnh mẽ để so sánh hiệu suất. Kết quả đã thể hiện sự khác biệt có ý nghĩa về độ chính xác phân loại giữa ba chiến lược đánh giá.

Đối với các sự kiện điểm cuối cụ thể, ADAPT-CEC đã phân loại đúng 86,4% các sự kiện, trong khi cách tiếp cận lai đạt được 95,6% độ chính xác và GPT 4.0 đơn lẻ phân loại 76,3% đúng. Đáng chú ý, cả ba phương pháp đều thể hiện hiệu suất xuất sắc trong việc xác định các sự kiện không phải điểm cuối, với tỷ lệ phân loại là 99,4% cho ADAPT-CEC, 99,6% cho lai và 99,8% cho GPT 4.0. Độ chính xác gần như hoàn hảo này cho thấy các hệ thống AI có thể đặc biệt có giá trị trong việc loại trừ hiệu quả các sự kiện điểm cuối, có thể giảm bớt việc xem xét không cần thiết của các trường hợp rõ ràng không phải điểm cuối.

Các chỉ số F1 chi tiết trên từng điểm cuối đã tiết lộ các mẫu hiệu suất tinh tế. Cách tiếp cận lai liên tục đạt được các điểm F1 cao nhất trên tất cả các loại điểm cuối: tử vong tim mạch đạt 0,94 (KTC 95% 0,92-0,96), nhồi máu cơ tim đạt 0,80 (KTC 95% 0,77-0,82), đột quỵ đạt 0,82 (KTC 95% 0,78-0,86) và các sự kiện chảy máu đạt 0,83 (KTC 95% 0,82-0,85).

ADAPT-CEC đã thể hiện các chỉ số F1 thấp hơn nhưng có liên quan lâm sàng đối với tử vong tim mạch, nhồi máu cơ tim và đột quỵ so với cách tiếp cận lai. Tuy nhiên, đáng chú ý, hiệu suất của ADAPT-CEC đối với các sự kiện chảy máu (F1 0,78, KTC 95% 0,77-0,79) vượt trội so với GPT 4.0 đơn lẻ, mặc dù GPT 4.0 không được điều chỉnh cho các định nghĩa cụ thể của thử nghiệm. Kết quả này cho thấy quá trình thích ứng trong ADAPT-CEC mang lại lợi ích có ý nghĩa cho các điểm cuối không nằm trong bộ dữ liệu gốc.

Có lẽ quan trọng nhất về mặt lâm sàng là các kết quả liên quan đến ước tính hiệu ứng điều trị. Điểm cuối chính của thử nghiệm EUCLID là sự kết hợp của tử vong tim mạch, nhồi máu cơ tim hoặc đột quỵ. Các ước tính tỷ lệ nguy cơ đã thể hiện sự nhất quán đáng kinh ngạc qua tất cả các chiến lược đánh giá: đánh giá của con người cho HR 1,02 (KTC 95% 0,93-1,13), đánh giá lai cho HR 1,04 (KTC 95% 0,94-1,15), ADAPT-CEC cho HR 0,98 (KTC 95% 0,88-1,09) và GPT 4.0 đơn lẻ ước tính HR 1,06 (KTC 95% 0,95-1,19). Các khoảng tin cậy chồng lên nhau qua tất cả các chiến lược cho thấy bất kỳ cách tiếp cận nào cũng sẽ dẫn đến cùng một kết luận lâm sàng về sự kém hiệu quả của liệu pháp nghiên cứu.

Tác động đối với phương pháp thử nghiệm lâm sàng

Việc xác nhận ADAPT-CEC đánh dấu một bước tiến quan trọng trong việc áp dụng trí tuệ nhân tạo vào các thử nghiệm lâm sàng tim mạch. Một số khía cạnh của các kết quả cần được xem xét kỹ lưỡng bởi các nhà thử nghiệm, quản lý và nghiên cứu phương pháp.

Đầu tiên, việc thích ứng thành công của thuật toán được phát triển từ một thử nghiệm duy nhất sang một thử nghiệm thứ hai có một số định nghĩa điểm cuối khác nhau giải quyết mối lo ngại cơ bản về khả năng tổng quát hóa của AI. Thực tế là 20 sự kiện nghi ngờ mỗi điểm cuối cung cấp thông tin đủ để thích ứng có ý nghĩa cho thấy các hệ thống AI có thể được triển khai trên nhiều thử nghiệm trong cùng một lĩnh vực điều trị, giảm bớt nguồn lực cần thiết cho việc phát triển và xác nhận thuật toán.

Thứ hai, việc chứng minh rằng AI có thể xử lý các loại điểm cuối mới—trong trường hợp này là các sự kiện chảy máu—mở ra khả năng thiết kế thử nghiệm linh hoạt hơn. Nếu các hệ thống AI có thể được thích ứng nhanh chóng để bao gồm các điểm cuối mới quan tâm, các nhà tài trợ có thể thêm các đánh giá điểm cuối vào các thử nghiệm đang diễn ra hoặc triển khai các điểm cuối thăm dò với ít chi phí hơn so với quy trình CEC truyền thống yêu cầu.

Thứ ba, mô hình đánh giá lai nổi bật như người chiến thắng rõ ràng về hiệu suất thô, đạt được các điểm F1 tiếp cận hoặc vượt quá 0,90 cho hầu hết các điểm cuối. Cách tiếp cận này cung cấp một giải pháp thực tế giữa tự động hóa hoàn toàn và CEC truyền thống: AI xử lý phần lớn các trường hợp đơn giản, trong khi chuyên môn của con người được dành cho các xác định khó khăn và quan trọng nhất. Sự tham gia có chọn lọc của con người này có thể giảm đáng kể chi phí và thời gian của CEC trong khi duy trì chất lượng.

Thứ tư, sự nhất quán về ước tính hiệu ứng điều trị qua các chiến lược đánh giá cung cấp bằng chứng đáng tin cậy rằng đánh giá hỗ trợ AI không làm thiên lệch hệ thống đánh giá kết quả. Kết quả này giải quyết một mối quan tâm quản lý quan trọng: liệu các hệ thống AI có thể giới thiệu phân loại sai biệt hay không, gây mờ hiệu ứng điều trị thật hoặc tạo ra các tín hiệu giả.

Bình luận chuyên gia và hướng phát triển tương lai

Mặc dù các kết quả này hứa hẹn, vẫn có một số hạn chế quan trọng và khoảng cách tri thức cần được công nhận. Nghiên cứu được thực hiện theo cách hồi cứu sử dụng dữ liệu thử nghiệm lâm sàng đã được đánh giá, có nghĩa là việc triển khai AI đánh giá chưa được chứng minh trong một môi trường thử nghiệm trực tiếp. Ứng dụng thực tế trực tiếp có thể tiết lộ các thách thức thực tế không rõ ràng trong phân tích hồi cứu, bao gồm các vấn đề liên quan đến chất lượng dữ liệu, tích hợp quy trình làm việc và xử lý các trường hợp ngoại lệ.

Dân số bệnh nhân và định nghĩa điểm cuối của thử nghiệm EUCLID đại diện cho các ngữ cảnh lâm sàng cụ thể; khả năng tổng quát hóa sang các thử nghiệm có đặc điểm khác biệt đáng kể—như các thử nghiệm suy tim cấp, các nghiên cứu thiết bị hoặc các thử nghiệm ở dân số nhi khoa—chưa được xác định. Mỗi lĩnh vực điều trị mới và loại điểm cuối sẽ cần được xác nhận cẩn thận trước khi triển khai tự tin.

Hiệu suất của hệ thống AI trong việc đánh giá nhồi máu cơ tim, mặc dù chấp nhận được về mặt lâm sàng, đã tụt hậu so với hiệu suất trên các điểm cuối khác. Việc phân loại nhồi máu cơ tim đòi hỏi đánh giá tinh tế về động học sinh học, thay đổi điện tâm đồ và triệu chứng lâm sàng, và điểm F1 0,80 cho thấy còn chỗ để cải thiện. Các phiên bản thuật toán trong tương lai có thể tích hợp thêm các loại dữ liệu hoặc sử dụng các phương pháp mô hình hóa tinh vi hơn để tăng cường độ chính xác phân loại nhồi máu cơ tim.

Việc chấp nhận quản lý của đánh giá hỗ trợ AI sẽ yêu cầu phát triển khung tư duy cẩn thận. Hướng dẫn quản lý hiện tại về đánh giá điểm cuối được phát triển với quy trình chỉ có con người. Các tiêu chuẩn rõ ràng về yêu cầu xác nhận, quy trình đảm bảo chất lượng và mong đợi tài liệu sẽ cần thiết trước khi đánh giá hỗ trợ AI có thể trở thành thường xuyên trong các thử nghiệm quyết định hỗ trợ việc nộp hồ sơ quản lý.

Kết luận: Một cuộc cách mạng trong việc đánh giá điểm cuối thử nghiệm lâm sàng

Việc xác nhận ADAPT-CEC đánh dấu một cột mốc quan trọng trong sự phát triển của các ứng dụng AI trong y học tim mạch. Thuật toán AI thích ứng này đã thể hiện khả năng đánh giá nhiều điểm cuối tim mạch trên các dân số thử nghiệm và định nghĩa khác nhau, đạt được mức độ chính xác gần bằng con người khi kết hợp với việc xem xét có chọn lọc của con người. Đặc biệt, tất cả các chiến lược đánh giá—con người, hỗ trợ AI và chỉ AI—đều cho ra ước tính hiệu ứng điều trị nhất quán, cho thấy việc kết hợp AI không cần phải hy sinh tính nguyên vẹn của các đánh giá kết quả tim mạch.

Mô hình lai, với AI xử lý các trường hợp có độ chắc chắn cao và con người xem xét 30% thấp nhất các sự kiện nghi ngờ, nổi bật như cách tiếp cận tối ưu, đạt được 95,6% phân loại chính xác các sự kiện điểm cuối. Chiến lược này có thể giảm đáng kể chi phí và thời gian của CEC trong khi duy trì các tiêu chuẩn chất lượng được mong đợi cho đánh giá điểm cuối cấp quản lý.

Nhìn về phía trước, các nghiên cứu triển vọng sẽ cần thiết để xác nhận các kết quả hồi cứu này và thiết lập các khung thực hiện thực tế. Khi khả năng AI tiếp tục phát triển và các đường dẫn quản lý trở nên rõ ràng hơn, đánh giá hỗ trợ AI có thể trở thành một công cụ tiêu chuẩn trong kho vũ khí của các nhà thử nghiệm tim mạch—cho phép các thử nghiệm hiệu quả hơn, đánh giá điểm cuối toàn diện hơn và cuối cùng, giao đáp án nhanh hơn để hướng dẫn thực hành lâm sàng.

Cuộc hành trình từ CEC truyền thống đến đánh giá hỗ trợ AI không chỉ mang lại những lợi ích hiệu suất tăng dần; nó phản ánh một sự chuyển đổi rộng lớn trong cách chúng ta tiếp cận việc đo lường các kết quả lâm sàng. Nghiên cứu ADAPT-CEC cho thấy rằng sự chuyển đổi này có thể tiếp tục trong khi vẫn duy trì sự nghiêm ngặt mà bệnh nhân, bác sĩ và quản lý chính đáng yêu cầu.

Kinh phí và các thử nghiệm lâm sàng

Nghiên cứu này được thực hiện sử dụng dữ liệu từ thử nghiệm ODYSSEY OUTCOMES (NCT01663402) và thử nghiệm EUCLID (NCT01732822). Thông tin tài trợ đầy đủ có sẵn trong bản công bố gốc trên tạp chí Circulation.

Tài liệu tham khảo

1. Vemulapalli S, Pena Guerra K, Wojdyla D, Jones WS, Mahaffey KW, Harrington RA, Steg PG, Schwartz GG, Patel MR, Lopes RD, Henao R. Trí tuệ nhân tạo thích ứng cho việc đánh giá sự kiện tim mạch: Đánh giá sự kiện tim mạch trên các định nghĩa khác nhau trong các thử nghiệm ODYSSEY OUTCOMES và EUCLID. Circulation. 2026 Mar 30. PMID: 41911340.