Mô hình PRIME dựa trên EHR đạt AUC 0,75 trong việc dự đoán nguy cơ ung thư tuỵ trên 11 triệu bệnh nhân

Mô hình PRIME dựa trên EHR đạt AUC 0,75 trong việc dự đoán nguy cơ ung thư tuỵ trên 11 triệu bệnh nhân

Bối cảnh

Ung thư ống tụy (PDAC) là một trong những khối u nguy hiểm nhất tại Hoa Kỳ, luôn nằm trong số các nguyên nhân hàng đầu gây tử vong do ung thư. Tiên lượng đáng lo ngại liên quan đến PDAC—tỷ lệ sống sót 5 năm vẫn dưới 12%—chủ yếu do bản chất hung hãn của bệnh và thách thức trong việc phát hiện sớm. Phần lớn bệnh nhân mắc bệnh ở giai đoạn tiến triển, khi phẫu thuật cắt bỏ triệt để không còn khả thi. Mặc dù việc phát hiện sớm đã được chứng minh là cải thiện đáng kể kết quả sống sót, sự hiếm gặp tương đối của PDAC trong dân số nói chung đã khiến các chương trình sàng lọc toàn dân trở nên không thực tế và tốn kém. Sự mâu thuẫn này giữa tính chất chết người của bệnh và tỷ lệ mắc bệnh thấp đã tạo ra nhu cầu chưa được đáp ứng đáng kể trong lĩnh vực ung thư học: xác định cá nhân có nguy cơ cao sẽ được hưởng lợi nhiều nhất từ ​​các biện pháp giám sát tập trung hoặc chiến lược phát hiện sớm.

Trong bối cảnh này, việc phát triển các công cụ dự đoán rủi ro được kiểm chứng và có thể áp dụng rộng rãi, tận dụng dữ liệu lâm sàng sẵn có, cung cấp một hướng đi hấp dẫn. Hệ thống hồ sơ sức khỏe điện tử (EHR) chứa một lượng lớn thông tin có cấu trúc và không có cấu trúc—đặc điểm nhân khẩu học, mã chẩn đoán, giá trị xét nghiệm, lịch sử dùng thuốc—có thể được tận dụng để xây dựng các mô hình có khả năng nhận diện cá nhân có nguy cơ PDAC cao hơn mức trung bình. Nếu được tích hợp vào quy trình làm việc lâm sàng, các công cụ như vậy có thể hướng dẫn các nỗ lực tìm kiếm trường hợp có mục tiêu, tối ưu hóa việc phân bổ nguồn lực, và cuối cùng chuyển đổi mô hình chẩn đoán sang việc xác định bệnh ở giai đoạn sớm hơn.

Thiết kế nghiên cứu

Đội ngũ nghiên cứu đã tiến hành một nghiên cứu quần thể quy mô lớn sử dụng kho dữ liệu Optum Labs Data Warehouse, một cơ sở dữ liệu EHR và yêu cầu thanh toán Hoa Kỳ dài hạn, được xác định danh tính, bao gồm người lớn từ 40 tuổi trở lên có ít nhất một cuộc gặp gỡ lâm sàng ngoại trú từ năm 2016 đến 2018. Thiết kế nghiên cứu bao gồm ba nhóm khác nhau để đánh giá khả năng áp dụng rộng rãi của mô hình: một nhóm huấn luyện từ 23 hệ thống y tế (n = 4.859.833) và một nhóm kiểm chứng từ 31 hệ thống y tế khác (n = 5.619.091). Đối với kiểm chứng quốc tế, mô hình được thử nghiệm thêm tại UK Biobank (n = 498.754).

Các biến dự đoán bao gồm đặc điểm nhân khẩu học, mã chẩn đoán theo Hệ thống Phân loại Bệnh tật Quốc tế (Phiên bản thứ 9 và 10; ICD-9/10) và các giá trị xét nghiệm thường xuyên. Phương pháp xây dựng mô hình sử dụng điều chỉnh elastic-net với xác thực chéo 10 lần để chọn tập hợp các đặc trưng tinh gọn nhưng có khả năng dự đoán cao nhất. Kết quả PDAC mới được xác định thông qua mã chẩn đoán ICD-9/10. Hiệu suất mô hình được đánh giá bằng diện tích dưới đường cong đặc trưng hoạt động nhận dạng (AUC) phụ thuộc thời gian và các chỉ số hiệu chỉnh. Phân tích dữ liệu được thực hiện từ tháng 7 năm 2025 đến tháng 1 năm 2026.

Kết quả chính

Dân số nghiên cứu tổng hợp bao gồm hơn 11 triệu người lớn từ các nhóm Hoa Kỳ. Phân phối chủng tộc và dân tộc phản ánh khung cảnh EHR rộng lớn: 82,7% người da trắng, 8,4% người da đen, 4,3% người Hispanic/Latino, 2,1% người châu Á và 2,4% từ các nhóm chủng tộc và dân tộc khác.

Trong nhóm huấn luyện, với độ tuổi trung bình (ĐKTC) là 60,4 (11) năm, 14.405 cá nhân được chẩn đoán mắc PDAC sau thời gian theo dõi trung bình (ĐKTC) là 5,4 (2,5) năm, tương ứng với tỷ lệ mắc mới là 55 trên 100.000 người-năm. Nhóm kiểm chứng cho thấy tỷ lệ mắc mới tương đương là 54 trên 100.000 người-năm, với 11.693 chẩn đoán PDAC sau thời gian theo dõi trung bình (ĐKTC) là 3,9 (2,5) năm.

Mô hình kết quả—được gọi là PRIME (Mô hình Nguy cơ PDAC cho Phát hiện Sớm)—giữ lại 19 yếu tố dự đoán sau khi điều chỉnh elastic-net. Các yếu tố dự đoán này bao gồm các biến lâm sàng, xét nghiệm và nhân khẩu học. Đáng chú ý, các yếu tố được giữ lại bao gồm tiền sử viêm tụy, rối loạn tiêu hóa, ung thư trước đó, tiểu đường tuýp 2, mức độ AST tăng cao, tình trạng hút thuốc, nhóm máu không phải O, và giới tính nam. Sự minh bạch của mô hình—sự phụ thuộc vào các biến có thể giải thích được và sẵn có—đánh dấu sự khác biệt của nó so với các phương pháp phức tạp hơn và thúc đẩy việc áp dụng lâm sàng.

Hiệu suất phân biệt mạnh mẽ tại thời điểm dự đoán 36 tháng, với AUC là 0,75 trong cả hai nhóm huấn luyện và kiểm chứng. Hiệu chỉnh được báo cáo là tốt trong các nhóm rủi ro. Trong nhóm kiểm chứng, các cá nhân ở 1% rủi ro dự đoán cao nhất thể hiện nguy cơ PDAC tăng đáng kể so với bệnh nhân có nguy cơ trung bình (HR, 7,63; KTC 95%, 6,85–8,49), nhấn mạnh khả năng của mô hình trong việc xác định nhóm có nguy cơ cao với sự tăng nguy cơ có ý nghĩa lâm sàng.

Kiểm chứng quốc tế tại UK Biobank đạt AUC 36 tháng là 0,71 với hiệu chỉnh chấp nhận được, cho thấy PRIME có khả năng áp dụng rộng rãi vượt ra khỏi bối cảnh chăm sóc sức khỏe Hoa Kỳ mặc dù có sự khác biệt về hệ thống mã hóa, dân số bệnh nhân và phương pháp thu thập dữ liệu.

Bình luận chuyên gia

Nghiên cứu PRIME đại diện cho một bước tiến đáng kể trong việc áp dụng học máy và dữ liệu EHR vào việc phân loại rủi ro ung thư học. Một số điểm mạnh về phương pháp đáng chú ý. Việc sử dụng mô hình tinh gọn với 19 yếu tố dự đoán có thể giải thích được cân nhắc một cách thực tế giữa hiệu suất dự đoán và khả năng áp dụng lâm sàng—một xem xét quan trọng đối với bất kỳ công cụ nào dự định triển khai trong thực tế. Chiến lược kiểm chứng đa nhóm, bao gồm cả các hệ thống y tế Hoa Kỳ và một tập dữ liệu độc lập quốc tế, cung cấp bằng chứng về khả năng áp dụng rộng rãi mà ít khi đạt được trong các nghiên cứu dự đoán.

Việc giữ lại các biến sẵn có—bao gồm đặc điểm nhân khẩu học cơ bản, mã chẩn đoán và các giá trị xét nghiệm phổ biến—có nghĩa là PRIME có thể được tính toán tại điểm chăm sóc mà không cần xét nghiệm chuyên biệt hoặc thủ tục xâm lấn. Điều này trái ngược với các bài kiểm tra phát hiện sớm dựa trên máu đang nổi lên, mặc dù hứa hẹn, nhưng gặp phải thách thức liên quan đến chi phí, khả năng tiếp cận và tỷ lệ dương tính giả trong dân số có tỷ lệ mắc bệnh thấp.

Tuy nhiên, một số điểm cần xem xét cẩn thận. Thứ nhất, mặc dù AUC 0,75 thể hiện sự phân biệt có ý nghĩa, nhưng nó chưa đạt đến ngưỡng thường được coi là đủ cho sàng lọc dân số. Tác giả công nhận rằng PRIME không nhằm thay thế sàng lọc dân số mà thay vào đó là xác định các nhóm có nguy cơ cao cho giám sát tập trung hoặc khám thêm. Thứ hai, việc phụ thuộc vào mã chẩn đoán ICD giới thiệu sự thiên lệch phân loại tiềm ẩn, vì độ chính xác mã hóa thay đổi giữa các tổ chức và môi trường lâm sàng. Thứ ba, dữ liệu chủng tộc và dân tộc từ EHR có thể không đầy đủ hoặc ghi nhận không đồng đều, điều này có thể ảnh hưởng đến hiệu suất mô hình trong các nhóm dân số bị đại diện thấp. Thứ tư, UK Biobank, mặc dù có giá trị cho việc kiểm chứng bên ngoài, đại diện cho một nhóm tình nguyện viên có thiên lệch lựa chọn cố hữu, và các chỉ số hiệu suất trong nhóm này có thể không hoàn toàn dịch sang dân số lâm sàng thông thường.

Hướng nghiên cứu trong tương lai nên bao gồm đánh giá triển vọng các quy trình tìm kiếm trường hợp có hướng dẫn EHR, tích hợp với các dấu hiệu sinh học phát hiện sớm dựa trên máu mới nổi (như ADN khối u tuần hoàn hoặc bảng protein), và đánh giá xem việc xác định bằng PRIME có dẫn đến sự di chuyển giai đoạn có ý nghĩa và cải thiện kết quả sống sót trong thực hành lâm sàng hay không.

Kết luận

Mô hình PRIME đại diện cho một cách tiếp cận minh bạch, có thể giải thích được và có thể áp dụng rộng rãi để phân loại rủi ro PDAC sử dụng dữ liệu EHR được thu thập thường xuyên. Khả năng đạt được sự phân biệt mạnh mẽ trong cả hai nhóm kiểm chứng Hoa Kỳ và UK Biobank, kết hợp với sự tăng nguy cơ có ý nghĩa lâm sàng được quan sát ở 1% rủi ro dự đoán cao nhất, đặt nó trong vị trí là một công cụ hứa hẹn cho các chiến lược phát hiện sớm có mục tiêu. Mặc dù các nghiên cứu triển vọng cần thiết để xác lập tác động lâm sàng của việc tìm kiếm trường hợp có hướng dẫn EHR, PRIME cung cấp một khung quy mô có thể chuyển đổi đáng kể mô hình chẩn đoán ung thư tụy từ biểu hiện triệu chứng sang giai đoạn sớm hơn, dễ điều trị hơn.

Tài trợ

Nghiên cứu không báo cáo thông tin tài trợ cụ thể trong bản tóm tắt có sẵn. Bạn đọc được đề nghị tham khảo bài công bố đầy đủ trên JAMA Oncology để biết thông tin đầy đủ về xung đột lợi ích và tài trợ.

Tham khảo

Mavromatis LA, Zlatanic V, Agarunov E, Sanoba SA, Kluger MD, Horwitz LI, Razavian N, Maitra A, Gonda TA, Grams ME. Phát triển và Kiểm chứng Mô hình Phân loại Rủi ro Tinh gọn cho Ung thư Tuỵ. JAMA Oncology. 2026-03-26. PMID: 41885821.

Comments

No comments yet. Why don’t you start the discussion?

Để lại một bình luận