Năng lực chẩn đoán so sánh của các hệ thống phân loại rủi ro siêu âm tuyến giáp toàn cầu: Tác động của kích thước nốt và chuẩn hóa từ vựng

Những điểm nổi bật

Có sự khác biệt đáng kể giữa năm hệ thống phân loại rủi ro tuyến giáp chính (RSSs) về việc phân loại nốt và ước tính nguy cơ ác tính.
Hệ thống Hiệp hội Tuyến giáp Hoa Kỳ (ATA) và EU-TIRADS ưu tiên độ nhạy, dẫn đến tỷ lệ sinh thiết không cần thiết cao hơn ở tất cả các kích thước nốt.
Hệ thống ACR TI-RADS duy trì tỷ lệ sinh thiết không cần thiết thấp nhất (UBR) nhưng với chi phí giảm độ nhạy so với các hệ thống quốc tế khác.
Kích thước nốt (>2 cm vs. ≤2 cm) là yếu tố quyết định quan trọng đối với hiệu suất chẩn đoán, với K-TIRADS cho thấy sự thay đổi độ nhạy rõ rệt giữa các nhóm kích thước.

Nền tảng

Việc quản lý các nốt tuyến giáp đã được cải thiện đáng kể nhờ sự phát triển của các hệ thống phân loại rủi ro siêu âm (US) (RSSs), còn được gọi là Hệ thống Báo cáo và Dữ liệu Hình ảnh Tuyến giáp (TIRADS). Mặc dù các hệ thống này nhằm chuẩn hóa việc quản lý các nốt tuyến giáp và giảm thiểu các can thiệp không cần thiết, sự phổ biến của các hướng dẫn khác nhau từ các tổ chức như Hiệp hội Chẩn đoán Hình ảnh Hoa Kỳ (ACR), Hiệp hội Tuyến giáp Hoa Kỳ (ATA), và các tổ chức châu Âu (EU), Hàn Quốc (K), và Trung Quốc (C) đã tạo ra một cảnh quan lâm sàng đa dạng.

Một trong những thách thức chính trong thực hành lâm sàng là thiếu một từ vựng thống nhất và ngưỡng kích thước khác nhau cho sinh thiết kim nhỏ (FNAB). Sự đa dạng này thường dẫn đến các khuyến nghị khác nhau cho cùng một nốt tùy thuộc vào hệ thống được áp dụng. Những nỗ lực gần đây của các chuyên gia quốc tế đã đề xuất một từ vựng siêu âm chuẩn hóa để nối liền những khoảng cách này. Hiểu rõ cách các hệ thống này hoạt động tương đối với nhau, đặc biệt khi được phân loại theo kích thước nốt, là điều cần thiết để tinh chỉnh việc ra quyết định lâm sàng và tiến tới một hệ thống phân loại rủi ro thống nhất trên toàn cầu.

Nội dung chính

Khung phương pháp luận và từ vựng chuẩn hóa

Trong một phân tích hồi cứu toàn diện kéo dài từ tháng 3 năm 2017 đến tháng 2 năm 2024, các nhà nghiên cứu đã đánh giá 3.774 nốt tuyến giáp có kích thước lớn hơn 1 cm. Nghiên cứu sử dụng một từ vựng siêu âm chuẩn hóa để phân loại lại các nốt theo các tiêu chí cụ thể của ATA, EU-TIRADS, K-TIRADS, ACR TI-RADS, và C-TIRADS. Phương pháp này cho phép so sánh trực tiếp logic nội tại của các hệ thống mà không bị ảnh hưởng bởi các thuật ngữ mô tả khác nhau.

Sự phân phối so sánh và nguy cơ ác tính

Nghiên cứu đã tiết lộ những sự khác biệt rõ rệt về cách các nốt được phân phối qua các hạng mục rủi ro. Sự đồng thuận giữa các hệ thống được tìm thấy là rất đa dạng, với các giá trị kappa (κ) dao động từ 0,05 đến 0,85. Điều này cho thấy rằng mặc dù một số hệ thống đồng ý về các đặc điểm rủi ro cao, cách họ xử lý các nốt có rủi ro trung bình và thấp là cơ bản khác nhau. Đặc biệt, nguy cơ ác tính liên quan đến các hạng mục tương tự (ví dụ, ‘Nguy cơ cao’ vs. ‘TIRADS 5’) thay đổi đáng kể giữa năm hệ thống (p < 0,001).

Hiệu suất chẩn đoán theo kích thước nốt

Nghiên cứu chia nhóm thành các nốt nhỏ (≤ 2 cm) và các nốt lớn (> 2 cm) để đánh giá tác động của kích thước đối với hiệu suất tiêu chí sinh thiết:

ATA và EU-TIRADS: Các hệ thống này thể hiện độ nhạy cao nhất cho cả nốt nhỏ và lớn. Tuy nhiên, độ nhạy cao này đi kèm với tỷ lệ sinh thiết không cần thiết (UBR) cao hơn đáng kể. Đối với các bác sĩ, điều này đại diện cho một sự cân nhắc: khả năng bỏ sót ung thư thấp hơn nhưng gánh nặng của các thủ tục xâm lấn ít hiệu quả cao hơn.
ACR TI-RADS: Ngược lại, hệ thống ACR thể hiện độ nhạy thấp nhất nhưng cũng có tỷ lệ UBR thấp nhất trong cả hai nhóm kích thước. Hệ thống điểm của ACR và ngưỡng kích thước cao hơn cho sinh thiết hiệu quả loại bỏ nhiều nốt lành tính mà các hệ thống khác sẽ nhắm mục tiêu cho FNAB.
K-TIRADS: Hệ thống Hàn Quốc thể hiện một sự thay đổi hiệu suất phụ thuộc vào kích thước độc đáo. Đối với các nốt nhỏ, nó có độ nhạy và UBR thấp nhất. Tuy nhiên, đối với các nốt lớn, độ nhạy và UBR của nó tăng đột biến, phù hợp hơn với ATA và EU-TIRADS.
C-TIRADS: Hệ thống Trung Quốc thể hiện độ nhạy thấp tương tự như ACR TI-RADS nhưng chịu đựng tỷ lệ UBR cao hơn, cho thấy rằng các tiêu chí nội bộ của nó để xác định rủi ro có thể kém cụ thể hơn đối với các dấu hiệu lành tính trong nhóm này.

Thách thức của các nốt lớn

Dữ liệu cho thấy sự khác biệt lớn nhất về hiệu suất xảy ra trong việc quản lý các nốt lớn (>2 cm). Sự khác biệt về hiệu suất chẩn đoán chủ yếu xuất phát từ sự biến đổi trong ngưỡng kích thước sinh thiết và các tiêu chí siêu âm cụ thể được sử dụng để chỉ định ‘không cần sinh thiết’. Các nốt lớn không có các đặc điểm nghi ngờ cao (ví dụ, vi canxi hóa hoặc hướng không song song) được xử lý rất khác nhau giữa năm hệ thống, dẫn đến sự thay đổi quan sát được trong UBR.

Bình luận của chuyên gia

Các kết quả của so sánh quy mô lớn này nhấn mạnh một căng thẳng cơ bản trong ung thư tuyến giáp: cân bằng giữa độ nhạy chẩn đoán và việc ngăn ngừa chẩn đoán quá mức và điều trị quá mức. Tỷ lệ UBR cao được quan sát trong các hệ thống ATA và EU-TIRADS phản ánh một cách tiếp cận bảo thủ nhằm bắt giữ càng nhiều ung thư càng tốt. Tuy nhiên, trong thời đại mà nhiều ung thư tuyến giáp là ẩn (chẳng hạn như microcarcinomas tuyến giáp bướm), cách tiếp cận của ACR TI-RADS ưu tiên độ đặc hiệu có thể phù hợp hơn với mục tiêu hiện đại là giảm lãng phí y tế và lo lắng của bệnh nhân.

Sự thay đổi hiệu suất phụ thuộc vào kích thước của K-TIRADS là đặc biệt thú vị. Nó cho thấy các đặc điểm siêu âm truyền thống liên quan đến ác tính có thể biểu hiện khác nhau hoặc mang trọng lượng dự đoán khác nhau khi nốt phát triển. Điều này làm nổi bật nhu cầu về một mô hình phân loại rủi ro ‘động’ hoặc điều chỉnh theo kích thước. Hơn nữa, phạm vi đồng thuận rộng giữa các hệ thống (κ = 0,05-0,85) chứng minh rằng chúng ta vẫn còn xa mới có một ‘tiếng nói chung’ trong siêu âm tuyến giáp, mặc dù sử dụng từ vựng chuẩn hóa trong nghiên cứu này. Các sự khác biệt không chỉ là về ngữ nghĩa; chúng được nhúng trong trọng số của các đặc điểm siêu âm và ngưỡng kích thước được chọn cho can thiệp.

Kết luận

Phân tích so sánh của các hệ thống ATA, EU-, K-, ACR-, và C-TIRADS cho thấy chúng không thể thay thế cho nhau. Việc lựa chọn hệ thống RSS nào sử dụng ảnh hưởng đáng kể đến số lượng sinh thiết được thực hiện và độ nhạy trong việc phát hiện ung thư tuyến giáp. Cụ thể, sự khác biệt về hiệu suất chẩn đoán rõ ràng nhất do sự biến đổi trong ngưỡng kích thước sinh thiết cho các nốt nhỏ và các tiêu chí siêu âm khác nhau cho các nốt lớn không cần sinh thiết.

Nỗ lực trong tương lai để thiết lập một hệ thống TIRADS quốc tế thống nhất phải tập trung vào việc tối ưu hóa phân loại rủi ro cho các nốt lớn và đồng nhất ngưỡng sinh thiết. Cho đến khi có một hệ thống thống nhất, các bác sĩ nên nhận thức được các điểm mạnh và hạn chế cụ thể của hệ thống được sử dụng trong thực hành của họ—cân nhắc độ nhạy cao của các hệ thống ATA/EU so với độ đặc hiệu và hiệu quả cao của ACR TI-RADS.

Tài liệu tham khảo

Na DG, Noh BJ, Kim WJ, et al. Năng lực chẩn đoán của năm hệ thống phân loại rủi ro siêu âm của các tổ chức cho ung thư tuyến giáp theo kích thước nốt: So sánh sử dụng từ vựng siêu âm chuẩn hóa. Thyroid. 2026; doi:10.1089/thy.2024.xxxx. PMID: 41789443.
Tessler FN, Middleton WD, Grant EG, et al. ACR Hệ thống Hình ảnh, Báo cáo và Dữ liệu Tuyến giáp (TI-RADS): Tài liệu trắng của Ủy ban ACR TI-RADS. J Am Coll Radiol. 2017;14(5):587-595.
Haugen BR, Alexander EK, Bible KC, et al. Hướng dẫn Quản lý 2015 của Hiệp hội Tuyến giáp Hoa Kỳ cho Bệnh nhân trưởng thành mắc Nốt tuyến giáp và Ung thư tuyến giáp biệt hóa. Thyroid. 2016;26(1):1-133.