Giới thiệu
Đánh giá ngang hàng là nền tảng của y học dựa trên bằng chứng, đảm bảo độ tin cậy và chất lượng của nghiên cứu khoa học được xuất bản. Tuy nhiên, quá trình này đang đối mặt với nhiều thách thức: số lượng bản thảo ngày càng tăng, mệt mỏi của người đánh giá và lo ngại về hiệu suất, thiên vị và độ tin cậy. Với hệ thống đánh giá ngang hàng bị căng thẳng, các cách tiếp cận sáng tạo là cần thiết để duy trì tính toàn vẹn và khả năng đáp ứng của nó.
Trí tuệ nhân tạo (AI), đặc biệt là các mô hình ngôn ngữ lớn (LLMs), đã xuất hiện như một công cụ đầy hứa hẹn để hỗ trợ và có thể biến đổi đánh giá ngang hàng. Bài viết này phân tích một cách phê phán các cơ hội, thách thức và chiến lược để tích hợp AI vào đánh giá ngang hàng, tập trung vào việc cân nhắc giữa tiến bộ công nghệ và trách nhiệm của con người.
Nền tảng và Thách thức trong Đánh giá ngang hàng
Việc mở rộng xuất bản khoa học đã làm tăng nhu cầu đối với người đánh giá ngang hàng, nhiều người trong số họ báo cáo mệt mỏi và thiếu hào hứng. Đánh giá ngang hàng truyền thống mắc phải các hiệu quả kém, làm chậm việc phổ biến các kết quả quan trọng và có thể gây ra các bất nhất hoặc thiên vị. Ngoài ra, đánh giá ngang hàng đôi khi không phát hiện được các lỗi phương pháp, các nghiên cứu chất lượng thấp hoặc dữ liệu gian lận.
Các nỗ lực để giải quyết những vấn đề này đã bao gồm việc đào tạo người đánh giá nâng cao, các chương trình hướng dẫn và sử dụng phần mềm để ghép nối người đánh giá với các bản thảo phù hợp. Tuy nhiên, các biện pháp này riêng lẻ chưa đủ để mở rộng nhóm người đánh giá hoặc cải thiện tốc độ và chất lượng của các đánh giá.
Tiềm năng của Trí tuệ nhân tạo trong Đánh giá ngang hàng
AI, đặc biệt là LLMs, có thể xử lý và tóm tắt nhanh chóng các bản thảo phức tạp, trích xuất các đặc điểm chính và hỗ trợ sự tham gia tương tác của người đánh giá thông qua các hệ thống hỏi đáp. Chúng có thể tự động hóa các công việc biên tập thường xuyên như kiểm tra tuân thủ các quy định nộp bài, phát hiện các yếu tố báo cáo bị thiếu, xác minh sự nhất quán của dữ liệu giữa các phần khác nhau của bản thảo và tạo ra các bản tóm tắt.
Các tự động hóa như vậy có thể giảm khối lượng công việc của người đánh giá, giảm mệt mỏi và tăng tốc quyết định biên tập. Ví dụ, AI có thể hoạt động tương tự như các công cụ phát hiện đạo văn đã được thiết lập, cung cấp một lớp bảo đảm chất lượng phụ trợ mà không thay thế sự phán đoán của con người.
Hạn chế và Rủi ro của việc tích hợp AI
Bất chấp những lợi thế này, các mô hình AI hiện tại có những hạn chế đáng kể. Chúng có thể tạo ra các kết quả giả dương (đánh dấu các vấn đề không tồn tại) và giả âm (bỏ sót các lỗi thực sự). Quan trọng hơn, AI hiện chưa thể tái tạo được chuyên môn của con người trong việc đánh giá tính mới, liên quan lâm sàng hoặc tính chặt chẽ phương pháp, đòi hỏi phán đoán dựa trên bối cảnh và lý lẽ đạo đức.
Các rủi ro cũng xuất hiện xung quanh tính bảo mật—việc tải lên các bản thảo cho các nền tảng AI công cộng có thể gây rò rỉ dữ liệu và lạm dụng tài sản trí tuệ. Hơn nữa, việc tiếp cận không bình đẳng với các công cụ AI có thể làm tăng sự bất bình đẳng giữa các người đánh giá và tổ chức.
AI có thể tạo ra các đầu ra có vẻ hợp lý nhưng không chính xác do sự tưởng tượng (ảo tưởng), yêu cầu người đánh giá con người phải kiểm tra kỹ lưỡng các hiểu biết do AI đưa ra, điều này có thể nghịch lý làm tăng khối lượng công việc.
Sự thiên vị trong nội dung do AI tạo ra là một mối quan tâm quan trọng. Các mô hình có thể vô tình ưu tiên một số chủ đề, phương pháp hoặc phong cách ngôn ngữ, và mặc dù chúng không mang thiên vị cá nhân, dữ liệu huấn luyện của chúng có thể chứa các định kiến hệ thống. Hơn nữa, sự phụ thuộc vào AI có thể dẫn đến việc chuyển giao nhận thức, giảm suy nghĩ phê phán và thúc đẩy sự đồng nhất hóa của cuộc đối thoại khoa học.
Các hướng dẫn và Xem xét Đạo đức hiện tại
Các nhà xuất bản và cơ quan biên tập hàng đầu, bao gồm Mạng lưới JAMA và Ủy ban Quốc tế về Biên tập Tạp chí Y khoa (ICMJE), đã phát triển các chính sách để hướng dẫn việc sử dụng AI. Các nguyên tắc chính bao gồm:
– Cấm sử dụng các công cụ AI làm tác giả của bản thảo do AI không thể chịu trách nhiệm.
– Yêu cầu bắt buộc tiết lộ của tác giả và người đánh giá khi các công cụ AI đóng góp vào việc viết hoặc đánh giá.
– Cấm tải lên các bản thảo bí mật cho các nền tảng AI không an toàn.
– Duy trì trách nhiệm cuối cùng của biên tập viên và người đánh giá mặc dù có sự hỗ trợ của AI.
Những biện pháp này duy trì các tiêu chuẩn đạo đức và giúp duy trì sự tin tưởng trong quá trình đánh giá ngang hàng.
Chiến lược triển khai: Mô hình Hỗn hợp Con người-AI
Nhận thức cả tiềm năng và những rủi ro của AI, các tạp chí như những tạp chí trong Mạng lưới JAMA ủng hộ các mô hình hỗn hợp nơi các công cụ AI hỗ trợ nhưng không thay thế người đánh giá và biên tập viên con người.
Các mô hình như vậy có thể bao gồm:
– Các đánh giá song song do AI tạo ra tập trung vào các khía cạnh cụ thể như tính chính xác phương pháp hoặc tuân thủ các tiêu chuẩn báo cáo.
– Các đánh giá tổng hợp do AI hỗ trợ tổng hợp nhiều đánh giá của con người thành các khuyến nghị có cấu trúc.
– Các hệ thống đồng lái do AI hỗ trợ giúp người đánh giá con người tóm tắt và phát hiện lỗi trong khi để lại sự phán đoán cuối cùng cho người đánh giá.
Cách tiếp cận này giống như các công nghệ hỗ trợ lái xe tăng cường nhưng không thay thế sự kiểm soát của con người, duy trì sự giám sát và trách nhiệm của con người.
Đối phó với các thách thức thông qua Nghiên cứu và Chính sách liên tục
Nghiên cứu khoa học liên tục là yếu tố then chốt để đánh giá các ứng dụng AI nào cải thiện chất lượng đánh giá ngang hàng mà không làm compromit công bằng hoặc bảo mật. Các hội nghị như Đại hội Quốc tế về Đánh giá ngang hàng và Xuất bản Khoa học giúp phổ biến các nghiên cứu như vậy.
Các tạp chí đang khám phá:
– Đánh giá kinh nghiệm về tác động của AI đến thời gian và chất lượng đánh giá.
– Phương pháp để giảm thiểu sự thiên vị của AI và đảm bảo tiếp cận bình đẳng.
– Các quy trình để bảo vệ tính bảo mật.
– Chiến lược để tránh việc hack thưởng, nơi các tác giả có thể tối ưu hóa các bản thảo chủ yếu cho các thuật toán AI thay vì sự rõ ràng khoa học.
Chính sách hiệu quả và chu kỳ cải thiện chất lượng sẽ hướng dẫn việc áp dụng AI có trách nhiệm trong quy trình biên tập.
Kết luận
Trí tuệ nhân tạo có tiềm năng đáng kể để hỗ trợ quá trình đánh giá ngang hàng bằng cách tự động hóa các công việc thường xuyên và hỗ trợ người đánh giá, từ đó giải quyết các thách thức như mệt mỏi của người đánh giá và hiệu quả kém. Tuy nhiên, những hạn chế hiện tại của AI trong việc diễn giải bối cảnh, phán đoán đạo đức và phân tích không có lỗi đòi hỏi phải triển khai thận trọng, các mô hình hỗn hợp duy trì sự giám sát của con người.
Các hướng dẫn đạo đức, đánh giá kinh nghiệm và tiếp cận bình đẳng là cần thiết để tận dụng lợi ích của AI trong khi giảm thiểu các rủi ro như vi phạm bảo mật, thiên vị và giảm sự tham gia phê phán. Cuối cùng, AI nên được coi là một đồng lái của chuyên môn con người thay vì thay thế, duy trì sự nghiêm ngặt khoa học, công bằng và trách nhiệm là nền tảng của đánh giá ngang hàng đáng tin cậy.
Khi lĩnh vực này phát triển, nghiên cứu liên tục và chính sách cẩn trọng sẽ đảm bảo rằng AI làm phong phú thêm quá trình đánh giá ngang hàng, tăng tốc việc phổ biến y học lâm sàng chất lượng cao để mang lại lợi ích cho các bác sĩ, nhà nghiên cứu và bệnh nhân.
Tài liệu tham khảo
1. Perlis RH, Christakis DA, Bressler NM, et al. Artificial Intelligence in Peer Review. JAMA. Được xuất bản trực tuyến ngày 28 tháng 8 năm 2025. doi:10.1001/jama.2025.15827
2. International Committee of Medical Journal Editors (ICMJE). Recommendations for the Conduct, Reporting, Editing, and Publication of Scholarly Work in Medical Journals. Có sẵn tại: http://www.icmje.org/icmje-recommendations.pdf
3. Tennant JP, Ross-Hellauer T. The limitations to our understanding of peer review. Research Integrity and Peer Review. 2020;5:6. doi:10.1186/s41073-020-00092-1
4. Lee CJ, Sugimoto CR, Zhang G, Cronin B. Bias in peer review. J Am Soc Inf Sci Technol. 2013;64(1):2-17. doi:10.1002/asi.22784
5. Erren TC, Erren M, Buddeberg-Fischer B. Ethical standards in scientific publishing: The issue of ghost authorship. Dtsch Arztebl Int. 2009;106(31-32):548-553. doi:10.3238/arztebl.2009.0548
6. Resnik DB, Elmore SA. Ensuring the integrity and quality of peer review in biomedical journals. Am J Bioeth. 2016;16(9):34-36. doi:10.1080/15265161.2016.1203263