Thách thức trong việc phân biệt các bản thảo y học và tuyên bố cá nhân do con người soạn thảo với do AI tạo ra: Một đánh giá toàn diện

Những điểm nổi bật

Các nhà đánh giá con người thể hiện độ nhạy thấp và độ đặc hiệu trung bình trong việc phân biệt các bản thảo y học do AI tạo ra so với do con người viết.
Các tuyên bố cá nhân do AI tạo ra cho các đơn xin thực tập y khoa thường vượt qua các tuyên bố do con người viết về tính dễ đọc và chất lượng, ảnh hưởng tích cực đến việc lựa chọn phỏng vấn.
Tương tác thường xuyên với các công cụ AI nâng cao khả năng nhận dạng của nhà đánh giá, nhưng tổng thể việc phân biệt vẫn kém.
Các lo ngại về tính liêm chính và đạo đức lao động xuất hiện giữa các giám đốc chương trình khi nghi ngờ các tuyên bố cá nhân do AI tạo ra, làm nổi bật các vấn đề đạo đức phức tạp.

Nền tảng

Việc tích hợp các công nghệ trí tuệ nhân tạo (AI) như ChatGPT của OpenAI vào quá trình viết và nộp đơn y học đại diện cho một thách thức biến đổi trong lâm sàng học thuật. Các bản thảo y học và tuyên bố cá nhân là thành phần cơ bản của giao tiếp học thuật và tuyển chọn học viên, tương ứng. Phân biệt nội dung do AI tạo ra từ nội dung được viết truyền thống ngày càng khó khăn, đặt ra câu hỏi về độ tin cậy, tiêu chuẩn đạo đức và nhu cầu cập nhật quy định. Đánh giá này tổng hợp bằng chứng gần đây về khả năng phát hiện tác giả AI của các nhà đánh giá con người trong các bản thảo y học và tuyên bố cá nhân, đánh giá tác động đối với kết quả đánh giá và xem xét các hệ quả cho giáo dục lâm sàng và tiêu chuẩn biên tập.

Nội dung chính

Nghiên cứu khảo sát ngẫu nhiên đánh giá khả năng phân biệt của các nhà đánh giá con người

Helgeson et al. đã tiến hành một khảo sát ngẫu nhiên triển vọng từ tháng Mười đến tháng Mười Hai năm 2023 tại một trung tâm học thuật duy nhất. Sử dụng ChatGPT 3.5, các bản thảo y học do AI tạo ra đã được tạo ra và ngẫu nhiên cùng với các bản thảo do con người viết. Năm mươi mốt bác sĩ, từ sau tiến sĩ đến giáo sư, được che giấu nguồn gốc của bản thảo và được giao nhiệm vụ xác định tác giả. Kết quả cho thấy độ nhạy thấp (31.2%, khoảng tin cậy 95% 11.0–58.7%) và độ đặc hiệu trung bình (55.6%, khoảng tin cậy 95% 30.8–78.5%) trong việc phát hiện bản thảo do AI tạo ra. Giá trị dự đoán dương và âm cũng tương tự (38.5% và 47.6%, tương ứng). Đáng chú ý, các bản thảo từ các tạp chí có chỉ số tác động cao hơn được xác định chính xác hơn các bản thảo từ các tạp chí có chỉ số tác động thấp hơn (P=0.037). Chức danh học thuật của nhà đánh giá và kinh nghiệm đánh giá đồng đẳng trước đây không dự đoán độ chính xác; tuy nhiên, việc sử dụng thường xuyên các công cụ AI đáng kể tăng khả năng xác định chính xác (OR lên tới 8.36, P<0.05). Không có chỉ số chất lượng bản thảo nào dự đoán việc phát hiện chính xác.

Phân tích so sánh giữa các tuyên bố cá nhân do AI tạo ra và do con người viết

Karakash et al. đã đánh giá chín tuyên bố cá nhân (bốn do AI tạo ra thông qua ChatGPT-4, tập trung vào trải nghiệm độc đáo, năm do con người viết) cho các đơn xin thực tập phẫu thuật cột sống, được xem xét bởi 8 nhà đánh giá bị che giấu bao gồm các bác sĩ điều trị và thực tập sinh. Các tuyên bố do AI tạo ra vượt trội hơn về tính dễ đọc (điểm trung bình 65.69 so với 56.40; P=0.016) và chất lượng (63.00 so với 51.80; P=0.004), trong khi không có sự khác biệt đáng kể về tính độc đáo hoặc tính chân thực. Các nhà đánh giá không thể phân biệt chính xác giữa AI và tác giả con người (P=1.000). Quan trọng, tỷ lệ khuyến nghị phỏng vấn rõ ràng ưu ái các tuyên bố do AI tạo ra (84.4% so với 62.5%, OR 3.24, P=0.045), cho thấy các tuyên bố do AI viết có thể mang lại lợi thế đánh giá.

Nhận thức về các tuyên bố cá nhân do AI tạo ra trong số các giám đốc chương trình thực tập gây mê sản khoa

Ruiz et al. đã khảo sát các giám đốc chương trình thực tập gây mê sản khoa ở Hoa Kỳ đánh giá bốn tuyên bố cá nhân (hai do AI tạo ra bằng ChatGPT, hai do con người viết). Các giám đốc không thể xác định chính xác nội dung do AI tạo ra và đánh giá các tuyên bố do AI cao hơn về tính dễ đọc và tính độc đáo. Bất chấp điều này, đa số bày tỏ lo ngại vừa phải đến cực kỳ về tính liêm chính, đạo đức lao động và độ tin cậy của ứng viên nếu nghi ngờ tác giả AI. Sự mâu thuẫn này làm nổi bật một căng thẳng giữa việc công nhận khả năng của AI để cải thiện chất lượng viết và các lo ngại đạo đức về việc sử dụng nó. Nghiên cứu này ủng hộ việc thiết lập các chính sách chương trình rõ ràng giải quyết việc sử dụng AI trong đơn xin.

Tổng hợp kết quả từ các nghiên cứu

Tập hợp, các cuộc điều tra này tiết lộ các chủ đề hội tụ: (1) Các bản thảo y học và tuyên bố cá nhân do AI tạo ra thường không thể phân biệt được bởi các nhà đánh giá con người; (2) Nội dung do AI tạo ra có thể vượt trội hơn các tác phẩm do con người viết về một số chỉ số chất lượng; (3) Sự quen thuộc với các công cụ AI nâng cao khả năng phát hiện nhưng không loại bỏ việc phân loại sai; (4) Các lo ngại đạo đức và khoảng cách chính sách vẫn là vấn đề trong bối cảnh học thuật và đơn xin.

Bảng 1 tóm tắt các chỉ số so sánh trong các nghiên cứu:

Nghiên cứu	Mẫu	Kết quả chính	Độ chính xác phát hiện của nhà đánh giá	Chất lượng nội dung AI	Tác động đạo đức
Helgeson et al. (2025)	51 bác sĩ, 3 bản thảo mỗi người	Độ nhạy: 31.2%; Độ đặc hiệu: 55.6%	Độ chính xác thấp trong việc phân biệt bản thảo AI và con người	Tương đương với bản thảo do con người viết	N/A
Karakash et al. (2025)	9 tuyên bố cá nhân, 8 nhà đánh giá	Lời khuyên phỏng vấn ưu ái AI (84.4% so với 62.5%)	Không có sự khác biệt đáng kể (P=1.000)	Tính dễ đọc và chất lượng cao hơn	Các tuyên bố AI được đánh giá cao hơn nhưng đạo đức chưa được đề cập
Ruiz et al. (2025)	4 tuyên bố cá nhân, khảo sát các giám đốc chương trình	Các tuyên bố AI được đánh giá dễ đọc và độc đáo hơn	Không thể phân biệt tác giả	Được đánh giá cao về chất lượng	Lo ngại về tính liêm chính và đạo đức lao động nếu nghi ngờ AI

Bình luận chuyên gia

Sự tiến bộ nhanh chóng của AI tạo ra yêu cầu xem xét lại nghiêm túc các tiêu chuẩn quyền tác giả học thuật và khung đánh giá. Việc thất bại liên tục của các chuyên gia con người trong việc phân biệt chính xác nội dung do AI tạo ra làm nổi bật sự tinh vi của các mô hình ngôn ngữ AI và khả năng của chúng để làm mờ ranh giới giữa tác giả con người và máy. Hiện tượng này đặt ra thách thức cho việc đánh giá đồng đẳng, tính liêm chính học thuật và quy trình tuyển sinh, cho thấy khả năng của AI để cải thiện chất lượng và tính dễ đọc của văn bản vượt xa nhiều bản nháp của con người.

Trong khi AI có thể cung cấp quyền truy cập công bằng vào chỉnh sửa và sáng tác chất lượng cao, đặc biệt là cho những người nói tiếng Anh không phải là tiếng mẹ đẻ hoặc các ứng viên có kỹ năng viết hạn chế, nó cũng đặt ra câu hỏi về tính độc đáo và minh bạch đạo đức. Dilemna đạo đức nằm ở việc cân nhắc giữa lợi ích của sự hỗ trợ AI và các nguyên tắc của quyền tác giả đích thực và công bằng. Các hướng dẫn biên tập và đào tạo hiện tại hiếm khi đề cập đến việc tiết lộ AI một cách rõ ràng, tạo ra sự mơ hồ.

Người dùng AI thường xuyên thể hiện khả năng phát hiện tốt hơn, có thể do sự quen thuộc với các mẫu ngôn ngữ AI; tuy nhiên, sự chuyên môn rộng rãi vẫn còn thiếu. Điều này cho thấy một khoảng cách đào tạo cho các bác sĩ và biên tập viên được giao nhiệm vụ đánh giá bản thảo và đơn xin. Việc tích hợp chiến lược AI vào chương trình học thuật và đào tạo đánh giá có thể cần thiết.

Các chính sách trong tương lai nên xem xét thiết lập các tiêu chuẩn rõ ràng về việc sử dụng AI, các yêu cầu minh bạch và phát triển các bộ phát hiện thuật toán bổ sung cho phán đoán con người. Hơn nữa, các tổ chức học thuật và giám đốc chương trình nên cung cấp hướng dẫn xác định việc tích hợp AI hợp lý trong tài liệu đơn xin để duy trì công bằng trong khi đón nhận các tiến bộ công nghệ.

Kết luận

Bằng chứng cho thấy các bản thảo y học và tuyên bố cá nhân do AI tạo ra hầu như không thể phân biệt được từ các văn bản do con người viết bởi hầu hết các nhà đánh giá chuyên nghiệp. AI thường cải thiện chất lượng tài liệu, ảnh hưởng tích cực đến kết quả đánh giá. Xu hướng này đòi hỏi đối thoại và phát triển chính sách khẩn cấp trong giáo dục y học và xuất bản để giải quyết các hệ quả đạo đức, thực tế và giáo dục. Nghiên cứu tiếp theo nên tối ưu hóa các phương pháp phát hiện, làm rõ vai trò của quyền tác giả AI và xây dựng các khung đạo đức hỗ trợ việc sử dụng AI có trách nhiệm trong bối cảnh học thuật và lâm sàng.

Tham khảo

Helgeson SA, Johnson PW, Gopikrishnan N, et al. Khả năng phân biệt của các nhà đánh giá con người giữa các bản thảo y học do con người viết hoặc do trí tuệ nhân tạo tạo ra: Một nghiên cứu khảo sát ngẫu nhiên. Mayo Clin Proc. 2025 Apr;100(4):622-633. doi:10.1016/j.mayocp.2024.08.029. PMID:40057868.
Karakash WJ, Avetisian H, Ragheb JM, et al. Trí tuệ nhân tạo so với quyền tác giả con người trong các tuyên bố cá nhân cho thực tập phẫu thuật cột sống: ChatGPT có thể vượt trội hơn ứng viên không? Global Spine J. 2025 May 20:21925682251344248. doi:10.1177/21925682251344248. Epub ahead of print. PMID:40392947; PMCID:PMC12092409.
Ruiz AM, Kraus MB, Arendt KW, et al. Các tuyên bố cá nhân do trí tuệ nhân tạo tạo ra so với các tuyên bố cá nhân do ứng viên viết: Một khảo sát các giám đốc chương trình thực tập gây mê sản khoa ở Hoa Kỳ. Int J Obstet Anesth. 2025 Feb;61:104293. doi:10.1016/j.ijoa.2024.104293. Epub 2024 Nov 15. PMID:39591877.