亮点
- 人类评审者在区分AI生成的与人类撰写的医学手稿方面表现出低敏感性和中等特异性。
- AI生成的医学进修申请个人陈述在可读性和质量上往往超过人类撰写的陈述,有利于面试选择。
- 频繁使用AI工具可以提高评审者识别AI作者的能力,但总体区分能力仍然较差。
- 当怀疑AI生成的个人陈述时,项目主任对申请者的诚信和工作道德表示担忧,突显了伦理复杂性。
背景
将生成式人工智能(AI)技术如OpenAI的ChatGPT整合到医学写作和申请过程中,代表了临床学术界的一项变革性挑战。医学手稿和个人陈述分别是学术交流和培训生选拔的基本组成部分。区分AI生成的内容与传统撰写材料越来越困难,引发了关于可靠性、伦理标准和更新指南的需求的问题。本综述综合了近期关于人类评审者检测AI作者身份能力的证据,评估其对评估结果的影响,并考虑其对临床教育和编辑标准的意义。
主要内容
评估人类评审者区分能力的随机调查研究
Helgeson等人于2023年10月至12月在单一学术中心进行了一项前瞻性随机调查。使用ChatGPT 3.5生成了AI医学手稿,并与人类撰写的稿件随机配对。51名医生(从博士后到正教授不等)被蒙蔽稿件来源,任务是识别作者。结果显示,检测AI来源稿件的敏感性较低(31.2%,95% CI 11.0–58.7%),特异性中等(55.6%,95% CI 30.8–78.5%)。阳性预测值和阴性预测值同样较低(分别为38.5%和47.6%)。值得注意的是,高影响因子期刊的稿件被识别得更准确(P=0.037)。评审者的学术级别和之前的同行评审经验无法预测准确性;然而,频繁使用AI工具显著提高了正确识别率(OR最高达8.36,P<0.05)。没有稿件质量指标能够预测准确检测。
AI生成与人类撰写进修个人陈述的比较分析
Karakash等人评估了九份脊柱手术进修申请的个人陈述(四份通过ChatGPT-4生成,重点关注独特经历,五份人类撰写),由8名蒙蔽评审者(包括主治医师和进修生)进行评审。AI生成的陈述在可读性(平均得分65.69 vs. 56.40;P=0.016)和质量(63.00 vs. 51.80;P=0.004)方面表现更好,而在原创性和真实性评分上没有显著差异。评审者无法可靠地区分AI和人类作者(P=1.000)。重要的是,推荐面试的比例明显偏向AI生成的陈述(84.4% vs. 62.5%,OR 3.24,P=0.045),表明AI撰写的陈述可能带来评估优势。
妇产麻醉进修项目主任对AI生成个人陈述的看法
Ruiz等人调查了美国妇产麻醉进修项目主任对四份个人陈述的评价(两份由ChatGPT生成,两份人为撰写)。主任无法准确识别AI生成的内容,并对AI陈述的可读性和原创性评分更高。尽管如此,大多数人对申请者的诚信、工作道德和可靠性表示中等到极度担忧,如果怀疑AI作者身份。这种矛盾突显了在认识到AI提升写作质量的能力与对其使用的伦理保留之间的紧张关系。该研究提倡制定明确的项目政策,解决申请中的AI使用问题。
跨研究发现的综合
总体而言,这些研究揭示了几个共同主题:(1)AI生成的医学手稿和个人陈述通常无法被人类评审者区分;(2)AI生成的内容在某些质量指标上可能超过人类撰写的内容;(3)熟悉AI工具可以增强检测能力,但不能消除误分类;(4)学术和申请环境中的伦理关注和政策空白仍然是问题。
表1总结了各研究的比较指标:
研究 | 样本 | 关键结果 | 评审者检测准确性 | AI内容质量 | 伦理影响 |
---|---|---|---|---|---|
Helgeson et al. (2025) | 51名医生,每篇3篇稿件 | 敏感性:31.2%;特异性:55.6% | 区分AI与人类稿件的准确性低 | 与人类稿件相当 | 无 |
Karakash et al. (2025) | 9份个人陈述,8名评审者 | 推荐面试比例偏向AI生成(84.4% vs 62.5%) | 无显著差异(P=1.000) | 可读性和质量更高 | AI陈述评分更高,但未涉及伦理 |
Ruiz et al. (2025) | 4份个人陈述,项目主任调查 | AI陈述的可读性和原创性评分更高 | 无法区分作者 | 质量评分较高 | 如果怀疑AI,对诚信和工作道德表示担忧 |
专家评论
生成式AI的快速发展要求重新审视学术作者身份规范和评估框架。人类专家无法可靠地辨别AI生成内容的一致失败,突显了AI语言模型的复杂性及其模糊人机作者身份界限的潜力。这一现象对同行评审、学术诚信和招生过程构成了挑战,鉴于AI提升文本质量和可读性的能力超过了许多人类草稿。
虽然AI可能为非英语母语者或写作技能有限的申请人提供高质量编辑和平等访问的机会,但也引发了关于原创性和伦理透明度的问题。伦理困境在于平衡AI辅助的好处与真实作者身份和公平的原则。当前的编辑和培训指南很少涉及明确的AI披露,导致模糊。
频繁使用AI的用户展示了更好的检测能力,可能是由于对AI语言模式的熟悉;然而,广泛的专业知识仍然缺乏。这表明,对于负责稿件和申请评审的临床医生和编辑来说,存在一个培训缺口。将AI素养战略性地纳入学术课程和评审培训可能是必要的。
未来的政策应考虑建立明确的AI使用标准、透明度要求,并开发算法检测器以补充人类判断。此外,学术机构和项目主任应提供指导,明确接受AI在申请材料中的整合,以维护公平性同时拥抱技术进步。
结论
证据表明,大多数专业评审者无法区分AI生成的医学手稿和进修个人陈述与人类撰写的文章。AI通常提升了文档质量,对评估结果产生积极影响。这一趋势需要在医学教育和出版领域内进行紧急对话和政策制定,以应对伦理、实践和教育影响。未来的研究应优化检测方法,澄清AI作者身份的角色,并制定支持负责任的AI使用的伦理框架。
参考文献
- Helgeson SA, Johnson PW, Gopikrishnan N, et al. Human Reviewers’ Ability to Differentiate Human-Authored or Artificial Intelligence-Generated Medical Manuscripts: A Randomized Survey Study. Mayo Clin Proc. 2025 Apr;100(4):622-633. doi:10.1016/j.mayocp.2024.08.029 . PMID:40057868 .
- Karakash WJ, Avetisian H, Ragheb JM, et al. Artificial Intelligence vs Human Authorship in Spine Surgery Fellowship Personal Statements: Can ChatGPT Outperform Applicants? Global Spine J. 2025 May 20:21925682251344248. doi:10.1177/21925682251344248 . Epub ahead of print. PMID:40392947 ; PMCID:PMC12092409 .
- Ruiz AM, Kraus MB, Arendt KW, et al. Artificial intelligence-created personal statements compared with applicant-written personal statements: a survey of obstetric anesthesia fellowship program directors in the United States. Int J Obstet Anesth. 2025 Feb;61:104293. doi:10.1016/j.ijoa.2024.104293 . Epub 2024 Nov 15. PMID:39591877 .