亮点
- AI模型通过分析微笑视频,在检测帕金森病(PD)方面达到了高准确性(最高达87.9%)。
- 迄今为止最大的数据集:1,452名参与者,其中391人患有PD,使机器学习更加稳健。
- 筛查方法在北美和孟加拉国人群中显示出强大的泛化能力。
- 在临床资源有限的地区,该方法具有可扩展、远程和低成本的PD筛查潜力。
研究背景与疾病负担
帕金森病(PD)是一种以运动症状和非运动症状为特征的进行性神经退行性疾病,包括震颤、强直、运动迟缓以及常被忽视的面部表情减少(低表情症)。早期和准确的诊断对于优化治疗至关重要,但PD经常被漏诊,尤其是在神经学专业人员不足的地区。传统的诊断主要依赖于面对面的临床评估,但由于地理、社会经济或资源限制,这对许多人群来说是不可行的。这种对可访问、可扩展筛查工具的需求推动了数字技术和人工智能(AI)辅助诊断方法的研究。
研究设计
这项研究发表在《NEJM AI》(2025年),报告了迄今为止最大的基于视频的面部表情数据集,用于PD筛查,共包括1,452名来自多个国家的参与者,主要来自北美和孟加拉国。其中,391人患有PD(300人为临床诊断;91人为自我报告)。通过社交媒体、电子邮件推广、PD研究登记、临床诊所、PD健康中心以及孟加拉国的高风险识别等方式招募了参与者。
参与者使用在线工具记录自己模仿三种面部表情——微笑、厌恶和惊讶——无论是在家中还是在临床环境中。本次分析的重点是微笑视频。先进的计算机视觉算法提取了面部标志点和基于动作单元的特征,以量化低表情症。机器学习模型根据这些特征训练区分PD和非PD。使用来自美国诊所和孟加拉国队列的外部数据集测试了模型的泛化能力。
关键发现
AI模型表现出以下性能:
- 内部10折交叉验证(微笑视频): 准确率 87.9 ± 0.1%,AUROC 89.3 ± 0.3%,敏感性 76.8 ± 0.4%,特异性 91.4 ± 0.3%,PPV 73.3 ± 0.5%,NPV 92.7 ± 0.1%。
- 美国诊所测试集: 准确率 80.3 ± 1.6%,AUROC 83.3 ± 1.4%,敏感性 80.0 ± 2.5%,特异性 80.5 ± 2.0%。
- 孟加拉国测试集: 准确率 85.3 ± 1.4%,AUROC 81.5 ± 1.8%,敏感性和特异性保持较高,但由于疾病患病率较低,PPV降至35.7 ± 4.8%。
除孟加拉国测试集中女性参与者的诊断准确性较高外,未观察到性别和种族亚组之间的显著性能偏差。
这些结果表明,通过AI检测微笑引起的低表情症在不同环境和人群中具有较强的鲁棒性。高阴性预测值(NPV)表明,该方法可用作广泛筛查工具,以排除低患病率环境中的PD。
专家评论
AI驱动的数字表型分析——特别是低表情症的量化——代表了神经学领域的一个有前景的方向。通过智能手机或网络摄像头捕捉简单的微笑作为诊断生物标志物具有吸引力,因为其普遍可访问且用户培训要求极低。研究的多站点数据集和外部验证增强了其临床相关性。
然而,需要注意几个局限性:
- 自我报告的PD病例(占PD组的23%)可能导致诊断分类错误。
- 在低患病率环境中,PPV较低,表明阳性筛查结果需要进一步的临床评估。
- 孟加拉国队列中按性别表现的差异提示需要进一步研究文化或表型表达的变异。
- 目前该模型的重点是筛查,而不是诊断,并不涉及PD亚型或疾病分期。
从公共卫生的角度来看,此类AI工具可以填补神经学护理的空白,促进早期专科转诊,并支持大规模流行病学监测,特别是在服务不足的地区。将其整合到远程医疗平台或社区筛查计划中可以改变PD诊断的路径。
结论
基于AI的微笑视频分析为在不同人群中筛查帕金森病提供了一种可行、准确且可扩展的方法。虽然不能替代专家的临床诊断,但该技术可以扩大筛查的覆盖面,分诊高危个体,并减少诊断延迟,特别是在资源有限的环境中。未来的研究方向包括改进算法以提高特异性,整合多模态数字生物标志物,并评估实际应用效果。
参考文献
- AI-Enabled Parkinson’s Disease Screening Using Smile Videos. NEJM AI 2025;2(7) DOI: 10.1056/AIoa2400950
- Dorsey ER, et al. The Emerging Evidence of the Parkinson Pandemic. J Parkinsons Dis. 2018;8(s1):S3-S8.
- Postuma RB, et al. MDS临床诊断标准 for Parkinson’s disease. Mov Disord. 2015;30(12):1591-1601.