亮点
– 一项全面的叙述性综述(2020-2025年)筛选了1,422篇文章,综合了327项原始深度学习(DL)研究,这些研究按检测/诊断(55%)、分割(28%)、预测/预后(5%)和新兴应用(12%)分类。
– 概念验证的DL模型通常能够达到与专家相当的诊断准确性(例如:鼻咽癌检测92%,喉部恶性肿瘤86%,耳科病理学>95%),但预后工作和前瞻性、多中心验证仍然较少。
– 关键实施推动因素包括协调的多中心数据集、标准化采集协议、用于隐私保护模型训练的联邦学习、可解释模型以及结合人类参与的工作流程的前瞻性临床评估。
背景
耳鼻喉科涵盖了一系列广泛的诊断和治疗任务——内窥镜可视化(鼻咽部、喉部)、显微耳科评估、放射学解读和生理信号分析(听力测试、前庭功能测试)。许多任务都是图像或信号驱动的,因此非常适合深度学习(DL),这是一种使用多层神经网络从原始数据中学习层次特征的人工智能(AI)子集。临床负担——晚期头颈部癌症、慢性中耳炎、听力损失——以及专科专业知识获取的不均衡激发了对可以提高诊断准确性、分诊、术中决策支持和个性化设备优化的算法辅助的兴趣。
研究设计(综述范围和方法)
Novi等人的叙述性综述(JAMA Otolaryngol Head Neck Surg. 2025)筛选了2020年至2025年的英文出版物,纳入了327项应用于耳鼻喉科的深度学习原始研究。这些研究被分为检测和诊断(179项研究)、预测和预后(16项研究)、图像分割(93项研究)和新兴应用(39项研究)。所包含的文献包括概念验证的回顾性模型开发和内部验证研究,但多中心数据集或前瞻性临床试验相对较少。
主要发现和结果
总体概况
深度学习在耳鼻喉科多个子领域迅速发展:内窥镜图像解读(鼻咽部、喉部、鼻窦腔)、耳科成像和鼓膜分析、CT/MRI上的放射学肿瘤检测/分割以及助听设备的生理信号优化。大多数研究集中在分类任务(模型能否检测疾病?),其次是分割(划分解剖结构或病变)和少量涉及预后预测(生存率、复发)或实时术中辅助(器械跟踪、标志点识别)的研究。
检测和诊断性能
在179项以检测为重点的研究中,许多报告了与单个专家相当甚至更好的性能指标(准确率、敏感性、特异性、ROC曲线下面积)。综述中报告的一些代表性数据包括:
- 鼻咽癌检测:在选定的基于图像的模型中,报告的汇总准确率约为92%。
- 喉部恶性肿瘤分类:在验证数据集中,报告的准确率约为86%。
- 耳科病理学(如鼓膜疾病):在精选的图像集中,报告的准确率通常>95%。
这些性能数据通常来自回顾性的、通常是单中心的数据集,经常使用内部交叉验证或保留集;对外部地理不同队列的验证较少见。
图像分割
93项研究涉及分割,可靠地划分了解剖区域(气道、副鼻窦、肿瘤边界),并展示了在规划、体积测量和放疗靶区划分中的实用性。分割模型在受控数据集中表现出一致的性能指标(Dice系数通常在可接受范围内),支持下游任务如自动化测量和配准。
预测和预后
预后应用相对有限(16项研究)但前景广阔。例子包括口咽癌的生存分层和慢性鼻窦炎的复发预测。这些研究通常将影像特征与临床元数据结合以增强预测能力。然而,研究数量较少且终点异质性限制了关于临床实用性的明确结论。
新兴术中和设备优化应用
综述中提到的新兴用途包括实时手术器械跟踪、术中标志点识别(对于微创颅底手术和内窥镜鼻窦手术有用)以及耳蜗植入映射和助听器个性化优化的算法。这些应用强调低延迟推理和人机接口,但很少有进展到早期可行性演示之外。
方法论观察
常见的方法论主题包括对带有注释的数据集进行监督学习的依赖、数据集人口统计学和标注协议报告的差异、频繁出现的类别不平衡、有限的外部测试以及置信区间或校准指标报告的不一致。一些研究采用了可解释性方法(显著图、注意力可视化),但很少经过严格的临床用户评估。
专家评论:优势、局限性和注意事项
优势:集体研究表明,深度学习可以从耳鼻喉科的内窥镜图像、放射学和生理信号中提取临床上相关的模式。在高质量注释数据集存在的情况下,模型通常能达到接近专科医生的性能,并提供可重复的分割,可能简化工作流程。
局限性和关键注意事项:
- 数据集代表性不足和偏差:许多数据集是单中心的,富含阳性病例,或缺乏社会人口多样性。谱系偏差和泛化能力降低的风险较高。
- 外部和前瞻性验证:很少有研究报告多中心外部验证或前瞻性影响分析,这些分析衡量患者中心的结果(避免诊断延误、改变治疗决定、减少伤害)。
- 可解释性和医生信任:事后可视化(如热图)有帮助但不足以满足需求。医生需要透明的模型,这些模型能提供推理、不确定性量化和明确的失败模式。
- 监管和整合障碍:实际部署需要强大的图像采集标准化管道、数据治理、HIPAA合规架构以及考虑算法更新的监管许可。
- 操作考虑:延迟、用户界面设计以及与现有电子健康记录和手术工作流程的集成常常被忽视。
临床采用路径:实用建议
为了从概念验证转变为常规临床工具,该领域应优先考虑:
- 高质量、多中心数据集:共享、注释良好的数据集,具有标准化采集协议和清晰标签,能够实现稳健的训练和外部验证。
- 联邦和隐私保护学习:联邦学习可以增加样本多样性,同时保护患者隐私和机构数据控制。
- 标准化报告和前瞻性验证:采用既定的AI报告框架和前瞻性、理想情况下随机的临床影响研究,衡量诊断准确性、工作流程效率和患者结果。
- 可解释性和不确定性量化:模型应提供可操作的解释和校准概率;结合人类参与的系统可以让医生覆盖或确认算法建议。
- 偏倚缓解和公平性测试:对种族、年龄、性别、设备类型和成像设备进行常规亚组分析;采取缓解策略防止健康差距扩大。
- 跨学科合作:临床医生、数据科学家、工程师、伦理学家和监管专家必须共同设计模型和部署策略。
结论
这篇叙述性综述综合了一篇加速发展的文献,表明深度学习在基于图像的诊断、分割、预后建模和术中支持方面具有真正的潜力。然而,大多数已发表的工作仍处于概念验证阶段,迫切需要代表性的、多中心的数据集、透明的模型以及严格的事前验证,以证明有意义的临床影响。一个有度量、跨学科的方法——结合联邦数据策略、可解释性框架和结合人类参与的部署——将是将算法潜力转化为安全、公平的临床工具的关键。
资金和clinicaltrials.gov
有关综述中包含的研究的资金声明和试验注册,请参阅原始文章:Novi SL, Navarathna N, D’Cruz M, Brooks JR, Maron BA, Isaiah A. 深度学习在耳鼻喉科的应用:叙述性综述。JAMA Otolaryngol Head Neck Surg. 2025年11月13日。doi: 10.1001/jamaoto.2025.3911. 网络版提前发布。PMID: 41231484。
参考文献
1. Novi SL, Navarathna N, D’Cruz M, Brooks JR, Maron BA, Isaiah A. 深度学习在耳鼻喉科的应用:叙述性综述。JAMA Otolaryngol Head Neck Surg. 2025年11月13日。doi: 10.1001/jamaoto.2025.3911. 网络版提前发布。PMID: 41231484。

