SOFA-2 重新校准：在超过 330 万 ICU 入院患者中进行全球开发和验证的更新器官功能障碍评分

亮点

– SOFA-2 更新了序贯器官功能衰竭评估 (SOFA) 评分，纳入了当代器官支持变量和修订后的阈值，并在来自 9 个国家的 330 多万 ICU 入院患者中进行了验证。
– SOFA-2 对 ICU 死亡率的区分能力略优于原始 SOFA（AUROC 0.79 对 0.77），并在 ICU 第 1 至第 7 天内保持预测有效性。
– 由于数据不足和低内容效度，未纳入胃肠和免疫功能障碍，突显了某些器官系统测量的挑战。

背景

量化急性器官功能障碍的程度是重症监护实践、研究、基准测试和质量测量的核心。序贯器官功能衰竭评估 (SOFA) 评分自 1990 年代首次正式化以来，成为描述和跟踪六个系统（呼吸、心血管、肝、凝血、肾、神经）器官功能障碍的标准工具。SOFA 还支撑了如 Sepsis-3 等诊断框架，并广泛用作随机试验和观察性研究中的结果调整协变量。

临床实践、器官支持技术和病例组合在过去三十年中发生了显著变化。这些变化可能影响生理变量与结果之间的映射，从而限制了原始 SOFA 阈值的当代有效性。SOFA-2 项目旨在通过国际、数据驱动的方法结合专家共识来更新该工具，然后在内部和外部队列中验证修订后的评分，这些队列表征了不同的地理和资源设置。

研究设计

Ranzani 及其同事在 JAMA 上报告了 SOFA-2 的多阶段开发和验证项目（Ranzani 等，2025）。该过程结合了修改后的 Delphi 专家共识来定义候选器官功能障碍构建（第 1-5 阶段）以及跨大型多中心队列的数据驱动分析（第 6-8 阶段）。

关键设计要素：

数据来源：来自 9 个国家（澳大利亚、奥地利、巴西、法国、意大利、日本、尼泊尔、新西兰、美国）的 1319 个重症监护病房，涵盖 2014-2023 年。
样本量：四个多中心队列共 2,098,356 名患者用于评分开发和内部验证；六个外部队列（1,241,114 名患者）提供了外部验证——合并数据集约 334 万次就诊。
主要结局：ICU 死亡率；主要性能指标：评分在 ICU 第 1 天的受试者工作特征曲线下面积 (AUROC)。
次要评估：ICU 第 1 至第 7 天的顺序预测有效性，以及每个器官领域的成分阈值和相关死亡率的检查。

关键发现

总体队列和结局总结

在 334 万次就诊中，ICU 死亡率为 8.1%（270,108 例死亡），各队列特定死亡率范围从 4.5% 到 20.5%。这些广泛的跨度反映了病例组合、资源可用性和区域实践的异质性。

主要性能结果

SOFA-2 保留了六个原始器官领域（脑、呼吸、心血管、肝、肾、止血），但纳入了新变量并修订了评分阈值，以更好地反映当代护理和观察到的功能障碍分布（0 到 4 分）。
第 1 天测量的 ICU 死亡率区分能力略有提高：SOFA-2 AUROC 0.79（95% CI，0.76–0.81）对原始 SOFA AUROC 0.77（95% CI，0.74–0.81）。
当评分在 ICU 第 1 至第 7 天顺序测量时，预测有效性得以保持，支持使用该工具动态监测器官功能障碍。
由于数据不足和可用数据集中缺乏测量共识（内容效度），作者未将胃肠或免疫功能障碍领域纳入 SOFA-2。

效应大小和区分能力的解释

AUROC 的数值改善（约 +0.02）代表了区分能力的适度增加。两个评分的 95% 置信区间重叠，表明虽然点估计值偏向 SOFA-2，但增量增益不大。尽管如此，当应用于非常大的人群或更好地将生理输入与现代器官支持实践对齐时（例如，当阈值反映连续肾脏替代治疗、高流量氧疗或现代血管活性药物的可用性时），适度的 AUROC 改善在临床上可能是有意义的。

组件级别和实用观察

通过重新校准阈值并添加反映现代器官支持的新变量，SOFA-2 旨在提高内容效度（即，评分更好地代表了临床医生今天所说的“器官功能障碍”）。保留六个领域的结构支持与历史数据集的连续性。明确排除胃肠和免疫领域突显了持续的测量差距：这些系统可能缺乏与短期死亡率相关且在不同设置中普遍可用的稳健床边指数。

专家评论

优势

前所未有的规模和地理多样性增强了 SOFA-2 的外部有效性。联邦方法有助于组装大规模数据集，同时保护本地数据治理。
结合 Delphi 指导的内容规范和数据驱动的阈值设定是更新长期临床评分的实用方法。
在独立队列中进行外部验证支持了对过拟合的稳健性。

局限性和注意事项

区分能力的适度提升：AUROC 0.79 仍处于预测 ICU 死亡率的中等范围内。SOFA-2 不是用于个体水平预后确定的决定性工具，而应用于风险分层和监测，而不是单独决策。
数据代表性：尽管地理范围广泛，数据集可能未充分代表未被纳入国家捕获的低收入或农村地区。一些地区的资源限制可能会改变器官支持疗法的部署方式，从而影响评分在当地的表现。
操作影响：在研究、注册和质量项目中替换原始 SOFA 将需要映射策略，以允许历史比较和重新校准用于试验纳入或基准测试的已建立阈值。
变量定义透明度：广泛实施将需要清晰的定义，特别是反映治疗模式的新变量和阈值（例如，当使用高流量鼻导管氧疗与有创通气时，什么是呼吸衰竭）。

临床和研究意义

SOFA-2 为将器官功能障碍测量与当前实践对齐创造了机会。对于临床试验和观察性研究，更新的阈值可以改善风险调整和患者分层。对于床边临床医生和质量项目，采用 SOFA-2 可能更好地反映现代 ICU 中的患者严重程度。然而，在广泛采用之前，利益相关者应考虑在实施研究中前瞻性地评估 SOFA-2 的临床实用性、校准及其对决策的影响，检查亚组（年龄、合并症、资源设置）之间的校准，并开发与原始 SOFA 的交叉映射以保持连续性。

结论和下一步行动

SOFA-2 项目代表了对基础重症监护工具的重要、务实更新。通过专家共识开发并在数百万次入院中验证，SOFA-2 轻微提高了 ICU 死亡率的区分能力，并保留了动态监测特性。这项工作在保持与原始 SOFA 的连续性的同时，必要地现代化以反映当前的治疗和病例组合。

在 SOFA-2 成为新的标准之前，优先事项应包括：

前瞻性实施研究，以评估临床实用性、校准及其对决策的影响。
新变量和阈值的透明规范，提供适合电子健康记录提取的操作定义示例。
开发映射算法，将历史 SOFA 评分转换为 SOFA-2 等效评分，以在注册表和临床试验中保持纵向可比性。
进一步研究可靠的胃肠和免疫功能障碍测量方法，以便在未来评分扩展中使用。

资金和 ClinicalTrials.gov

关于资金来源、竞争利益和试验注册的详细信息已在主要出版物中报告：Ranzani OT 等，JAMA. 2025。读者应查阅原始文章以获取完整的披露声明和试验或注册标识符。

参考文献

1. Ranzani OT, Singer M, Salluh JIF, 等. 序贯器官功能衰竭评估 (SOFA)-2 评分的开发和验证. JAMA. 2025 年 10 月 29 日:e2520516. doi:10.1001/jama.2025.20516 IF: 55.0 Q1 B1. PMID: 41159833 IF: 55.0 Q1 B1.

2. Vincent JL, Moreno R, Takala J, 等. 用于描述器官功能障碍/衰竭的 SOFA (Sepsis-related Organ Failure Assessment) 评分. Intensive Care Med. 1996;22(7):707-710.

3. Singer M, Deutschman CS, Seymour CW, 等. 脓毒症和脓毒性休克的第三国际共识定义 (Sepsis-3). JAMA. 2016;315(8):801-810.

临床医生和研究人员的实用要点

采取明智的态度：SOFA-2 是经过广泛验证的精心开发的更新版本，但仅在区分能力上略有提高。中心和研究人员应计划逐步采用，本地验证 SOFA-2，并将其与临床判断和其他预后工具一起使用，而不是作为治疗决策或试验资格的唯一裁决者。

SOFA-2 重新校准：在超过 330 万 ICU 入院患者中进行全球开发和验证的更新器官功能障碍评分

亮点

背景

研究设计

关键发现