在MASH试验中标准化肝脏活检解释：国际MASLD病理学组的关键共识声明

引言与背景

代谢功能障碍相关性脂肪性肝炎（MASH），作为新定义的代谢功能障碍相关性脂肪性肝病（MASLD）谱的一部分，仍然是肥胖和2型糖尿病成人肝病发病率的主要原因。肝脏活检的组织学评估——分级坏死炎症活动度和分期纤维化——仍然是大多数治疗性临床试验选择患者和主要终点的金标准。然而，病理学家在定义和评分核心组织学特征（尤其是肝细胞气球样变、小叶炎症和纤维化分布）方面存在差异，导致了主要问题：高观察者间和观察者内变异度、试验入组不一致（筛查失败）以及可变的安慰剂反应率，这些都可能掩盖治疗效果。

为了解决这些问题，国际MASLD病理学组（IMPG），由25名专家肝病病理学家和一名统计学家组成的小组，制定了共识立场声明，以标准化组织学定义、标本处理、评分使用和读片工作流程，特别针对MASH临床试验。他们的工作发表在《肝脏病学杂志》（Lackner等，2025年），通过多阶段德尔菲过程得出了一个稳健的推荐集，旨在提高可重复性、促进多中心试验并支持生成高质量注释数据集以供机器学习。

新指南亮点

IMPG共识的关键要点：

– 严格的标准化活检处理、染色和报告方法减少了变异度，提高了试验的完整性。
– 对核心组织学特征（脂肪变性、气球样变、小叶和门管区炎症、Mallory-Denk小体和纤维化模式）进行了明确的操作定义，以减少病理学家之间的解释漂移。
– 提供了当前使用的评分系统（NASH临床研究网络[NASH-CRN]和SAF/FLIP）的一致应用指导，以及如何将其与试验终点对齐。
– 推荐强调集中阅读模式（两名独立盲法读者进行裁决）、预定义培训/校准和持续的质量控制。
– 陈述设计为AI就绪：标准化标签、数字化标准、注释规范和元数据被指定以实现可重复的监督机器学习。

重要数值结果：德尔菲过程的重要成果：IMPG工作组生成了278条主要陈述。在第一轮德尔菲过程中，162条陈述获得了≥80%的同意。经过修订和讨论后，第二轮产生了192条最终陈述，获得≥80%的同意。

更新的推荐意见和关键变化

IMPG陈述不是MASLD管理的临床实践指南，而是提供标准化的病理程序和定义用于临床试验。与先前不太正式的方法相比，新的或澄清的内容包括：

– 明确的最低活检质量指标用于试验纳入和报告（标本处理、固定、长度和门管区推荐）。
– 操作化的组织学气球样变和小叶炎症定义，以减少主观变异。
– 明确推荐使用的染色方法（HE加结缔组织染色）以及何时需要免疫组化或特殊染色。
– 标准指导现有评分系统（NASH-CRN NAS、SAF）的使用以及如何解释复合终点（例如，脂肪性肝炎的缓解与纤维化退缩）。
– 中央读片工作流程、校准练习和裁决一致性的详细推荐。
– 生成AI兼容数据集的框架：切片数字化标准、注释粒度和所需元数据字段。

这些共识推荐意见建立在早期基础评分系统（Kleiner等2005年NASH-CRN；Bedossa等2012年SAF）和主要学会的临床实践指南（AASLD 2018；EASL 2016）的基础上，专注于试验相关的病理标准化和可重复性。

按主题推荐意见

以下是按主题组织的实用、小组认可的推荐意见。对于IMPG采用共识（德尔菲）方法的情况，小组的同意阈值（≥80%）已注明，而不是传统的证据分级。

活检获取和处理
– 最低质量指标（共识）：建议尽可能达到至少15–20毫米的核心长度，并记录门管区数量。注意：试验应预先定义可接受的标本长度和低于阈值时重新取样或排除的计划。（≥80%同意）
– 固定和处理：立即放置在10%中性缓冲甲醛中，常规石蜡包埋，全层切片。在元数据中记录冷缺血时间和固定时间。（≥80%同意）
– 染色：必须进行HE染色和结缔组织染色（Masson三色或Sirius红）。仅在特定终点判定需要时使用额外染色（如CK8/18、泛素）。（≥80%同意）

组织学特征定义
– 脂肪变性：按含有大泡性脂肪变性的肝细胞百分比评分（标准区间：66%），与之前的评分系统一致。（≥80%同意）
– 肝细胞气球样变：小组认可的操作描述符（体积增大、胞浆稀疏、细胞轮廓圆润）并提供了训练集的光镜照片示例。该小组强调区分气球样变与糖原核或伪影。（≥80%同意）
– 小叶炎症：定义为每200倍视野内的炎症灶数量和类型，提供了计数方法和与门管区炎症区别的指导。（≥80%同意）
– Mallory-Denk小体和凋亡小体：建议明确标注其存在；根据试验方案，其存在对活动评分有贡献。（≥80%同意）

纤维化分期和报告
– 单独进行活动（分级）和纤维化（分期）——纤维化必须独立于活动评分进行分期。（≥80%同意）
– 使用已验证的序数纤维化量表：小组建议继续使用经过验证的序数纤维化量表（如NASH-CRN 0–4期或SAF纤维化分期），并为窦周（3区）、门管区、桥接和肝硬化改变提供明确的定义。（≥80%同意）
– 记录模式和分期（例如，“2期窦周和门管区纤维化”）以支持机制解释。（≥80%同意）

评分系统和试验终点
– 建议试验方案预先指定将使用的评分系统（NASH-CRN或SAF）以及如何操作化复合终点（例如，“脂肪性肝炎的缓解且无纤维化恶化”或“≥1期纤维化改善”）。（≥80%同意）
– 避免在不同读者之间混合评分系统而没有预先指定的交叉映射。（≥80%同意）
– 对于纤维化终点，要求由同一读者对配对活检进行中央重新分期，并设定标准化的洗脱期以最小化漂移。（≥80%同意）

集中阅读、读者培训和裁决
– 建议II/III期试验采用集中阅读。首选模式：两名独立盲法专家读者，对于超出定义阈值的不一致病例，预先确定裁决路径（第三名读者或共识会议）。（≥80%同意）
– 强制性预试验校准会，使用注释的训练切片，并在试验期间持续进行质量控制和一致性监测。（≥80%同意）
– 预先定义可接受的一致性指标（例如，kappa阈值或百分比一致性），并在一致性低于阈值时自动触发再培训或裁决。（≥80%同意）

数字化、注释和AI准备
– 建议进行诊断分辨率下的全切片成像；元数据必须包括扫描仪类型、物镜放大倍数和文件格式。（≥80%同意）
– 标准化注释规范：标记脂肪变性、气球样变、炎症和纤维化的区域；尽可能包括像素级和区域级标签。（≥80%同意）
– 鼓励共享去标识化的注释数据集，明确许可用于模型开发和独立验证。（≥80%同意）

特殊情况和注意事项
– 对于有明显碎裂、固定不良或明显伪影的活检，应予以标注；如果低于预设的质量阈值，则根据协议从主要疗效分析中排除。（≥80%同意）
– 对于罕见的组织学模式（例如，自身免疫特征、胆汁淤积模式、重叠综合征），建议进行额外的临床相关性评估，并根据试验设计适当排除标准MASH终点，除非试验设计明确允许。（≥80%同意）

专家评论和见解

IMPG共识是由经验丰富的肝病病理学家塑造的，反映了广泛的共识和对关键悬而未决争议的认可。

强烈共识领域
– 和谐一致的操作定义显著降低了观察者间变异度，提高了试验效率。
– 集中阅读与预设的培训/校准对于多中心试验至关重要。
– AI将在未来发挥越来越重要的作用，但需要标准化的高质量标注数据。

持续辩论领域
– 在某些情况下，构成肝细胞气球样变的确切形态学阈值仍然具有挑战性；强调了图谱和训练切片的作用。
– 纤维化评估的连续（定量）与序数（半定量）方法：虽然定量数字测量很有前景，但小组认识到监管和历史依赖于序数阶段，因此建议在可行的情况下采用平行方法。
– 最小活检长度：虽然较长的核心可以减少抽样误差，但在多中心试验中的实际约束（患者耐受性、操作技能）可能使严格的截止值难以实现。试验应预先指定可接受的范围和次优核心的处理方式。

小组确定的未来趋势包括更广泛地采用数字病理学，开发验证的图像分析算法以量化活动和纤维化，以及国际合作汇集注释数据集以加速AI验证。

对临床医生、赞助商和病理学家的实际影响

对于试验赞助商和研究者
– 将IMPG推荐意见纳入方案附录：活检获取SOP、中央读片工作流程、校准计划和活检质量阈值。
– 如果使用标准化的标本处理和中央读片，预计因组织学相关差异导致的筛选失败将减少。

对于病理学家和中央读片者
– 参与校准练习，使用IMPG提供的图谱示例和注释规范来对齐解释。
– 明确记录和报告标本的充分性和技术伪影；这些项目对于监管终点很重要。

对于招募患者的诊所
– 与介入医师协调，优先获取足够的核心（长度、固定协议），并确保快速处理和元数据捕获以符合试验条件。

患者案例（说明性）
约翰，一位52岁的肥胖和2型糖尿病男性，同意参加一项3期MASH试验的筛查。进行了经皮肝活检，测得长度为18毫米；及时固定并附带操作者元数据提交。由两名盲法病理学家（已在试验训练集上校准）进行中央读片报告：脂肪变性34–66%（评分为2），明显的气球样变（评分为1），小叶炎症2个焦点/200倍（评分为1），NAS=4，2期窦周和门管区纤维化。试验的预定义纳入要求为NAS≥4和纤维化2–3期；约翰被纳入。52周后的配对活检按照相同的SOP处理，并由相同的读片者读片，以最大化可比性。

参考文献

1. Lackner C, Gouw ASH, Alves V, et al. Consensus position statements for the standardized application of histological grading and staging systems in MASH clinical trials. J Hepatol. 2025 Oct 8. doi:10.1016/j.jhep.2025.09.019. (Epub ahead of print)
2. Kleiner DE, Brunt EM, Van Natta M, et al. Design and validation of a histological scoring system for nonalcoholic fatty liver disease. Hepatology. 2005;41(6):1313–1321.
3. Bedossa P, Poitou C, Veyrie N, et al. Histopathological algorithm and scoring system for evaluation of liver lesions in patients with NAFLD. Hepatology. 2012;56(5):1751–1760.
4. Chalasani N, Younossi Z, Lavine JE, et al. The diagnosis and management of nonalcoholic fatty liver disease: Practice guidance from the American Association for the Study of Liver Diseases. Hepatology. 2018;67(1):328–357.
5. European Association for the Study of the Liver (EASL), European Association for the Study of Diabetes (EASD), European Association for the Study of Obesity (EASO). EASL–EASD–EASO Clinical Practice Guidelines for the management of non-alcoholic fatty liver disease. J Hepatol. 2016;64(6):1388–1402.

结束语

IMPG共识声明是朝着MASH临床试验中严格、可重复的组织学终点迈出的重要一步。通过标准化标本处理、统一定义、优化集中读片工作流程和提供AI就绪注释框架，这些建议应减少变异度，提高试验信号检测能力，并加速MASLD/MASH的可靠药物开发。

在MASH试验中标准化肝脏活检解释：国际MASLD病理学组的关键共识声明

引言与背景

新指南亮点

更新的推荐意见和关键变化

按主题推荐意见

专家评论和见解

对临床医生、赞助商和病理学家的实际影响

参考文献

结束语

Comments

发表回复取消回复

引言与背景

新指南亮点

更新的推荐意见和关键变化

按主题推荐意见

专家评论和见解

对临床医生、赞助商和病理学家的实际影响

参考文献

结束语

Comments

发表回复 取消回复

发表回复取消回复