整合患者报告结果显著提高癌症试验中毒性评估的可靠性

亮点

在一项多国随机对照试验中，获得患者报告结果（PRO）数据显著提高了17种症状性不良事件中13种的评分者间一致性（ICC）。
评估一致性的最大改进发生在主观症状上，如记忆力减退、易怒和注意力不集中。
该研究支持系统地将PRO纳入肿瘤学临床试验，以减少医生漏报并提高安全性数据的准确性。
尽管大多数症状的可靠性有所提高，但一些客观症状如腹泻显示了意外的结果，这表明需要对多源数据进行细致的解读。

仅由医生进行毒性分级的局限性

在现代肿瘤学领域，通用不良事件术语标准（CTCAE）是报告治疗相关毒性的通用语言。然而，几十年来，临床医生和研究人员认识到这种以医生为中心模式的一个根本缺陷：症状性不良事件的主观性质。当医生或护士对患者的疲劳、恶心或认知功能进行分级时，他们实际上是在通过专业视角解释患者的体验，而这一视角可能受到临床偏见、时间限制或缺乏对患者日常生活的详细了解的影响。

证据一致表明，与患者自身相比，医生倾向于低估症状性不良事件的频率和严重程度。这种差异不仅仅是不同视角的问题；它对药物安全性概况、I/II期试验中的剂量寻找以及用于监管批准和临床指南的生活质量数据有深远影响。为了解决这一问题，有人提出将患者报告结果（PRO）整合进来作为‘真实’这些评估的方法。最近发表在《柳叶刀·肿瘤学》上的多国试验的核心问题是，是否在临床决策点直接向医生提供这些PRO数据可以提高其CTCAE评分的可靠性和一致性。

研究设计与方法

这项多国、开放标签、随机对照试验在十个不同国家的11家医院进行，确保了多样性和代表性癌症人群。该研究招募了1067名接受各种癌症诊断并正在进行化疗、免疫疗法或放疗的成年患者。广泛的纳入标准允许一个‘混合癌症人群’，反映了肿瘤学实践的真实复杂性。

干预与随机化

患者按1:1的比例随机分配到干预组或对照组。在干预组中，医生（肿瘤学家或经过培训的护士）在进行CTCAE评估前或期间可以访问患者的PRO数据——具体包括欧洲癌症研究与治疗组织（EORTC）QLQ-C30量表和EORTC项目库中的16个额外项目。对照组的医生则使用传统的临床访谈方法进行CTCAE评分，没有访问PRO数据的机会。

终点与统计分析

主要终点是CTCAE评分的评分者间一致性，通过组内相关系数（ICC）测量。为了确保数据的严谨性，两名独立医生对每位患者进行了CTCAE评分。ICC是一种统计度量，描述同一组内的单元彼此之间的相似程度；在此背景下，它衡量了两位独立医生之间的一致性。更高的ICC值表示更高的可靠性和更少的‘噪音’毒性数据。

关键发现：可靠性范式转变

试验结果为PRO整合的价值提供了令人信服的证据。2020年至2024年间，分析了1013名患者的数据。结果表明，在评估的17种症状性不良事件中，干预组的评分者间一致性显著高于对照组。这表明，当医生能够访问患者自己的报告时，他们的独立评估变得更加一致，可能是因为他们基于更标准化和准确的患者体验基线进行临床判断。

主观性差距

在难以通过体检或实验室测试量化症状的可靠性方面，最显著的改进出现在：

记忆力减退：ICC差异为0.176（p < 0.0001）
易怒：ICC差异为0.161（p < 0.0001）
注意力不集中：ICC差异为0.157（p < 0.0001）
抑郁：ICC差异为0.126（p = 0.0012）
焦虑：ICC差异为0.109（p = 0.0018）

对于这些神经精神和认知症状，医生的传统评估通常是基于短暂互动的‘猜测’。PRO数据提供了一个结构化的病史，锚定了医生的评分，从而导致观察到的评分者间一致性增加。

腹泻异常

有趣的是，研究发现，对于腹泻，对照组的可靠性实际上更高（ICC差异-0.066；p = 0.013）。这一异常现象值得进一步检验。腹泻通常根据每天排便次数的变化进行分级——这是一个相对客观的指标。可能是PRO数据捕捉到了患者的痛苦或感知到的腹泻严重程度，引入了主观元素，导致医生偏离了CTCAE严格的数值分级标准，从而降低了评分者间的一致性。

无显著差异

对于疼痛、皮疹和周围感觉神经病变，可靠性没有显著差异。对于皮疹，这是可以预期的，因为它是视觉上的客观发现。对于疼痛，缺乏差异可能表明医生已经非常关注询问和记录疼痛水平，或者现有的标准护理中使用的视觉模拟量表已经类似于PRO的作用。

专家评论与临床意义

这项试验的发现对未来的肿瘤学临床试验设计具有直接的意义。历史上，FDA和EMA对‘患者报告的CTCAE’（PRO-CTCAE）作为次要终点表现出兴趣。这项研究更进一步，建议PRO不仅应作为次要终点，还应作为用于告知‘官方’基于医生的CTCAE评分的主要工具。

通过提高ICC，PRO数据本质上减少了临床试验中的‘测量误差’。在试验环境中，较低的测量误差意味着更高的统计功效和更准确的药物安全性概况表示。对于日常实践中的临床医生，这些数据表明，在咨询前使用结构化的患者问卷可以简化就诊过程，确保像‘脑雾’或易怒这样的细微但重要的症状不会被忽视或误评。

解决研究局限性

虽然结果是稳健的，但试验的开放标签性质是一个局限性。医生知道他们是否看到了PRO数据，这可能会在理论上影响他们在评估中的努力。此外，研究集中在症状性事件上；它不能替代基于实验室和影像学的毒性监测需求。挑战在于如何在高容量诊所中整合这一点，同时不给医疗团队增加显著的行政负担。

结论

将EORTC患者报告结果数据整合到CTCAE评估过程中代表了肿瘤学试验方法的重大进展。通过弥合患者体验与医生评估之间的差距，PRO提高了症状性不良事件检测的可靠性，特别是那些在临床报告中经常被低估的认知和情感毒性。随着肿瘤学向更加以患者为中心的护理发展，‘患者的声音’不仅是一种伦理上的必要，也是一种统计上的必要。

资助与ClinicalTrials.gov

本研究由EORTC生活质量小组资助。该试验已在ClinicalTrials.gov注册，编号NCT04066868。

参考文献

Wintner LM, 等. 在混合癌症人群中使用或不使用EORTC患者报告结果数据的CTCAE评估的评分者间可靠性：一项多国、开放标签、随机对照试验。Lancet Oncol. 2026;27(2):233-242。
Bentley TG, 等. 患者报告结果在癌症临床试验中的应用：2017-2022年FDA批准回顾。J Natl Cancer Inst. 2023。
Basch E. 药物安全性报告中缺失的患者声音。N Engl J Med. 2010;362(10):865-869。

整合患者报告结果显著提高癌症试验中毒性评估的可靠性

亮点

仅由医生进行毒性分级的局限性

研究设计与方法

干预与随机化

终点与统计分析

关键发现：可靠性范式转变

主观性差距

腹泻异常

无显著差异

专家评论与临床意义

解决研究局限性

结论

资助与ClinicalTrials.gov

参考文献

Comments

发表回复取消回复

亮点

仅由医生进行毒性分级的局限性

研究设计与方法

干预与随机化

终点与统计分析

关键发现：可靠性范式转变

主观性差距

腹泻异常

无显著差异

专家评论与临床意义

解决研究局限性

结论

资助与ClinicalTrials.gov

参考文献

Comments

发表回复 取消回复

发表回复取消回复