实体瘤疗效评价标准RECIST 1.1版中文

更新时间:2023-03-08 08:11:19 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实体瘤疗效评价标准RECIST(1.1版)

1 背景

1.1 RECIST标准的历史

评价肿瘤负荷的改变是癌症治疗的临床评价的一个重要特征。肿瘤缩小(客观反应)和疾病进展的时间都是癌症临床试验中的重要端点。为了筛查新的抗肿瘤药物,肿瘤缩小作为II期试验端点被多年研究的证据所支持。这些研究提示对于多种实体肿瘤来说,促使部分病人肿瘤缩小的药物以后都有可能(尽管不完美)被证实可提高病人的总体生存期或在随机Ⅲ期试验中有进入事件评价的其他机会。目前在Ⅱ期筛查试验中评价治疗效果的指标中,客观反应比任何其他生物标记更可靠。而且,在Ⅱ和Ⅲ期药物试验中,进展期疾病中的临床试验正越来越利用疾病进展的时间(无进展生存)作为得出有治疗效果结论的端点,而这些也是建立在肿瘤大小的基础上。

然而这些肿瘤端点、客观反应和疾病进展时间,只有建立在以肿瘤负荷解剖学基础上的广泛接受和容易使用的标准准则上才有价值。1981年世界卫生组织(WHO)首次出版了肿瘤反应标准,主要用于肿瘤反应是主要终点的试验中。WHO标准通过测量病变二维大小并进行合计介绍了肿瘤负荷总体评价的概念,通过评价治疗期间基线的改变而判断治疗的反应。然而,在该标准出版后的十几年中,使用该标准的协作组和制药公司通常对其进行修改以适应新的技术或在原始文献中提出了不清楚的地方,这就

导致了试验结果解释的混乱。事实上,各种反应标准的应用导致同一种治疗方法的治疗效果大相径庭。对这些问题的反应是国际工作组于19世纪中期形成,并对反应标准进行了标准化和简化。新的标准,也称为RECIST(实体肿瘤的反应评价标准)于2000年出版。最初的TECIST关键特征包括病变最小大小的确定、对随访病变数目的建议(最多10个;每个器官最大5个)、一维而不是二维的使用、肿瘤负荷的总体评价。这些标准后来被学术团体、协作组和制药工业广泛采用,而该标准的最初端点就是客观反应或疾病进展。另外,当局接受RECIST作为这些评价的合适的标准。

1.2 为什么要更新RECIST?

自从2000年出版RECIST后,许多研究者在前瞻性研究中证实将以二维测量为基础的标准(甚至是三维测量)替换为一维测量的有效性。但也有例外(如间皮瘤),一维测量标准似乎在实体肿瘤Ⅱ期试验中更好。

然而大量问题开始出现需要回答和阐明。如在不影响病人总体预定反应(或试验结束)情况下是否要超过10人才能评估?在随机Ⅲ期试验中,特别当病人没有可测量的病变,而疾病进展,无反应作为主要的端点时,如何应用RECIST?是否或怎样利用新的影像学技术如FDG-PET和MRI?如何评价淋巴结?是否需要确认治疗反应?RECIST在靶向非细胞毒性药物试验中的最大适用范围。RECIST标准的修改包括所有这些问题的更新。

1.3 RECIST1.1版形成过程

RECIST工作组,是由来自于学术研究机构、政府和制药企业的早期药物开发的有经验的临床医生、影像学专家和统计学家组成,他们为RECIST更新定期举行会议,确定对种种变化是否需要做出调整和复习新出现的证据。修订过程中一个最重要的方面是建立一个回顾性的数据库,该数据库的资料来自于工业和学术协作组试验中获得的实体肿瘤相关数据。这个数据库在Jan Bogaerts 和 Patrick Therasse领导下,在EORTC资料中心完成的。该数据库有>6500病人,病变器官>18000个,被用来调查各种问题(如需要病变的数量、治疗反应确认的需要性,淋巴结测量规则)对治疗反应和无疾病进展生存期的影响。这项工作的结果是由RECIST工作组做出评价后在修改的指南中发生了较大变动,并且在这个专期中做出了具体报道。Larry Schwartz and Robert Ford(该指南的共同作者)也提供了来自于推理的关键的数据库,这些数据库形成了这项修改。

这个修改指南的出版被认为是及时的,因为它将各种变化进行了简化、完美化,使临床试验的肿瘤负荷的评价标准化。关键的变动鉴于附录Ⅰ。由于基本的评价方法仍然是解剖,而不是功能上的,因此我们将这个版本命名为RECIST1.1而不是2.0.

1.4 体积或功能评价怎么样?

这就提出了一个问题即是否可以将肿瘤负荷的解剖的一维评价转变为体积评价或功能评价(如动态对比增强MRI或CT或

FDG-PET评价肿瘤代谢)。正如大家看到的,工作组特别是那些从事影像学研究者,相信目前还没有完全的标准化和这些推荐的替代评价方法还不能广泛应用。正如指南后面描述的,唯一的例外是FDG-PET作为确定疾病进展的辅助工具。根据此专期的介绍,我们相信这些有希望的新的方法(如RECIST描述中的增加或替代解剖评价)需要适当的和严格的临床评价。Sargent等的文章表明那些将需要确定这些形式的“端点”的资料类型,如何确定这些标准/形式的地点和时间以提高其可靠性,以至于在Ⅱ期筛查试验中通过与RECIST标准比较,确定那些为有活性的新的药物,而哪些不是。RECIST工作组期望明年出现这样的资料,允许在下一版的RECIST标准中做出适当的变动。

2. 该指南的目的

该指南描述了一个实体瘤测量和成人、小儿癌症的临床试验中肿瘤大小变化客观评估的规定的标准做法。预计这些标准将有效用于所有以客观响应为主要的研究终点的试验,以及承担稳定疾病评估、肿瘤进展或进展时间分析的试验,因为所有治疗效果的衡量都是基于研究中解剖学肿瘤负荷及其变化的评估。本文中对于达到相应标准-表明试剂或治疗方案有积极作用的终点-的患者的比例没有任何假设:这些定义依赖于试验中癌症的类型以及正在研究中的特殊试剂。协议必须包括适当的统计学章节,介绍如何以实验样本大小和决策标准为基础来界定疗效参数。除了为肿瘤反应评估提供定义和标准外,这一指南也为以肿瘤反应为

终点的试验推荐了标准的研究结果报告。

尽管这些指南可用于恶性脑肿瘤的研究,在这一领域关于响应的评估已有单独的标准出版[13]。由于淋巴瘤反应评估的国际准则也已单独出版[14],这一指南不用于恶性淋巴瘤的研究。

最后,许多肿瘤学家在他们日常的临床实践中依靠多次成像研究来跟踪病人的恶性疾病,并在客观和症状双重标准的基础上决定进一步的治疗方案。只有在治疗的肿瘤学专家判断合理时,这些RECIST指南才会在决策中起到重要作用。

3.术前肿瘤检测 3.1 定义

术前,肿瘤病灶/淋巴结将如下分为可测量与不可测量两类 3.1.1 可测量肿瘤

肿瘤性病变:至少有一个不小于(仪器检测)低限的尺寸(测量仪器上最长的直径将被记录下来)必须准确测量:

? 10毫米用CT扫描( CT扫描层厚度不大于5毫米;见成像指南附录II)。

? 临床检验10毫米用卡尺测量(不能用卡尺准确测量的病变,应记录为不可测量的)。

? 20毫米用胸部X光检查。

恶性淋巴结:当用CT扫描(CT扫描层厚度建议不大于5毫米)来评估时,淋巴结短轴必须达到15mm才可将其认为是病理扩大和可测量的。术前和后续工作中,只测量并跟踪短轴长度(见

比较,重复扫描证实是一个明确的新病灶,那么应该判定为恶化。

当FDG-PET评估疗效需额外的研究时,判断恶化将FDG-PET扫描结合互补CT扫描有时候是很有道理的(特别是“新”疾病可能性比较大时)。基于FDG-PET成像来判定为新病灶可根据下面的算法:

a. 基准测试中FDG-PET阴性,随访研究中FDG-PET阳性——因为有新病灶可判定为恶化。

b. 基准测试中没有做FDG-PET,但随访研究中FDG-PET阳性。

若随访研究中FDG-PET阳性的病灶可以被CT证实,可判定为恶化。

若随访研究中FDG-PET阳性的病灶不可以被CT证实,那么需要在随访研究的下一次CT扫描来决定是否是真正的恶化(如此,FDG-PET扫描发现异常的时间就是判定为恶化的时间)

若随访研究中FDG-PET阳性的病灶是CT发现的已经存在的病灶且根据解剖学成像没有恶化,那么就不是恶化。

4.4最佳总疗效的评价

最佳总疗效是指考虑了各种因素后确认的从研究治疗开始到治疗结束的最佳疗效的记录。有时候一种疗效可能直到治疗结束才得以证实,因此实验设计时应该明确:治疗后的评估是否作为决定最佳总疗效的因素。实验设计必须规定被引入的新的治疗在进行治疗之前将怎样对最佳疗效指标起作用。患者的最佳疗效

评价将依赖于靶和非靶病灶的发现,也将考虑新的病灶的出现。而且,由于研究本身和实验设计的需要,可能也需要确定的度量值(参照4.6节)。特别是,在非随机实验中,疗效是最重要的终点,PR或CR的确定被认为是“最佳总疗效”。这将在下面进一步描述。

4.4.1. 时间点疗效

假定在每个实验特定时间点,一种效应评价开始。下页的表1提供了在基线水平有可测量病灶的患者每个时间点总疗效计算情况的综述

Table 1. 时间点疗效:目标/非目标病灶的患者 目标病灶 非目标病灶 新病灶 总疗效

CR =完全缓解,PR=部分缓解,SD=稳定病灶,PD=进展,NE=不能评价

当患者只有非测量性病灶时,用表2

Table 2. 时间点效应:只有非目标病灶的患者 4.4.2.消失病灶的评估和非测量性指标

如果在所有某一特定时间点,没有影像资料和其他测量指标,那么该患者在该时间点是不可评估的。如果在一次评估中只做了一套病灶的测量,那么通常情况下该时间点也被认为是不可测量的,除非有令人信服的证据证明个人消失的病灶不会改变所指定时间点效应。这将最有可能在进展病灶情况下发生。例如,如果一个患者的基线数是50毫米,有三个可测量病灶,随后只有两

个病灶可供评估,但病灶达到了80毫米,我们认为病人处于进展状态,而不考虑其是否有一个病灶消失。

4.4.3.最佳总疗效:所有时间点

最佳总疗效由患者已知的所有数据资料来决定。

在最佳疗效中确认完全或部分缓解的具体时间并不需要的情况:在各个阶段中的最佳总疗效定义为所有时间点是最好的疗效(例如,病人第一次评估为稳定病灶,第二次评估为部分缓解,最后评估为进展,则最佳总疗效评价为部分缓解)。

当认为稳定病灶是最佳疗效时,它也必须符合从基线记录规定的最低时间。

如果病灶稳定不到规定的最短时间,则不能满足统计处时,其他的最佳时间点反应,病人的最佳疗效取决于随后的评估。例如;病人第一次评估为稳定病灶,第二次为进展,而稳定病灶时间达不到最低要求,则其最佳疗效为进展。同一病人第一次评估稳定病灶后如果不能随访,则被认为不可评估。

在最佳疗效中确认需要完全或部分缓解的具体时间的情况:当满足在随后的时间点(一般4周后)所指明的各个标准要求时,可认为完全或部分缓解。在这种情况下,最佳疗效的解释见表3。

Table 3.

如果在第一时间点为完全缓解,然后在随后的时间点出现疾病,即使疾病相对基准标准出现部分缓解,在这个时间点评估为进展(因为疾病在完全缓解后再发)。

最佳疗效取决于稳定病灶的最低期限是否满足。然而,有时评估为“完全缓解”,在随后的扫描提示小的病灶可能依然存在实际上病人在第一时间点为部分缓解而非完成缓解。这种情况下,原来的“完全缓解”应该改为“部分缓解”,最佳疗效也应该是部分缓解。

4.4.4. 疗效评估特别说明

当淋巴结病变已被列入目标病灶,以及淋巴结减少到'正常'的大小(<10毫米),它们在扫描记录仍可有一个测量数据。既使淋巴结已正常这些测量结果仍应该记录,为了不夸大效果应该是以淋巴结变化的大小为依据。正如早先说明的一样,这意味着完全缓解的患者可能在病例报告表中(CRF)没有一个完整的“零点”。在需要确定疗效的实验中,重复的“不可评估”时间点评估可能使最佳疗效的确定复杂化。该实验的分析计划必须说明丢失的数据/评估信息将怎样被用来决定是有效还是进展。例如,在大多数实验中考虑患者不同时间点疗效,将PR-NE-PR作为一个有效的疗效评价是合理的。整体健康状况恶化没有该时间点疾病进展客观证据而需要中断治疗的患者应报告为“症状性恶化”即使中断治疗后,也应积极证实其客观进展。症状性恶化不是客观疗效的描述,只是一个停止治疗的原因。这样的患者的客观疗效情况应由表1、2、3中显示的靶病灶和非靶病灶的评估来决定。限定“早期进展,早期死亡和不可估计”的条件具研究特殊性,应该在实验计划早期明确作出规定(取决于治疗持续时间,治疗

周期)在某些情况下,鉴别残留病灶和正常组织可能很困难。当需要依靠这些结果来评价完全缓解时,建议在下完全缓解的结论前先检查残留病灶(通过细针穿刺活检)。常规影像学认为异常的残留病灶,FDG-PET诊断为纤维化或疤痕,其可能通过这种和活检类似的方式来提高评估效应到CR。 在这种情况下用FDG-PET应该在实验设计中提前描述,同时也应该受疾病特异性相关医学文献报道的适应症的支持。然而,必须了解由于FDG-PET和活检分辨能力和敏感性的限制可能导致CR的假阳性。由于进展的模糊发现(例如非常小而不确定的新病灶;已有病灶中的囊性和坏死改变等),治疗可持续到下一个评估日程。如果在下一个评估时间表中,确认为进展,进展的日期应该是比进展被怀疑的更早的日期。

4.5 肿瘤评价的频次

治疗期间肿瘤再评价的次数应依据研究计划及肿瘤的类型和治疗时程而定。但在二期临床试验中,疗效尚为未知数,因此每一个治疗周期约6-8周的随访是合理的。特定情况可调整评价周期的长短。计划应当具体规定哪些器官一开始即需要进行评价(通常是那些有转移倾向的肿瘤)以及多长时间进行重复评估。通常在每次评估时对于所有标的和非标的病变均需要进行评价。在一些情况下非标的器官可减少评估次数。例如,骨扫描仅在需要确认标的病变完全缓解或怀疑有骨转移时才需要重复进行。

治疗结束后,肿瘤是否需要再评估取决于研究目标是否要看

缓解率或者肿瘤进展/死亡事件发生。若研究目标是事件发生的期间(如进展期、无病生存期、无进展生存期),那么需要根据研究计划进行例行的再评估。特别是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。特别是在随机对照试验中,应依据疗程来进行重复评估(如每治疗6-8周或治疗后每3-4个月),且不可因治疗延误、药物假期或任何可打破治疗平衡的事件而延期。

4.6. 有效期的界定 4.6.1. 确认办法

在以疗效为主要终值的非随机化实验中,确认为缓减或痊愈需要鉴别疗效不是测量错误所致,另外,还要求能对某些原来就要求确认的试验历史数据进行合理的解释(关于此专题请见Bogaerts等的文章)。然而,在所有其它情况中,比如II期或III期的随机化试验、以稳定或恶化为起始终值的试验中,由于不需给试验结果的解释赋值,故疗效的确认可不必要求。不过取消对疗效确认的要求可能会使预防偏倚的中心思想显得更加重要,尤其在非盲试验中。

例如稳定的测量必须符合稳定的起码评估标准——一旦实验介入时刚好是按照实验程序中规定的最短间隔期(一般不短于6-8周)

4.6.2. 总的疗效期

总的疗效期是指从首次符合痊愈或缓减的评估标准日期(首次记录)到复发或恶化客观上确认的第一天(参照试验中记录的恶化最小测量值)

总的痊愈期是指到从达到痊愈评估标准的日期到客观上确认复发的第一天。

4.6.3. 稳定期

稳定期是指从治疗开始的日期(在随机化试验中就是随机日期)起到符合恶化评估标准的第一天,参照试验中(病灶半径)和的最小值(若最小值就是临界值,参照缓减的计算)

稳定期的临床相关性不同试验和不同疾病中变化很大。在特殊的试验中,部分病人达到的若是稳定期的最小值并且还是一个重要的终值,试验程序应该特别指明2种判定稳定的测量方法的最小时间间隔。

注:有效期、稳定期及与恶化无关的存活期会受到基准评估后随访频率的影响。指定标准的随访频率超出了本指南的范围。确定随访频率时要考虑许多参数,如疾病类型、分期、治疗周期和标准操作等。但是,如果试验间进行比较时必须考虑到终值测量精度的这些限制。

4.7. 无恶化存活/率 4.7.1. II期试验

本指南主要把重点放在运用客观的疗效终值到临床II期试验中。在某些情况下,“缓解率”可能不是评估新药的潜在抗癌

活性的最佳方法。比如在界定“无恶化存活”或“无恶化率”的时间点时,可能要考虑其它的替代方法来提供合适的观察新药生物学活性的指标。但是,在一个非受控试验中有一点是清楚的——这些测量方法必须符合评估标准,因为一个明显有希望的观察指标可能与生物学因素(如病例的选择)有关,同时要与干预的影响无关。这样,使用这些终值的II期筛选试验可以设置理想的随机对照组。也有例外,若存在某些肿瘤的行为模式一致时(通常都很不一致)采用非随机化试验是无可厚非的(见van Glabbeke等的举例[20])。但是,这样的例子中,缺乏疗效时谨慎地声明“无恶化存活”或“恶化无关比率”评价基础是很重要的。

4.7.2. III期试验

在进展期肿瘤中进行的III期试验越来越多的用来评估感兴趣的最主要结局——无恶化存活或恶化时间。如果程序规定所有的病人都为可测量疾病,那么恶化的评估是相当简单的。但是,限制进入这部分病人要依评估标准而定:(1)如果研究的疾病有一部分重要的病人需排除,可能导致试验的结果不能普遍通用;(2)甚至延长病例收集的时间。

所以,越来越多的试验允许接纳可测量疾病的病人和只有不可测量疾病的病人。此时,必须谨慎而明确的描述无可测量病灶的病人判定为恶化的依据。另外,这样的情况中,如果记录到的这些有可测量疾病病人的目标病灶最大数目可适当从5个放宽

到3个(根据Bogaerts[10]和Moskowitz[11]的数据), 则试验程序必须指明。

另外,如果可能,有效的肿瘤标志来衡量恶化(卵巢癌中已提出)可能有助于更充分的判定恶化。为核实“明确恶化”对影像学研究或原始成像报告集中盲评在重要药物开发或药物批准决定需要根据此实验结果时可能是需要的。 最后,如前面提到的那样,因为恶化的日期易受评定偏倚的影响,各试验组中的调查计时应该相同。Dancey等的文章有专题[21]提供了随机化试验如何评估恶化的详细讨论。

4.8. 缓减和恶化的独立评论

以客观反应(完全缓减和部分缓减)为初始终值的试验,特别是关键药物开发决策所依据的反应指标的数目最小时,推荐将所有声称的反应给独立于此研究之外的专家进行评论。如果是随机化试验的研究,理想的评审者应该不知道治疗的分组情况,最好能同时给出病人资料及放射影像的评论。

对(病情)恶化的独立评论引出了一些更复杂的话题:例如,在使用基于集中评审的恶化时间代替基于调查员的恶化时间的问题上,因为当前者先于后者时会潜在的引入一些有益资料的删改,这样会出现一些统计学问题。Ford等的文章[22]有专题对这些因素和一些其它的从独立评论中得来的经验教训进行了综述。

4.9.最佳疗效结果报告

4.9.1.Ⅱ期临床试验

若以疗效为主要终点,则进入临床试验的所有患者必须有可测量病灶,在进行结果报告时,所有受试患者均须包含在内,即使存在主要治疗协议的偏差或者疗效不可评价。

患者分为以下各组: 1.完全缓解 2.部分缓解 3.疾病稳定 4.疾病进展

5.疗效不可评价:特定原因(例如:因肿瘤而早期死亡;因毒性早期死亡;肿瘤评估资料不能重复或不完全;其他(特定))

正常情况下,Ⅱ期临床试验中,所有符合标准的患者都应包括在有效率分析的人群中(在一些协议中,应当包括所有接受治疗的患者)。一般首选95%双边可信区间以限定有效率的评估。试验结论应基于所有符合标准或所有接受治疗患者的有效率,而不是基于选定可评价的亚组的有效率。

4.9.2.Ⅲ期临床试验

Ⅲ期临床试验中,有效率评价可用来作为抗肿瘤治疗相关活性的评估,常常是一个次要终点。有效率上观察到的差异可能并不能预测所研究人群临床相关治疗的获益。如果客观有效率被选择作为一个Ⅲ期临床试验的主要终点时(仅仅是肿瘤客观有效率与临床相关治疗获益在所研究人群有明确关系的情况下),Ⅱ期

临床试验中的标准可同样适用,同时所有入组患者须有至少一个可测量病灶。在许多试验中,以有效率为次要终点,而且不是所有的入组患者都有可测量病灶,这种情况下,总体最佳有效率的报告方式必须在设计协议中提前说明。实际上,有效率可能以一个“意向治疗”分析(所有随机患者均包括在内)来报告,或者仅以具有基线可测量病灶的亚组人群分析来报告。设计协议应明确界定疗效结果如何报告,包括所有计划的亚组。RECIST初始版本使Ⅲ期临床试验的设计者在设计协议时,可能采用一个对RECIST指南的不严格的判读(例如,减少测量病灶的数目)为标准,而这在修订后的指南中将不再可行。指南修订的原则是,明确指南的标准应当适用于所有的临床试验,而这些试验是以解剖学上对肿瘤有效或进展的评估为终点的。

临床试验中的标准可同样适用,同时所有入组患者须有至少一个可测量病灶。在许多试验中,以有效率为次要终点,而且不是所有的入组患者都有可测量病灶,这种情况下,总体最佳有效率的报告方式必须在设计协议中提前说明。实际上,有效率可能以一个“意向治疗”分析(所有随机患者均包括在内)来报告,或者仅以具有基线可测量病灶的亚组人群分析来报告。设计协议应明确界定疗效结果如何报告,包括所有计划的亚组。RECIST初始版本使Ⅲ期临床试验的设计者在设计协议时,可能采用一个对RECIST指南的不严格的判读(例如,减少测量病灶的数目)为标准,而这在修订后的指南中将不再可行。指南修订的原则是,明确指南的标准应当适用于所有的临床试验,而这些试验是以解剖学上对肿瘤有效或进展的评估为终点的。

本文来源:https://www.bwwdw.com/article/ocw3.html

Top