研究背景
大肠癌或结直肠癌(colorectal cancer, CRC)是最常见的癌症类型之一。在症状出现之前的早期检测,可以使治疗肠癌变得更加容易并增加生存机会。参加肠癌筛查计划可以早期发现和切除大的或晚期的息肉(晚期腺瘤),这些息肉被认为是肠癌的前兆。简单的粪便测试用于检测粪便中是否存在血液,这可能是肠癌或息肉的早期症状。人群筛查中使用的两种粪便血液测试是:愈创木脂粪便隐血试验(guaiac-based faecal occult blood tests, gFOBTs)和免疫化学法粪便试验(faecal immunochemical tests, FITs)。大型的、以往的研究表明,使用gFOBTs进行筛查可以降低死亡率。在1项对文献的系统综述中,我们比较了这两种测试的准确性,以评估哪种测试在人群中筛查肠癌以及晚期肿瘤(包括肠癌和晚期息肉)的效果最好。
研究特征
我们对线上数据库进行了详细检索,以查找评估或比较这两种测试(其中之一)在CRC筛查中的研究。本综述仅纳入在40岁以上无症状的平均风险个体的中开展的研究。用于比较测试结果的参考标准是使用通过肛门的软管上的摄像头对大肠进行全面内窥镜检查(结肠镜检查)。我们评价了两种类型的研究:所有受试者都接受了粪便检查和结肠镜检查的研究,以及仅对粪便检查结果不佳的受试者进行结肠镜检查的患者(在这些研究中,对粪便检查后未进行结肠镜检查的受试者进行了至少一年的随访,以确定他们是否会被诊断出患有结直肠癌)。证据更新至2019年6月25日。我们于2021年9月14日进行了一次补充检索,纳入了另一项可能符合条件的研究,目前正在等待分类。
测试特征
gFOBT“被筛查者”,即那些参与筛查的人,被指示从连续3次排便中收集2个粪便样本,并将其涂抹在6个粪便板上。如果大便中有血,面板会变色。确定需要结肠镜检查的变色面板数量因筛查项目而异。在大多数筛查计划中,单一变色的面板就足以确定需要进一步检查;然而,在其它情况下,变色面板的数量设定为6个当中5个面板变色。
FIT筛查者被指示从1次排便中收集1份粪便样本,并用刷子或抹刀将其收集到试管中。然后将该管送到实验室,在那里可以测量粪便中的血液浓度。根据该浓度,高于或低于所谓的截断值或阈值,被筛选者被建议进行结肠镜检查。这个截断值因筛查计划而异。
主要结果
我们分析了63项研究,包括了近400万人。本综述的结果表明,理论上讲,如果有10,000人参加粪便血液测试,其中有100人患有CRC:
- 在这100名CRC患者中,有24人将在接受FITs筛查时漏诊。
- 在这100名CRC患者中,有61人将在接受gFOBTs筛查时漏诊。
我们还研究了患有大息肉、CRC或两者兼有的受试者。理论上讲,如果有10,000人参加粪便血液测试,其中1000人患有大息肉、CRC或两者兼有:
- 在1000名患有大息肉、CRC或两者兼有的患者中,有850人将在接受gFOBTs筛查时漏诊。
- 在1000名患有大息肉、CRC或两者兼有的患者中,有670人将在接受FITs筛查时漏诊。
在这个理论上的10,000名被筛查者中:
- 将向594名接受FITs 筛查的患者提供“不必要的”结肠镜检查——因为他们没有CRC,所以没有必要;和
- 将向594名接受gFOBTs筛查的患者提供“不必要的”结肠镜检查。
从上述结果中,我们可以看到FITs比gFOBTs漏诊的CRC人数更少,而在两种血液测试中相同数量的被筛查者接受了不必要的结肠镜检查。
本综述中的研究结果有多可靠?
研究结果是可靠的,因为纳入的研究大多符合我们在开始综述之前指定的质量标准。
未来研究
需要更多的研究来调查,FIT筛查从长远来看是否可以减少肠癌病例和死亡的数量,并将这些发现与gFOBT筛查的结果进行比较。
在筛查平均风险个体的AN和CRC方面,FITs优于gFOBTs。在“参考标准:全部”研究中,两种测试的特异度相似;而在“参考标准:阳性”研究中,gFOBTs的特异度明显高于FITs。然而,在预先指定的特异度下,FITs的敏感度显著高于gFOBTs。
在世界范围内,许多国家采用了结直肠癌(colorectal cancer, CRC)筛查计划,这些计划通常基于粪便潜血试验(faecal occult blood tests, FOBT)。CRC筛查旨在检测晚期肿瘤(advanced neoplasia, AN),其定义为CRC或晚期腺瘤。FOBTs根据检测技术和检测到的血液成分分为两类:定性的愈创木脂粪便隐血试验(guaiac-based FOBTs, gFOBTs)和可定性也可定量的免疫化学法粪便试验(faecal immunochemical tests, FITs)。使用gFOBTs筛查可降低CRC相关死亡率。
比较gFOBT和FIT筛查在平均风险个体中检测晚期结直肠肿瘤的诊断准确性。
我们检索了CENTRAL、MEDLINE、Embase、BIOSIS Citation Index、Science Citation Index Expanded和Google Scholar。我们检索了纳入研究的参考文献列单和PubMed的相关文章以确定其它研究。
我们纳入了前瞻性和回顾性研究,这些研究提供了以结肠镜检查作为参考标准时的gFOBTs、FITs或两者的真阳性数、假阳性数、假阴性数和真阴性数。我们排除了病例对照研究。我们纳入了所有受试者都接受诊断试验和参考标准(“参考标准:全部”)的研究;以及只有诊断试验呈阳性的受试者接受参考标准,而诊断试验呈阴性的受试者至少被随访1年以确定间期癌的研究(“参考标准:阳性”)。目标人群包括接受CRC筛查的无症状、平均风险个体。目标条件是CRC和晚期肿瘤(包括晚期腺瘤合并CRC)。
两名综述作者独立筛选和纳入研究。如有分歧,由第三位综述作者做出最终决定。我们使用Rutter和Gatsoni分层综合受试者工作特征模型来探索测试之间的差异并确定异质性的潜在来源,并使用二元分层模型来估计常见阈值下的敏感度和特异度:10 µg血红蛋白(haemoglobin, Hb)/g粪便和20 µg Hb/g 粪便。我们对两个测试的准确性进行了间接比较;当在同一人群中进行评估时,对两个指标测试进行直接比较。
我们于2019年6月25日进行了初步检索,共纳入63项研究。我们于2021年9月14日进行了一次补充检索,纳入了另一项可能符合条件的研究,目前正在等待分类。
我们共纳入了33篇已发表的“参考标准:全部”的文章,共104,640名受试者。6项研究仅评估了gFOBTs,23项研究仅评估了FITs,4项研究同时包括了gFOBTs和FITs。FITs的阳性截断值范围为2.4μg - 50μg Hb/g粪便。在诊断准确性研究质量评估工具(Quality Assessment of Diagnostic Accuracy Studies, QUADAS-2)的每个维度上,我们评估为高偏倚风险的研究不超过20%。总结曲线显示,FITs比gFOBTs对AN(P<0.001)和CRC(P=0.004)具有更高的区分能力。对于A的筛查,gFOBTs的总敏感度为15%(95%置信区间(confidence interval, CI) [12%, 20%]),这显著低于 FITs在截断值为10μg Hb/g和20 μg Hb/g的总敏感度,分别为33%(95% CI [27%,40%]; P<0.001)和26%(95% CI [21%, 31%]; P=0.002)。在一个假设的10,000名筛查受试者的队列中进行筛查,CRC的流行率为1%,AN的流行率为10%。在1000名AN受试者中,gFOBTs漏诊了850人,而FITs漏诊了670人(截断值为10μg Hb/g)和740人(截断值为20μg Hb/g)。对于AN筛查的总特异度,gFOBTs(94%; 95% CI [92%, 96%])和FITs截断值为10μg Hb/g时(93%; 95% CI [90%, 95%])及截断值为20μg Hb/g时(97%; 95% CI [95%, 98%])无显著差异。因此,在没有AN的9,000名受试者中,540人进行gFOBTs后接受了(不必要的)结肠镜检查,而630人(10μg Hb/g)和270人(20μg Hb/g)进行FITs后接受了(不必要的)结肠镜检查。同样,对于CRC的筛查,gFOBTs的总敏感度为 39%(95% CI [25%, 55%]),显著低于FITs在截断值为10μg和20μg Hb/g下的总敏感度:分别为76%(95% CI [57%, 88%]; P=0.001)和65%(95% CI [46%, 80%]; P=0.035)。因此,在100名CRC受试者中,gFOBTs漏诊了61人,FITs 漏诊了24人(10μg Hb/g)和35人(20μg Hb/g)。对于CRC筛查的总特异度,gFOBTs(94%; 95% CI [91%, 96%])和FITs截断值为 10μg Hb/g 时(94%; 95% CI [87%, 97%])及截断值为20μg Hb/g 时(96%; 95% CI [91%, 98%])之间无显著差异。因此,在没有CRC的9,900名受试者中,594人进行gFOBTs后接受了(不必要的)结肠镜检查,而594人(10μg Hb/g)和396人(20μg Hb/g)进行FITs后接受了(不必要的)结肠镜检查。
在同一人群中比较FITs和gFOBTs的5项研究中,FITs对AN的区分能力高于gFOBTs(P=0.003)。
我们共纳入了30篇已发表的“参考标准:阳性”的文章,共3,664,934名受试者。其中,8项为仅gFOBT研究,18项为仅FIT研究,4项研究包括了gFOBTs和FITs。FITs的阳性截断值范围为5μg - 250μg Hb/g粪便。在QUADAS-2的每个维度上,我们评估为高偏倚风险的文章不超过20%。总结曲线显示,FITs比gFOBTs对CRC具有更高的区分能力(P<0.001)。gFOBTs对CRC的总敏感度为59%(95% CI [55%, 64%]),显著低于截断值为10μg Hb/g(89%, 95% CI [80%, 95%]; P<0.001)和20μg Hb/g(89%, 95% CI [85%, 92%];P<0.001)的FITs。因此,在100名CRC受试者的假设队列中,gFOBTs漏诊41人,而FITs漏诊11人(10μg Hb/g)和11人(20μg Hb/g)。gFOBTs的总特异度为98%(95% CI [98%, 99%]),在10μg和20μg Hb/g截断值下均高于FITs:分别为94%(95% CI [92%, 95%]; P<0.001)和 95%(95% CI [94%, 96%]; P<0.001)。因此,在没有CRC的9,900名受试者中,198人进行gFOBTs后接受了(不必要的)结肠镜检查,而594人(10μg Hb/g)和495人(20μg Hb/g)进行FITs后接受了(不必要的)结肠镜检查。在90%和95%的特异度下,FITs的敏感性高于gFOBTs。
译者:石丹(Cochrane Hong Kong,香港中文大学医学院那打素护理学院),审校:牟焕玉(Cochrane Hong Kong,香港中文大学医学院那打素护理学院)。2022年10月10日。简体中文翻译由Cochrane中国协作网成员单位,北京中医药大学循证医学中心翻译传播工作组负责,联系方式:tina000341@163.com