随机对照试验和观察性研究得出的治疗效果估计值有多相似？

关键信息

- 平均而言，随机对照试验(RCTs)和观察性研究的效果估计差异非常小。效应估计是一种统计结构，它根据临床试验或研究中两组人群结局之间的差异来描述干预效果的大小。
- 我们需要更多的研究，仔细考虑可能影响不同研究类型之间效应估计的相似性和差异的因素。

什么是随机对照试验和观察性研究？为什么他们的效果估计可能不同？

随机对照试验（RCTs）是一种医疗保健试验，参与者被随机分配到到两个或多个治疗组中。一组接受的是试验性治疗（也被称为“干预”）；另一组是“对照组”，不接受干预。随机对照试验验证的是理想状况下的有效性和安全性。

观察性研究用于测量非试验“真实世界”情境下干预的有效性。病例对照（或回顾性）研究和队列研究是观察性研究的两种常见类型。病例对照研究将患有某种特定症状/疾病但在其他方面相似的人群进行比较。队列研究随着时间的推移追踪一组具有共同特征的人群，以找出有多少人达到了某种受关注的健康结局。

有时候，探讨相同主题的RCTs和观察性研究会得到不同的结果，这些研究类型的不同在于研究的开展方式和对系统错误的敏感度。

我们的研究目的是什么？

我们想评估研究类型（RCT与观察性研究）对整体效应估计的影响并探索能够解释任何差异的方法学。

我们做了什么？

我们检索了数据库中的综述，这些综述系统地比较了RCTs与观察性研究中对相同健康研究问题的效应估计。我们寻找包含任何医疗保健服务结局的综述，没有出版语言的限制。我们检索了于1990年1月1日至2022年5月12日之间发表的综述/概述。然后，我们比较了各研究的结果并总结了所有研究的证据。我们基于研究的规模、研究方法以及研究结果的一致性，对证据质量进行了评价。

我们发现了什么？

我们纳入了47项相关的综述；34项为我们的主要分析提供了数据。这些综述将RCT的效果估计与队列研究、病例对照研究或两者的效果估计进行了比较。这些综述涉及各种与健康相关的主题。这些研究在世界各国开展，但大部分在美国完成。12项综述没有报告任何有关资助的信息。在8项综述中，作者报告没有收到任何资助。在23项综述中，作者报告接受了公共资助，例如政府、大学或基金会的资助。两项综述报告由欧盟资助，两项综述报告由企业资助。大多数被资助的综述报告了多种资助来源。

主要结果

- 我们发现RCTs和观察性研究的效应估计可能差异很小甚至没有差异。
- 当我们仅比较研究药物（而非其他医疗保健治疗，例如手术或物理治疗）的研究效应估计时，可能会存在微小差异。

我们还发现，基于一下数据的效应估计差异很小：
- RCTs和观察性研究的meta分析显示出显著的统计异质性；即不同研究中评估的的干预效果有差异；
- 观察性研究没有使用或不清楚如何使用方法来解释可能影响干预有效性的人群特征（倾向评分调整）；
- 观察性研究没有提供有关研究设计的足够信息。

证据的局限性

我们对证据质量缺乏可信度，因为纳入的综述可能因其实施方式而面临系统性错误的风险。此外，这些综述涉及不同类型的人和接入措施，这意味着评价的个体存在很大的差异。

本综述的最后更新日期？

证据更新至2022年5月。

如果您发现此证据有帮助，请考虑向 Cochrane 捐款。我们是一家慈善机构，提供可获取的证据来帮助人们做出健康和护理决定。

捐赠

作者结论:

我们发现RCT和观察性研究的效果估计值之间没有差异或差异很小。这些发现与最近发表的研究结果基本一致。在探究RCT和观察性研究结果不一致的原因时，还需要考虑研究设计以外的因素，例如不同研究中调查的人群、干预、对照和结果的差异。我们的研究结果强调，综述作者不仅需要考虑研究设计，也需要考虑RCT或观察性研究的Meta分析中的异质性水平。需要更好的理解这些因素如何产生反映真实有效性的估计值。

阅读摘要全文……

研究背景:

研究人员和决策者经常使用随机对照试验 (RCT) 的证据来确定治疗或干预的功效或有效性。研究人员与决策者通常使用来自随机对照临床试验的证据确定治疗和干预的有效性。采用观察设计的研究通常用于衡量干预在“真实世界”中的有效性。许多研究设计及其修改过的设计（包括随机和观察设计）用于比较有效性研究，试图比较在特定人群中一种治疗是否较另一种治疗更加安全有效。需要最新的系统分析来确定RCT和观察性研究的效应估计差异。这项更新综述总结了方法学评价的结果，这些评价将观察性研究的效应估计与针对同一健康研究问题的证据综合的RCT进行了比较。

研究目的:

根据研究类型评估和比较综合效应估计，比较RCT和观察性研究。

探索可能解释RCT与观察性研究综合效应估计值差异的因素（例如异质性、观察性研究设计的类型、干预类型和倾向评分调整的使用）。

通过比较不同研究类型的效应估计来确定现有研究中的差距。

检索策略:

我们检索了 MEDLINE、Cochrane 系统评价数据库、Web of Science 数据库和 Epistemonikos，检索时间截至2022年5月。我们查阅了参考文献，进行了引文检索，并联系了综述的作者以确定其他综述。

纳入排除标准:

我们纳入了方法学的系统评价，比较了RCT和观察性研究中测量干预措施的疗效或有效性的定量效应估计。纳入的综述将RCT与观察性研究（包括回顾性和前瞻性队列、病例对照和横断面设计）进行了比较。如果将RCT与使用某种形式的并发分配的研究进行比较，则该综述不符合纳入标准。

资料收集与分析:

以观察性研究的结果为参照组，我们检验了相对汇总效应估计值（相对危险度（RRs）、暴露比值比（ORs）、风险比（HRs）、均值差（MDs）和标准化平均差（SMDs）），以评估优势比（ROR）或相对危险比（RRR）、相对风险比（RHR）和（标准化）平均差差异（D(S)MD）的效应是否相对较大或较小。

如果纳入的综述没有提供将RCT结果与观察性研究进行比较的估计值，我们将通过分别汇总观察性研究和RCT的估计值来生成。在所有综述中，我们综合了这些比率，以得出一个综合比率，用以比较RCT的效果估计值与观察性研究的效果估计值。在综述的概述中，我们以观察性研究作为参考类别来估算每个概述的ROR或RRR。

我们评估了所纳入综述的偏倚风险（总共使用九项标准）。为了获得总体低偏倚风险评级，被纳入的综述需要满足：明确的研究选择标准、完整的研究样本，并控制研究方法学的差异和研究异质性。我们将不符合这四个标准的综述评估为总体偏倚风险高。

我们使用GRADE方法评价了由多种证据综合组成的证据质量。

主要结果:

我们纳入了39项系统评价和8项综述概述，总计47项。其中三十四项为我们的主要分析提供了数据。基于现有数据，我们发现这些综述/概述包括2869项RCT，涉及3,882,115名受试者，以及3924项观察性研究，涉及19,499,970受试者。

我们将11项综述/概述评价为总体偏倚风险较低，将36项综述/概述评价为偏倚风险不明确或较高。我们对纳入的综述/概述的主要担忧是，有些没有评估纳入研究的质量，有些没有适当地解释研究设计之间的差异——例如，这些研究对所有观察性研究进行了总量分析，而不是对队列和病例对照研究进行单独的分析。

当汇总ROR和RRR时，比率之比表明RCT与观察性研究的效应估计值之间没有差异或差异很小（ROR=1.08，95%CI[1.01，1.15]。我们评价其证据质量为低。34项综述中有23篇报告了RCT和观察性研究的效应估计，这些结果平均一致。

在许多亚组分析中，发现效应估计中存在细微差异：

- 仅药物干预（ROR = 1.12，95％ CI [1.04，1.21]）；
- 具有大量或高度异质性的RCT和观察性研究；即 I ² ≥ 50%（ROR = 1.11，95%CI[1.04, 1.18]；
- 在观察性研究中未使用倾向评分调整（ROR=1.07，95%CI[1.03，1.11]或使用不明确（ROR=1.13，95%CI[1.03，1.25]；以及
- 未进一步说明研究设计的观察性研究（ROR=1.06，95%CI[0.96，1.18]。

我们在其他亚组分析中没有发现明显差异。

翻译笔记:

译者：王晔（Cochrane中国协作网成员单位，兰州大学健康数据科学研究院），审校：王冰怡（Cochrane中国协作网成员单位，兰州大学健康数据科学研究院）。2025年2月24日。简体中文翻译由Cochrane中国协作网成员单位，北京中医药大学循证医学中心翻译传播工作组负责，联系方式：tina000341@163.com

语言:

随机对照试验和观察性研究得出的治疗效果估计值有多相似？