当前位置 : 医疗首页> 学术报告

外科领域常见的系统评价类型与研究方法

时间：2025-09-15 12:14:49 热度：37.1℃ 作者：网络

摘要

证据是医学实践模式从经验医学向循证医学转变的驱动力。目前，外科医师很难从海量原始研究文献中寻获解决临床问题的证据。文献综述作为一种归纳性证据形式，对于精准、高效利用证据尤为重要。系统评价是循证医学框架下的一种新综述形式，在外科领域也得到了广泛应用。随着循证医学方法学的发展，系统评价的类型得到不断丰富。本文梳理和总结了外科领域中常见的系统评价类型和研究方法，旨在为具体临床问题下外科医师选择查证用证和创证用证提供一个清晰的框架。

正文

根据当前可得最佳证据指导临床决策是循证医学的基本实践方式。临床医师为获得最新证据需阅读大量文献，但医学期刊、书籍和其他在线发表的大量信息使寻找优质证据变得越来越困难。例如，截至2024年4月，医学文献检索平台PubMed已收录了3700万篇医学文献；2023年平均每天更新5400余篇新文献。因此，临床医师很难有足够时间寻找证据和评价其是否最佳。因此，循证医学的重要方法之一—系统评价应运而生。系统评价是一种批判性合成已有证据的研究方法，旨在针对某一诊断、治疗、预防、预后等研究主题，全面收集相关文献，进行严格评价、分析和合成，去伪存真，力求获得最佳证据以帮助临床实践。随着循证医学方法学的发展，系统评价类型也在不断丰富，涵盖不同调查领域、不同证据类型和不同问题[1]。系统评价的发展不仅加深了对复杂医学问题的理解，也进一步推动了循证医学的发展。本文探讨了当前外科领域常见各类系统评价的定义、特点和研究方法，旨在为外科医师获取系统评价证据和开展系统评价研究提供方法学参考。

1 干预性系统评价

1.1 定义和特点

干预性系统评价（interventional systematic review）是系统评价的最常见类型。循证医学将随机对照试验（randomized controlled trial，RCT）视为评估干预性研究效果的最优选择[2]。但单个RCT的样本量往往有限、统计效能不足。干预性系统评价通过纳入多项RCT，利用Meta 分析技术进行数据合并，可提高统计效能并解决单个RCT间可能存在的矛盾[3]。由于外科临床实践的主要形式是实施手术、麻醉和术后康复等干预措施，因此干预性系统评价可为外科临床实践提供关键证据。例如，一项纳入25 项研究的干预性系统评价[4]显示：对于中重度颈动脉狭窄患者，静脉溶栓后推迟6～7 d进行颈动脉内膜切除术更安全，卒中或死亡风险可降至可接受的6%阈值。该项结果最终被欧洲血管外科学会的颈动脉疾病处理指南列为推荐意见的证据。

系统评价的研究方法出现之前，一般以叙事性综述的形式总结干预措施的疗效。但叙事性综述仅简单总结原始研究中的数据，缺乏系统文献检索、文献质量评价和数据定量合成的过程，对证据的解释可能存在主观倾向[5-6]。不同于叙事性综述，干预性系统评价首先提出一个明确的临床问题，以此为基础，系统、全面收集所有已发表或未发表的临床研究，通过严格的文献筛选、数据提取、偏倚风险评价和数据定性或定量合成，得出干预措施疗效和安全性的结论。这一系列严谨的方法学可增强结果的精确性和评价的客观性[7]。干预性系统评价与叙事性综述的特点比较见表1。

1.2 主要步骤

一个典型的干预性系统评价包括6个主要步骤：确定选题、文献检索与筛选、偏倚风险评价、Meta分析、证据质量评价和研究报告。

1.2.1 确定选题

将一个治疗问题拆分为PICOS要素，以供后续步骤参考[8]。P（population）指研究对象，I（intervention）指干预措施，C（comparison）指对照措施，O（outcome）指结局指标，S（study design）指纳入系统评价的原始研究类型。然后对每个要素明确详细的纳入/排除标准，包括研究对象的诊断标准、干预措施的标准化定义、主要结局和次要结局的定义，必要时可对随访时间进行限定。

1.2.2 文献检索与筛选

确定纳入/排除标准后，即可开展文献检索。系统评价的检索目的是查全，故通常选择P、I和S作为检索限定词（检索策略）。若将C和O纳入限定词，容易造成漏检。此外，任何单一数据库均无法收录所有文献，故应选择多个主要数据库作为文献来源。获得检索结果后，依据纳入/排除标准筛选符合条件的研究，一般至少由两名评价员进行独立、重复的文献筛选。最后，对每项合格的研究进行数据提取。数据提取内容应根据研究主题定制，通常包括文献特征、患者特征、干预特征和结局数据。

1.2.3 偏倚风险评价

系统评价有别于传统综述的重要特点是对原始研究进行偏倚风险评价，并在数据分析和证据质量评价时考虑偏倚风险。目前，对于纳入RCT的干预性系统评价，常用的偏倚风险评价工具是Cochrane偏倚风险评价工具[9]及其2.0升级版[10]；若纳入研究为观察性研究（队列研究和病例对照研究），常用的偏倚风险评价工具是纽卡斯尔-渥太华量表[11]。

1.2.4 Meta分析

Meta分析是一种对原始研究数据进行二次分析的方法，可在综合考虑各研究权重的基础上进行合并。需根据研究特点、假设和结局指标类型的不同，选择不同的效应量、效应模型和数据合并方法。此外，Meta分析还需考虑必要的异质性检验、亚组分析、敏感性分析和发表偏倚检验。

1.2.5 证据质量评价

干预性Meta分析旨在提供可供临床医师参考的证据，但并非所有Meta分析都能生成可靠的证据。因此，需要评价各结局的Meta分析结果证据质量。目前最常用的证据质量评价工具为GRADE框架[12]，该框架可基于对偏倚风险、不一致性、不精确性、间接性和发表偏倚的系统评估得出Meta分析结果的证据质量。

1.2.6 研究报告

为提升系统评价的报告质量，系统评价和Meta 分析优先报告条目（preferred reporting items for systematic reviews and meta-analyses，PRISMA）[13]于 2009 年首次发布。基于PRISMA报告干预性系统评价结果，可提高研究报告的完整性和透明性。目前，PRISMA的最新版本为2020版[14]，大多数学术期刊要求作者遵循PRISMA指南报告系统评价。

2 诊断性系统评价

2.1 定义和特点

与干预措施一样，诊断方法在应用前也需进行适当评估。诊断性系统评价（diagnostic systematic review）用于综合诊断学原始研究的数据，提供诊断性能（灵敏度、特异度和预测值）的估计，或比较不同诊断方法的准确性。

诊断性系统评价选题通常可阐述为“系统评价针对‘疾病’所采用‘检验方法’，及其对‘特定人群、疾病或问题以及环境’的效果”。诊断性系统评价在外科领域也有重要作用，对外科疾病、手术指征等的准确诊断有利于外科干预的规范实施。例如，一项颈动脉狭窄术前无创诊断方法准确性的系统评价[15]显示：磁共振血管成像在诊断颈动脉狭窄方面的准确性略高于多普勒超声，当磁共振血管成像和多普勒超声结果一致时诊断的准确性最高，因此建议在临床使用时将两种方法结合使用。

相比于干预性系统评价，目前诊断性系统评价的发文量较少。这种差异可能是因为单个诊断性原始研究之间的研究目标和设计差异巨大，较少能收集到足够同质性的研究开展诊断性系统评价。换言之，进行诊断性系统评价的最大难点是原始研究的多样性和复杂性可能导致结果不相关。

2.2 主要步骤

诊断性系统评价的文献检索、文献筛选和数据提取等步骤与干预性系统评价流程相似，但多个环节存在明显差异：① 纳入研究不同：干预性系统评价纳入RCT或观察性研究，诊断性系统评价纳入诊断试验；② 评价指标不同：诊断性系统评价的评价指标并非疗效和安全性，而是诊断方法的准确性，以敏感度、特异度、阳性/阴性预测值、似然比、受试者工作特征（receiver operating characteristic，ROC）曲线等衡量[16]；③ 偏倚风险评价工具不同：目前诊断性系统评价最常用的偏倚风险评价工具为诊断准确性研究质量评价工具2（quality assessment of diagnostic accuracy studies-2，QUADAS-2）[17]；④ Meta分析方法：利用软件进行Meta分析，计算各组诊断合并比值比、敏感度、特异度、预测值、似然比以及验前概率、验后概率和（H）SROC曲线下面积等，以灵敏度为纵坐标、特异度为横坐标绘制SROC曲线图呈现结果[18]；⑤ 报告规范不同：诊断性系统评价应遵循PRISMA诊断试验准确性指南（PRISMA for diagnostic test accuracy，PRISMA-DTA），特有的报告内容包括检测指标的预期用途和临床作用、主要诊断准确性指标（敏感性、特异性）和评估单位（例如每例患者、每个病变）以及可接受的最低诊断准确性的合理性依据[19]。

３ 网状 Meta 分析

3.1 定义和特点

经典的干预性系统评价/Meta分析是对目标疾病和人群或环境下的一对干预措施（试验组 vs. 对照组）进行比较。然而，当目标疾病存在多种干预措施，临床医师需做出疗效最佳的选择[20]。由于医学伦理学要求和资金限制，经常缺乏各干预措施的两两直接比较证据，此时可通过网状Meta分析（network meta-analysis）获得同一个网络中所有干预措施两两比较的证据[21-22]。

网状Meta分析是传统Meta分析的延伸，可同时进行多个处理间的多重比较。网状Meta分析由直接比较和间接比较构成，当存在闭环网络（closed loop）时，每一比较（如A-B、B-C和A-C）之间均可实现直接与间接比较，也称为混合治疗比较[23]。间接比较又根据不同间接程度进行分类；见图1。网状Meta分析充分发挥了间接证据的作用，可增强对所有治疗比较结果的确定性，得出更精确的疗效估计；同时，网状Meta分析可评估各干预措施的疗效优劣排序[20]。例如，一项对比3种肺叶切除术（开放式、胸腔镜和机器人辅助）治疗肺癌围术期安全性的网状Meta分析[24]结果显示：与开放式肺叶切除术相比，胸腔镜肺叶切除术和机器人辅助肺叶切除术更安全，30 d死亡率、肺部和总体并发症发生率显著降低。该结果证明了微创技术可能带来的疗效改善，为外科医师在条件允许时选择胸腔镜或机器人辅助肺叶切除术提供了有力证据。

图1　网状Meta分析的主要比较网络类型

a：传统配对，指干预措施A和B的直接比较；b：星形网络中，A-B以及A-C之间存在直接比较，而B与C必须透过一个共同参照点A（常为安慰剂或标准疗法）进行间接比较；c：梯形网络中，存在A-B、B-C和C-D的直接比较；其他的两两组合均可进行间接比较；d：闭环网络中，每一比较（即A-B、B-C和A-C）之间均可实现直接比较与间接比较，也称为混合治疗比较；e：复杂网络：属于闭环网络的延伸，可同时含有星形网络、梯形网络和闭环网络，具有更丰富的间接比较

在外科领域，网状Meta分析同样是证明干预措施疗效的最高级别证据[25-26]。但网状Meta分析的统计方法复杂度、覆盖问题的广泛程度、涉及的数据量都远超标准Meta分析[27]，制作过程复杂、耗时，要求充分的专业知识和资源以确保结果的精确性与可信度。

3.2 基本假设

网状Meta分析应符合3个基本假设：同质性、相似性和一致性。只有同时满足这些假设，才能保证合并直接比较和间接比较结果的准确性[28]：① 同质性假设：无论是网状Meta分析或传统Meta分析，均要求直接比较符合同质性假设才能合并效应量。同质性是指纳入研究间具有相同或相似的患者特征、干预特征和方法学特征，可通过Cochrane Q检验或I2统计量评估。② 相似性假设：相似性又称可传递性，指不同研究间各干预措施可相互替换、共同随机化的特性。即各研究间的效应修饰因子应具备相似性[29]。只有相似性足够的研究才能进行间接比较[30]。相似性尚无定量评估方法，只能根据临床经验对各研究间效应修饰因子的分布是否相似进行定性评估[31]。③ 一致性假设：一致性假设是指来自直接证据和间接证据的效应估计应是等价的。若同时存在直接和间接比较（即存在闭合环路）时，需评估是否符合一致性假设。理论上，直接比较和间接比较结果应一致，不一致的原因是不符合同质性或相似性假设。

3.3 统计学框架

网状Meta分析可基于两种统计学框架实现：① 频率学框架：频率学框架将表示总体特征的参数视为固定常数，使用观测数据的可能性推断总体参数，在观测数据无限重复的假设下计算概率。频率学框架的统计推断建立在完善的假设检验与可信区间理论上，合并网状Meta分析证据时主要运用倒方差法。频率学框架的结果表示为点估计值（OR、RR和MD等效应量）和95%CI。因此，频率学框架与外部信息无关，并且已经指定了当前数据中研究假设为真的概率。② 贝叶斯框架：贝叶斯框架以贝叶斯定理为基础，将既往证据表明结局事件θ出现的概率表示为先验概率P（θ），目前获取的新数据表示为y，基于θ前提发生的似然概率表示为P（y|θ）。根据上述先验概率与似然概率可计算出y存在前提下θ发生的可能性，即后验概率P（θ|y）。后验概率与先验概率和似然概率的乘积成正比[32]。贝叶斯框架的网状Meta分析可使用WinBUGS软件[33]或R软件[34]等实现。

3.4 主要步骤

网状Meta分析与传统Meta分析的研究步骤大体一致，但数据分析方法（如一致性检验、疗效排序和发表偏倚检验）和结果报告存在显著差异。

3.4.1 一致性检验

网状Meta分析的一致性检验方法可分为整体检验与局部检验两类。整体检验的评估对象是网络证据结构整体，常用Bucher法[35]。局部检验的评估对象是证据网络中特定的成对比较，常用节点分裂法[36]。根据一致性检验结果，需选择拟合一致模型或不一致性模型获得网状Meta分析结果。

3.4.2 疗效排序

网状Meta分析的最大特点是可同时比较多种干预措施，并对疗效优劣概率进行排序。累积排序下面积（surface under the cumulative ranking，SUCRA）是评估网状Meta分析排序概率的最常用指标[37]。SUCRA越高，该干预措施为最佳的可能性越大[38]。因此，根据SUCRA可对干预措施的优劣进行排序。

3.4.3 发表偏倚检验

发表偏倚是影响网状Meta分析结果可靠性的重要偏倚来源[39]。传统Meta分析中可通过漏斗图识别发表偏倚，该方法可扩展用于网状Meta分析，称为校正比较漏斗图（comparison-adjusted funnel plot）。由于网状Meta分析涉及多种干预措施的比较，干预措施间的相对效应可能存在差异，故需对漏斗图进行校正。首先计算各成对比较的效应量，然后以每个配对比较的效应量与所有同类比较合并效应量之差为横轴、效应量的标准误为纵轴绘制漏斗图。若无显著发表偏倚，则校正比较漏斗图的散点应对称；反之，则提示可能存在发表偏倚。

3.4.4 结果报告

网状Meta分析的报告也应遵循PRISMA指南。鉴于网状Meta分析的特殊性，PRISMA指南发布了适用于网状Meta分析的扩展版[40]。新增内容包括网状关系图的展示、不一致性评估和疗效排序。此外，网状Meta分析的结果可视化还包括SUCRA图、两两比较结果的梯形图和森林图、直接比较和间接比较权重图等。

４ 伞状评价

4.1 定义和特点

临床医师有时可能需解决的并非是单一问题，而是与主题相关的多个不同问题。伞状评价（umbrella reviews）是适用于这种情况的一个选择[41]。

伞状评价，又称系统评价再评价（overviews of systematic review）。伞状评价是对特定研究主题的多个系统评价的收集和评估，获得一个综合性、系统性和批判性结果[42]。最常见的评价目标是干预措施的疗效和疾病的危险因素[41]，其次为患病率研究[43]和诊断准确性研究[44]。外科领域也不乏伞状评价。一项评价机器人胃切除术与腹腔镜胃切除术安全性差异的伞状评价[45]共纳入14项系统评价，研究结果显示：机器人胃切除术虽耗时更长，但在减少出血量、缩短住院时间和加快肠道功能恢复方面有显著优势；两种手术的总并发症发生率，吻合口漏、吻合口狭窄和肠梗阻发生率及死亡率均无显著差异。研究展示了两种手术各自的优势，提示临床医师应结合患者具体情况谨慎选择适宜术式。

伞状评价的主要优势是可探讨同种干预或暴露对不同主题上的影响，或评估不同干预或暴露对相同主题的影响，因此更加适应复杂临床实践。其次，伞状评价是基于现有系统评价的研究，避免了从头开始的评价过程，可大幅提高研究效率。此外，通过伞状评价也可发现特定领域中的系统评价研究的方法学缺陷或空白，为进一步的研究提供建议。虽然伞状评价被认为是现有证据合成的最高水平之一[46]，但伞状评价也存在局限性[41]：首先，伞状评价结果的有效性很大程度上取决于符合条件的系统评价全面性和方法学质量。若某些干预措施疗效或病因关联的数据未被系统评价分析，伞状评价结果也将遗漏这些信息。当原始研究和系统评价存在偏倚时，这些偏倚可能会相互叠加、难以分辨。伞状评价与系统评价的主要区别见表2。

4.2 伞状评价主要步骤

伞状评价有5个必要步骤[47]：明确选题、全面检索系统评价、筛选系统评价和提取数据、评估系统评价质量、形成并解释研究结果。

研究者首先需明确选题，界定研究范围。尽管伞状评价的范围宽于特定干预措施的综述，选题仍应具体、集中且定义清晰[48]。选题为某疾病或特定人群的不同干预措施时，可阐述为“系统总结和评估针对‘疾病’所采用的‘干预或比较措施’，及其对‘特定人群、疾病或问题以及环境’的效果”。

其次是制定纳入/排除标准和检索策略。伞状评价检索、纳入和数据分析的基本单位是系统评价，而非原始研究，故需在系统评价水平明确PICOS要素[49]。另外，需考虑在伞状评价中仅纳入基于RCT的系统评价，或同时纳入基于观察性研究的系统评价。当前指南[50]不建议混合RCT和观察性研究的数据，应避免混合不同研究设计的数据进行分析，除非系统评价中的数据已按照研究设计分开展示。伞状评价的一个特殊性是可能纳入评估相同疾病、相同干预措施的系统评价，难以避免包含一些重叠的原始研究，故研究者需提前决定是否及如何纳入存在重叠研究的系统评价。

获得系统评价检索结果后，需根据纳入/排除标准筛选合格的系统评价。当系统评价的纳入研究只有部分数据符合标准时，应只纳入符合标准的研究子集。例如，Gates等[51]开展了儿童定期使用福莫特罗或沙美特罗安全性的伞状评价，其纳入的系统评价中有部分原始研究涵盖了成人研究，该伞状评价只纳入了其中针对儿童的原始研究。

系统评价的方法学质量评价是伞状评价的重要一环。早期常用的评价工具为AMSTAR（a measurement tool to assess systematic reviews），该工具包含11个条目，主要针对系统评价制作过程的研究质量，如检索是否全面、偏倚风险评价是否正确、Meta分析方法是否正确等[47,52]。目前，该工具已更新至AMSTAR 2[50]。AMSTAR 2的条目增加至16个，可自定义关键条目，更精确评估系统评价的各项方法学局限性，且可形成高、中、低的方法学质量分级结果。另一个可用工具是ROBIS（risk of bias in systematic reviews），该工具侧重于评估系统评价中各类原始研究偏倚风险，可用于干预、诊断、预后及病因各类研究问题[53]。

伞状评价需从系统评价中提取的数据包括：用于评估系统评价（及其纳入的原始研究）偏倚风险的数据、系统评价（及其纳入的原始研究）的描述性特征、系统评价的定量结果数据以及证据确定性[54]。

伞状评价的数据分析可基于两类结局数据[55]：① 总结性结局数据：直接纳入系统评价中的数据，伞状评价中呈现的数据与系统评价中的数据完全相同。② 重分析结局数据：从纳入的系统评价中提取结局数据，以不同于原系统评价中的方式重新分析（如选择更合适的效应模型和效应量）。选用的数据分析办法并不唯一，取决于伞状评价的研究内容和所纳入系统评价的方法学质量。

证据质量评价方面，伞状评价同样使用GRADE工具评估每个临床重要结局指标的证据质量[56]。为提高研究效率，可直接提取系统评价中的GRADE评估结果，尽管实际研究中系统评价的原证据质量评价结果可能并不完善。但若伞状评价进行了结局数据的重分析，原评价即不再适用，应重新进行GRADE评估[57]。

值得注意的是，当某个主题已有多个系统评价或Meta分析（SRMA）发表时，可以通过伞状评价进行总结归纳，从而得出更加全面的结论。然而，如果相关的SRMA数量较少，那么开展新的SRMA研究就显得尤为重要。此外，如果现有的SRMA大多已经过时，那么更新现有SRMA比在此基础上进行伞状评价更为合适。

５ 快速评价

5.1 定义和特点

快速评价（rapid review，RR），也称快速证据评估（rapid evidence assessment）或快速证据总结（rapid evidence summary）[58]。Cochrane快速评价方法学小组在2024年更新的指南中将其定义为：快速评价是一种证据综合方法，其汇总来自不同研究的信息，以系统高效的方式为公众、医疗服务提供者、研究人员、政策制定者和资助者提供证据[59-60]。快速评价在确保文献质量和数据准确性的基础上，通过简化或省略某些步骤提高评价效率，最终提供更有时效性的证据。例如，2021年挪威公共卫生研究所[61]对重症风湿性心脏病心脏手术进行快速评价，得出“对于严重风湿性心脏病患者，瓣膜修复优于瓣膜置换”的结论，并指出严重风湿性心脏病患者心脏手术的相对有效性和安全性尚缺乏研究，对后来的重症风湿性心脏病手术选择和临床研究均产生了影响。

常规系统评价通常需至少6～12个月时间完成[62]。与之相比，快速评价采用简化方法更快速地总结文献，面对紧急和突发状况时可发挥关键作用。例如，新型冠状病毒肺炎（COVID-19）爆发初期进行过超过3000次的快速评价[63]。在外科领域，快速评价也已成为行之有效的方法[64]。研究[65]对COVID-19患者接受外科手术是否需要延期进行了快速评价，做出如下推荐意见：在不影响患者预后前提下，小型手术应至少延后4周，大型手术则应延后8～12周，且需进行更全面的术前评估和持续监测。

快速评价的缺点同样明显：简化评价流程可能会增加偏倚风险。虽然常规系统评价不可避免存在偏倚风险，但快速评价省略的某些步骤可能使风险增加[66]。此外，限制检索时间还可能导致发表偏倚，简化证据质量评估过程也可能增加低质量证据的权重。

5.2 主要步骤

由于追求高效率的特点，快速评价的研究过程与系统评价有所不同。首先，快速评价强调利益相关者（如卫生专业人员、政策制定者等）参与各个阶段，与研究者共同确定选题、纳入/排除标准和主要结局[59]。利益相关者的参与可缩小选题范围，确保研究问题符合既定目的，并就研究进展中可能出现的任何临时变动提供意见。

快速评价对纳入/排除标准制定的要求更为细致。首先对纳入研究的干预措施、对照组和主要结局数量有严格限制，此外还可基于临床或方法学理由限定纳入研究日期和发表语言。检索过程中，检索策略制定、数据库选择和补充检索环节也可尽量简略。

简化检索过程有两个方法：一是缩短检索时间，通过自动化工具、复用检索策略或省略计划与质量评价步骤实现；二是缩小检索结果规模，通过限制信息源数量、提高搜索策略精确度或应用研究设计过滤器达成。由于筛选检索结果通常耗时更长，因此，通常选择第二种方法提高整体效率[67]。

快速评价的数据提取和分析与系统评价的步骤相似，但为提高研究效率，仅需提取用于回答研究问题的必需数据。通常包括：研究日期、研究目的、研究设计、数据来源和类型、研究人群、干预措施、测量结果及样本量等[68]。完成数据提取后，应创建表格，根据人群、干预措施、结局进一步对数据进行分类排列。通过这种方式，有助于识别研究结果间的相似性和差异性及开展亚组分析。为缩短数据提取的耗时，可直接纳入已发表系统评价中的数据[59]。

快速评价的偏倚风险评价通常仅针对最重要的结局，且只使用一种偏倚风险工具[69]。对于数据分析，快速评价主要对纳入研究进行叙述性总结，仅研究间同质性良好时才考虑进行Meta分析。

６ 范围评价

6.1 定义和特点

当大量文献尚未被全面评价，或因内容庞杂、异质性高而不适合进行更精确的系统评价时，范围评价（scoping review）就显得尤为重要。范围评价又称概况性综述，旨在全面概述多项原始研究，整合证据，为临床实践、项目规划和政策制定提供参考，同时指导未来研究方向[70]。例如，一项关于慢性硬膜下血肿手术技术方案的范围评价显示：引流的使用、位置和钻孔数量相关技术已有较系统的总结，推荐临床医师在条件允许下通过引流处理血肿；但其他手术指征、手术时间与类型、引流持续时间、是否同时进行膜切除术及是否需栓塞脑膜中动脉尚不明确，仍待进一步研究[71]。

范围评价的显著优势是提供了一种映射某研究领域的规范、透明方法。相较于系统评价，范围评价能在更短时间内明确主题相关证据的规模、范围、多样性和特殊性，有助于总结及传播研究成果，以及评估是否需开展进一步的系统评价研究[72]。范围评价在外科领域也有广泛开展，例如一项范围评价[73]总结了无输血心脏手术的预后，研究结果显示：在最佳患者血液管理基础上实施无输血心脏手术是安全的，并提示限制输血是否会对结局产生积极的长期影响还需进一步评估。

范围评价的主要局限性是评价目标范围过大，可能无法提出具体的实践建议。方法学方面，不同于其他类型的系统评价，范围评价不对原始研究的偏倚风险进行评估，仅提供描述性的说明，因此无法比较不同证据的权重。此外，由于涉及的数据量通常很大，研究者可能在追求广度（涵盖更全面的研究）与深度（关注数量更少但分析更详尽的研究）之间面临选择困难[74]。

6.2 主要步骤

开展范围评价的第一步是详细描述研究目标和拟评价的指标。范围评价主要关注与研究设计、框架、理论或分类体系相关的指标。解释这些指标时可能涉及的数据包括：干预类型、研究人群、干预持续时间、研究目的、研究的方法学特征、关键结果和研究中的空白。

系统评价旨在针对具体研究问题提供相对狭窄范围内的答案，而范围评价通常不寻求解决特定问题。因此，范围评价的结论应与预设的目标或问题相符，并在此基础上得出总结性观点，并就当前的知识空白和未来研究方向提出明确和具体的建议。若有可能，可为下一步的系统评价或原始研究提出初步建议。

目前范围评价的实施标准主要为乔安娜布里格斯研究所（Joanna Briggs Institute，JBI）提出的JBI范围评价方法学指南[74]，其中详细介绍了范围评价的规划、实施和报告过程。范围评价的报告应遵循PRISMA-ScR规范[75]。虽然范围综述操作步骤方面与系统评价相似，但它们的研究目标并不相同，各自拥有不同的适用范围和优势；见表3。

７总结

虽然外科学领域的临床研究数量增长较快，但因外科干预过程的复杂性及外科技术和器械的快速创新[76]，在循证外科学研究时将面临多项方法学挑战，也导致当前可用的系统评价不足[77]。制作高质量外科系统评价不仅需遵循常规方法学要求，也必须考虑诸多外科干预特有的方法学要素，例如：① 不同于药物，外科干预通常无法实施盲法，患者将清楚知晓所在分组，其带来的安慰剂效应、患者偏好效应和对患者依从性的影响，使得RCT可能产生额外的实施偏倚、测量偏倚和失访偏倚，因此在制作外科系统评价时需重点评价盲法带来的偏倚风险。② 外科干预在随机分组时更容易面临医学伦理问题，例如患者急需得到手术救治时不宜将其随机分至非手术组。因此，外科领域的原始研究更大比例是非随机干预性或观察性研究，对应系统评价也常全部或部分纳入非随机研究。目前基于非随机研究系统评价远不及基于RCT系统评价的方法学成熟，尤其是网状Meta分析。在偏倚风险评价中也需要考虑更多因素，如暴露和结局信息来源是否可靠、结局是否在基线时未发生、混杂因素是否得到足够调整等。在GRADE证据质量分级中也有显著不同（观察性研究系统评价的证据质量默认为低）。

随着循证医学的迅速发展，外科领域各类系统评价的方法学也在不断更新和完善。本研究首次全面总结了最新的外科领域常见系统评价类型及研究方法。每种方法均有独特优势，同时也存在局限性。例如，经典系统评价提供了全面和严谨的分析，但耗时长，可能无法及时应对紧急的临床决策需求；而快速评价可迅速提供信息，但牺牲了评价的系统性和严谨性。因此，应基于具体的研究目标、可用资源和时间限制决定评价类型的选择。这些系统评价方法各自针对不同的研究需求提供了有效的解决方案，在整合现有外科学研究证据中均有独特作用。各类系统评价所得结论均属于各自应用条件下的当前可得最佳证据，是创新和优化外科技术方案、制定外科临床实践指南、指导外科临床实践必不可少的基石。

利益冲突：无。

作者贡献：周劼怡负责论文设计、初稿撰写；袁丽霞负责文献筛选和论文修改；陈英、徐升负责修改论文；周旭负责质量控制，论文审阅与修改。

上一篇： 麻醉术后认知障碍的原因及术中注意事项

下一篇： 亚厘米非小细胞肺癌气腔播散的nomogr...

外科领域常见的系统评价类型与研究方法

时间：2025-09-15 12:14:49 热度：37.1℃ 作者：网络

相关文章

最新资讯

热门文章

国家药监局与沙特食品药品监督管理局签署合作谅解备忘录

国家药监局与丹麦药品管理局签署合作意向书le

本站广告