hr,0.7695%ci,0.65-0.89p<0.001是指风险率为0.76,小于1,为保护性因素,其95%可信区间为0.65-0.89,p小于0.001,说明有显著性统计学意义。
1、HR是指风险率、危害比(hazard ratio, HR)[HR=暴露组的风险函数h1(t)/非暴露组的风险函数h2(t),t指在相同的时间点上]。Cox比例风险模型可以得到HR。资料的类型通常是临床治疗性研究,也可以是流行病学的队列观察性研究。
2、CI指可信区间(confidence interval,CI),对某事件的总体进行推断。可信区间是按一定的概率去估计总体参数(均数或率)所在的范围,它是按预先给定的概率(1-a,常取 95%或99%)确定未知参数值的可能范围,这个范围被称为所估计参数值的可信区间或置信区间。
如95%可信区间,就是从被估计的总体中随机抽取含量为n 的样本,由每一个样本计算一个可信区间,理论上其中有95%的可能性(概率)将包含被估计的参数。
3、P值指的是比较的两者的差别是由机遇所致的可能性大小。P值越小,越有理由认为对比事物间存在差异。例如,P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%,或者说,别人在同样的条件下重复同样的研究,得出相反结论的可能性不足5%。
P>0.05称“不显著”;P<=0.05称“显著”,P<=0.01称“非常显著”。
扩展资料:
生存资料分析中,风险率HR大于1,表示是危险因素;小于1,表示保护因素, 表示试验组与对照组相比,发生终点事件的风险的比值,是试验组和对照组患者生存情况相比的相对值。风险是单位时间段内,发生终点事件的患者数占该时间段开始时的患者总数的百分比。
HR 常通过 Cox 比例风险回归模型计算得到,危害比HR的计算不仅考虑了终点事件的有无,还考虑了到达终点所用的时间及截尾数据。
用 HR 来比较两组患者的生存情况具有以下优势:
1、在某些研究中,研究结束时试验组或对照组可能有 50% 以上的患者仍未发生终点事件或删失,在此种情况下中位生存时间无法获得;
2、生存数据常常服从偏态分布,仅用中位生存时间来代表生存数据整体的分布状态比较片面;
3、通过中位生存时间相减来比较两组患者的生存情况,无法对基线时不平衡的协变量进行调整,得到的效应估计值受到混杂因素的影响,而使用 HR 则可通过多变量 Cox 模型调整混杂因素的影响,得到无偏的效应估计值。
参考资料:
百度百科——风险率(hazard ratio)
百度百科——可信区间
百度百科——P值
我们常常在统计学应用中看到P值,F值,T值,这些参数是什么?我想应该先讲讲“假设检验”,弄明白假设检验,很多问题就通了。
本文首先介绍了假设检验在统计学的位置,然后从 显著性检验 、 P值的疑问 、 假设检验方法的使用 三个角度描述假设检验。
统计学按照发展阶段和侧重点不同,可分为描述统计学和推断统计学 [1]
描述统计学 是阐述如何对客观现象的数量表现进行计量表示;
推断统计学 主要阐述如何根据部分数据(样本统计量)去推论总体的数量特征及规律性的一系列理论和方法
假设检验(hypothesis testing)作为推断统计学的重要部分,用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
常用的假设检验方法有Z检验、T检验、卡方检验、F检验等 [2]
显著性检验(significance test)是假设检验的一种最常用的方法,用于检测实验组与对照组是否有差异以及差异是否显著的办法。
因为显著性检验<假设检验<推断统计学,所以显著性检验具有以下特点:
小概率事件实际不可能性原理是显著性检验的基本原理,如果P小于阈值 ,表明事件是小概率事件,存在发生的可能性但可能性不大甚至不可能发生,所以认为 大概率不会发生,拒绝原假设。
显著性水平是假设检验中的一个概念,是指当原假设为正确时人们却把它拒绝了所愿意承担的风险。
通常取α=0.05或α=0.01。这表明,当作出决策时,其正确的可能性为95%或99%,有0.05或α=0.01下错结论的风险。
置信度也称为可靠度,或置信水平、置信系数
置信度 = 1-α
什么是显著性差异?
H0和H1的设置,不管在什么场景要满足:
赌场上你想检查一下抛掷的硬币是否被动过手脚,要求抛几次硬币看结果是不是公平的。
总共扔了十次,也都是“花”朝上,认为很可能这枚硬币不是公平的。
这就是假设检验:
你提出假设:说硬币是正常的 (H0:硬币是正常的;H1:硬币不正常)
我提出要检验你的假设:扔十次,看实验的结果是不是和你的假设相符
反复扔硬币应该符合二项分布
总共扔10次硬币,那么是出现7次正面之后,可以认为“硬币是不公平的”,还是在出现9次正面以后认为“硬币是不公平”,这是一个主观标准,看你能够承担的风险有多大,也就是显著性水平 。
例如取 为0.05, ,则认为原假设是小概率事件,拒绝原假设,认为硬币不正常,存在显著性差异(和正常硬币的抛掷分布情况很不一样)。
由于取 为0.05,所以这个决策有95%的准确性。
P值是指在特定的统计假设模型下,数据的某个统计指标(如两组样本均数之差)等于观察值或比观察值更为极端的概率。
上文显著性检验就是比较P值和 之间的关系做出决策,但对P值的争议很大,因此需要单独讲一讲P值。
目前科学界对P值的使用存在很大的置疑,认为P值是是扰人烦的蚊子,是皇帝的新衣,比“毫无用处”还糟糕 [6] 。
林泽民教授2016/6/6在台湾政大社科院的演讲,题目为《看电影学统计:p值的陷阱》提到统计学很快会有很重大的改变,传统的作法:用P值来作统计检定的作法,大概再过几年就不容易再存在。
2018年1月22日,美国政治学顶级学术期刊《政治分析》在他们的官方twitter上宣布从2018年的开始的第26辑起禁用p值。根据该刊的声明,其主要原因是:“p值本身无法提供支持相关模式或假说之证据。”
在临床试验中P值的使用尤为普遍,用来检验药物的有效性,P值问题使得近半数的相关论文可靠性被推翻。
为什么说P值是个陷阱?为什么P值本身无法支持相关模式或假说之证据?
主要原因是因为:P值只能对样本数据负责,但模型的意义在于推断总体,所以总有以偏概全的风险存在。同时,因为P值易受样本操控,而很多研究为了得到想要的结论,往往是不断调整样本量,直到得到想要的结果 [8] 。
P值本身是没有问题的,但如果单纯只依赖P值是否小于 做出决策却也是不可取的,学术界反对的是P值的滥用。
美国统计协会(American Statistical Association,ASA)全面透彻地梳理了统计界关于P值的统计意义并形成共识 [7] :
而常用统计推断检验方法分为两大类:参数检验和非参数检验
根据总体数据是否服从某种分布,采用参数检验和非参数检验两种检验方法,具体使用哪种检验方法根据属性和要求决定。
某公司运营团队为了针对活跃度提升专题运营活动的效果进行测试,从同样群体中抽出两组人群,一组运营组,一组对照组。30天后运营活动结束后,想要知道该次针对性运营是否有效,两组活跃度分数是否差异明显?
T检验是数据化运营效果分析中应用最多的方法和技术。使用要求为:1)样本组之间独立;2)每组样本来自正态分布总体;3)两个独立样本方差相等。
虽然两组都是独立的,但两组样本的总体不一定是正态分布的,方差也不一定相等,我们可以采用非参数检验—wilcoxon符号秩检验。
wilcoxon符号秩检验适用于两个独立样本间的两两比较。
如果不能确定总体是否为正态分布,则只能退而求其次用非参数检验的方法。如果满足T检验要求,有限考虑T检验的结果。
[1] 推断统计学: https://baike.baidu.com/item/%E5%BD%92%E7%BA%B3%E7%BB%9F%E8%AE%A1%E5%AD%A6/10023692?fr=aladdin
[2] 假设检验: https://baike.baidu.com/item/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C/638320?fr=aladdin
[3] 显著性水平: https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E6%B0%B4%E5%B9%B3/1383148?fr=aladdin
[4] 显著性差异: https://baike.baidu.com/item/%E6%98%BE%E8%91%97%E6%80%A7%E5%B7%AE%E5%BC%82/950812?fr=aladdin
[5] 统计学假设检验中 p 值的含义具体是什么? https://www.zhihu.com/question/23149768/answer/23758600
[6] 统计学里“P”的故事:蚊子、皇帝的新衣和不育的风流才子: https://www.guokr.com/article/438043/
[7] 临床试验中P值的意义及结果: http://www.sohu.com/a/192858946_776163
[8] P值的陷阱: https://www.zhihu.com/search?type=content&q=P%E5%80%BC%E9%99%B7%E9%98%B1
[9] 非参数检验: https://www.zhihu.com/search?type=content&q=%E9%9D%9E%E5%8F%82%E6%95%B0%E6%A3%80%E9%AA%8C
4比24,1. 在医学科研中,针对同一问题常常同时或者先后有许多类似的研究。2. 由于研究对象数量的限制、各种干扰因素的影响以及研究本身的或然性等原因,许多研究结果可能不一致,甚至相反。
3. 要获得可信的结论,有两种解决方法,一是通过严格设计的大规模随机试验进行验证;二是通过对这些研究及其结果进行综合分析和再评价,有时随机试验结果本身也需要综合。
4. 利用一定的统计方法完成很高的“效价比”,这种统计方法称为meta分析。
二、meta分析的定义
meta分析时对具有相同目的且相互独立的多个研究结果进行系统的综合评价和定量分析的一种研究方法。即meta分析不仅需要搜集目前尽可能多的研究结果,并进行全面、系统的质量评价,而且还需要对符合选择条件(如纳入标准和排除标准)的研究进行定量的合并。
三、meta分析的目的:
从统计学角度看,meta分析达到了增大样本含量,提高检验功效的目的,尤其是当多个研究结果不一致或都没有统计学意义时,采用meta分析可能得到更加接近真实情况的综合结果;从狭义的角度讲,meta分析只是一种用于定量合成的统计学处理方法;从广义的角度讲,meta分析已经不再简单地局限为一种统计学方法,而是汇总了多个同类研究结果,并对研究结果进行定量合并的研究过程,是一种定量的系统评价方法。
四、meta分析的基本思想
它是通过搜集已有的或未发表的具有某一可比特性的文献,应用一定的统计学方法综合多个目的相同而相互独立的研究结果得出一个量化的合并效应结论,或者得到同类研究为什么会有不同结果的有关原因的提示,具有较强的科学性和可重复性。meta分析最致命的缺陷在于它是观察性研究,而不是具体的临床研究。
五、meta分析的作用
1. 增大检验效能;
2. 评价结果的一致性,解决研究中的矛盾,发现同类研究中是否存在异质性;
3. 评价各种研究结果以及各亚组结果的不一致,探索异质性的来源,定量地综合估计处理效应的大小,改善效应的估计值。
第一节 meta分析的应用条件和基本步骤
meta分析是系统评价(systematic review, SR)中常用的一种统计方法,但也并不是万能的。
(1)对一些经过大样本、多中心的临床试验已得到明确结论的研究,不必做meta分析;
(2)对那些设计或执行质量很差的研究,如存在严重偏倚的资料,也不能寄希望于通过meta分析就能得到可信的结论。
一、meta分析的应用条件
1. 收集的研究资料要全面。未发表的文章一般是提供没有显示效果或提供阴性结果或无结论的文章,而发表的文章一般提供阳性结果,如果仅仅选择发表的文章做得meta分析,就有可能夸大阳性效果。
2. 确定meta分析研究资料的入选标准及排除标准。
3. 研究资料效应指标明确。
4. 各研究的同质性。meta分析的统计方法包括固定效应模型和随机效应模型。
(1)fixed effect model:假设各个研究的效应指标统计量是同质的,即都是基于来自同一总体的独立随机样本,各个研究效应指标统计量之间的差异仅仅来自于抽样误差,不同的研究之间的变异很小,各研究的效应指标统计量与总体参数θ的差异均是抽样误差所致。因此fixed effect model 给出的合并效应量(effect size, ES)是各个研究的同一总体参数θ的点估计及其95%可信区间。
(2)random effect model:假设各个研究的效应指标统计量是不同质的,即是基于来自不同总体的独立随机样本,各个研究效应指标统计量之间的差异不能用抽样误差来解释,各研究间的变异较大,每个研究的效应指标统计量对应各自的总体参数θi(i=1,2,...,k),但可以假定θ1,θ2,...,θk近似服从N(θ,Γθ2),θ便是θ1,θ2,...,θk的总体均数。因此,随机效应模型给出的合并效应量则是各个研究的总体参数θ1,θ2,...,θk的总体均数θ的点估计及其95%可信区间。
二、meta分析的基本步骤
1. 提出需要并可能解决的问题,制定研究计划。
2. 搜索相关文献;
3. 确定纳入和剔除标准,筛选meta分析文献;
(1)纳入标准:
①各研究假设和研究方法相似;
②有研究开展或发表的文献;
③各研究对样本大小有明确规定;
④各研究中患者的选择和病例的诊断及其分期有明确的标准,干预和对照措施明确;
⑤如研究报告可提供OR(RR、率差、HR)及其95%可信区间,或可以转化为OR(RR、率差、HR)及其95%可信区间;如为计量资料应可提供均数、标准差和样本量等。
(2)排除标准:
①重复报告;
②存在研究设计缺陷,质量差;
③数据不完整、结局效应不明确;
④统计方法错误且无法修正,无法提供或可供转化为OR(RR、率差、HR)及其95%可信区间,计量资料无法提供均数和标准差。
4. 评价纳入文献的质量:常用Jadad量表。
5. 提取纳入文献的数据信息。
6. 数据的统计学处理。
(1)效应指标的选择:对于计量资料常用均数之差、相关系数等;对于分类资料常用OR、RR和率差(rate difference,RD)等;
(2)异质性检验,根据异质性判断结果选择合适的统计分析模型;
(3)效应尺度的参数估计及其图示;
(4)效应尺度的假设检验。
7. 敏感性分析:为了了解meta分析结论的稳定性,需要通过几种方式来考察meta分析结论有无较大变化。主要包括:
(1)选择不同统计模型时,效应合并值点估计和区间估计的差异;
(2)剔除质量相对较差的文献后,结论的差异;
(3)对文献进行分层分析前后,结论的差异;
(4)改变纳入、剔除标准前后,结论的差异。
8. 结果的讨论与分析
(1)异质性及其效应尺度的影响;
(2)偏倚的识别和控制;
(3)各种研究类型、研究质量、发布周期等亚组分析;
(4)meta分析结果的实际意义等。
第二节 计量资料的meta分析
1. 若研究间具有同质性,则采用固定效应模型;一般采用Inverse-variance法(倒方差加权法);
2. 若研究间具有异质性,应选择随机效应模型;在Inverse-variance法的基础上,采用DerSimonian-Laird法,引入校正因子对固定效应模型中的权重进行校正后再计算合并效应量及其95%置信区间。
3. 异质性检验:
(1)若P≤α(α一般取0.10或0.05),则拒绝H0,可认为各研究间异质性大,采用随机效应模型;
(2)若P>α,则不拒绝H0,可认为各研究间具有同质性,应采用固定效应模型。
4. 基于固定效应模型的合并效应量的95%置信区间
5. 基于随机效应模型的合并效应量及其95%置信区间
6. 结论
若合并效应量的95%置信区间包含0,则表明效应合并量与0的差异无统计学意义,即试验组与对照组间差异无统计学意义;否则,表明效应合并量与0的差异有统计学意义,即试验组与对照组间有统计学意义。
meta分析的统计结果简单而直观地表达形式是森林图(forestplots)
(1)它是以一条垂直的无效线(横坐标刻度为1或0)为中心,用平行于横轴的多条线段描述每个被纳入研究的效应量和可信区间,用一个菱形(或其他图形)描述合并的效应量及其可信区间,在平面直角坐标系中绘制出的一种图形。
(2)当统计指标OR、RR、RD及加权均数差和均数差的95%可信区间横线与森林图的无效线(横坐标刻度为1或0)相交时,表明试验组的效应量与对照组相等,可认为试验因素无效;
(3)当其95%可信区间横线不与森林图的无效线相交且落在无效线右侧时,表明试验组的效应量大于对照组;
(4)当其95%可信区间横线不与森林图的无效线相交且落在无效线左侧时,表明试验组的效应量小于对照组;
(5)对于临床研究而言,当试验组效应量大于对照组时,因研究事件性质不同而临床意义会截然相反;同样当试验组效应量小于对照组时其临床意义亦然。
第三节 两分类数据的meta分析
OR:oddsratio优势比
RR:risk ratio风险比
RD:risk difference 风险差异
两分类数据资料进行meta分析可选择OR、RR和RD[相当于队列研究中的归因危险度(attributable risk,AR)]等作为效应指标,再根据异质性检验结果选择不同的分析模型。
(1)若各研究间具有同质性,则采用固定效应模型;
(2)若各研究间具有异质性,则采用随机效应模型;
一、固定效应模型
对两分类变量资料而言,适应于固定效应模型的meta分析方法有Mantel-Haenszel法(简称M-H法)、Peto法、Fleiss法以及Inverse-variance法。除了Peto法外,其他三种方法是RevMan、Stata等软件进行meta分析时的常用方法。
1. M-H法
M-H法是分类变量固定效应模型常用的统计方法,可用于OR、RR和RD等效应指标的合并。该方法需要每个研究有完整的四格表。
2. Peto法
也称改良的M-H法,常用于以比数比OR为效应指标进行多个研究的合作,是固定效应模型的经典方法。对于无法获得完整四格表的文献研究,Peto法则弥足了这一不足。不过,Peto法在四格表很不平衡或各个纳入研究的OR值都远离1时会产生较大的偏性,故常用于基于OR值的研究。
3. Inverse-variance法
该方法可用于计量资料的均数差等效应指标的合并,也可用于分类资料的比数比(OR)、相对危险度(RR)和危险度差(RD)等效应指标的合并。用θ估计值表示ln(OR)、ln(RR)或RD等效应指标的总体估计值。
二、随机效应模型
Meta分析时,若异质性检验拒绝零假设,则应采用随机效应模型。与计量资料一样,对于分类资料,当异质性检验统计量Q<k-1,其与固定效应模型相似;当Q≥k-1,随机效应模型主要是对固定效应模型中的wi加以校正,即计算所谓的校正因子Γ2值。
本节介绍的异质性检验,统计量Q易受研究文献数量的影响。若研究文献多,合并方差小,则权重大,对Q值的贡献也大,这是容易得出假阳性(即拒绝H0,不同质)的结果;反之,如果研究文献较少,权重也较小,检验效能又往往太低,容易得出假阴性(即不拒绝H0,同质)的结果。从而,导致效应模型上的选择错误,特别是把理应采用随机效应模型的分析错误的选择了固定效应模型,其所得的结果会相差很远,甚至结论相反。为此,可通过对统计量Q进行自由度的校正,来降低研究文献的数量对异质性检验结果的影响。这就是目前也常用的另一种基于统计量Q的异质性判断方法,即I2统计量,
I2={[Q-(k-1)]/Q}X100% 当Q>k-1
I2=0 当Q≤k-1
其中,k表示纳入meta分析的研究个数。
一般地I2>56%时,提示各研究间存在较大的异质性;I2<31%时,则可认为各个研究是同质的。I2在31%-56%之间,往往无法排除其异质性的存在。
第四节 诊断试验的meta分析
诊断试验的meta分析与一般的随机对照试验的meta分析不同,选择的文献要有明确的诊断金标准,并可直接或间接获得诊断试验的真阳性(TP)、假阳性数(FP)、假阴性数(FN)、真阴性数(TN)等原始数据。
一、单一评价指标的meta分析
诊断试验的meta分析常用的效应指标有灵敏度(Sen)、特异度(Spe)、阳性似然比(LR+)、阴性似然比(LR-)、诊断比数比(DOR)及ROC曲线等。传统的诊断试验meta分析时将各独立研究的单一评价指标进行综合估计,得到相应的合并效应值及其95%CI。
应用条件:不同研究的结果具有同质性是计算灵敏度、特异性、阴性似然比和阳性似然比等单一指标合并效应量的前提条件。否则,因异质性会造成评价结果的不准确性。
二、SROC曲线法
Moses等提出了一种基于ROC曲线的所谓SROC曲线法,该方法不受异质性或阈值的影响,并综合了灵敏度和特异度的信息,可综合评价诊断试验的准确度。
SROC曲线,即综合受试者工作特征曲线,它是通过对真阳性率(true positive rate, TPR)与假阳性率(false positive rate, FPR)进行logit变换,将TPR与FPR间的非线性关系转化成一种线性关系,利用最小二乘法进行参数估计,建立SROC曲线回归方程,并获得综合评价诊断试验准确度的统计量。
SROC曲线分析法的基本步骤如下:
(1)计算各研究的TPR和FPR,对其进行logit变换。
(2)估计模型参数A及B。
(3)建立SROC曲线回归方程。
对于SROC曲线分析方法,用TPR*表示SROC曲线的诊断试验准确性,它与灵敏度和特异度有关,也可用于不同诊断试验间诊断准确性的比较。
TPR*=(1+e-A/2)-1
第五节 meta分析的偏倚考察
Meta分析中可能出现的偏倚:
(1)抽样偏倚:发表偏倚、查找偏倚、索引偏倚、引文偏倚和语种偏倚;
(2)选择偏倚:纳入标准偏倚和选择者偏倚;
(3)研究内偏倚:提取者偏倚、研究质量评分偏倚和报告偏倚;
(4)发表偏倚:指具有统计学意义的研究结果较无统计学意义或无效的结果被报告和发表的可能性更大,是meta分析中最常见的偏倚。
识别和控制发表偏倚的方法有:
1. 漏斗图法
基本思想:每个纳入研究的效应值的精度随研究的样本量的增加而增加,即样本量越小的研究,其变异越大。一般以效应值为横坐标,精度为纵坐标绘制散点图,若纳入研究无发表偏倚,则图形呈现倒置的漏斗形;若漏斗图不对称或不完整,则提示可能存在发表偏倚。
优点:简单易操作,只需要利用每个纳入研究的样本量和效应值就可以了。
缺点:此法只能对结果做定性判定,比较粗糙,适合于纳入的研究个数比较多的情况。
2. 线性回归法
针对漏斗图只能进行定性判断的特点。根据漏斗图的基本原理,可以用线性回归模型来检验漏斗图的对称性,称为线性回归法。
方法:
(1)先计算纳入分析的每个研究的标准正态离差(SND)和精度(precision),以精度为自变量,标准正态离差为应变量建立回归方程,即
SND=a+b*precision。
标准正态分布亦称为μ分布,μ被称为标准正态分布或标准正态离差(standard normaldeviate)
(2)精度是由样本量决定,样本量趋近0时,精度也接近0,SND也趋近0。因而小样本研究代表的散点在回归直线中接近原点。
(3)理论上,如果不是来自一个有偏倚的样本,那么散点的分布能形成一条通过原点的直线,回归直线的截距a=0,这也对应于对称的漏斗图。a的大小用以评价不对称性,a的绝对值越大,表示越可能有偏倚;斜率b表示效应值的大小。
(4)实际操作中,求出线性回归方程的截距,并对是否为0进行假设检验,进一步推断漏斗图是否对称,是否存在发表偏倚。
优点:简单易懂,容易计算;
缺点:Egger’s test 中自变量的标准误估计来自纳入研究的数据,存在抽样误差,因而回归方程的斜率和截距都为有偏估计,而且线性回归法不能解释漏斗图不对称的原因。
3. 漏斗图回归法:针对Egger的线性回归其标准差的估计存在抽样误差这一局限之处,提出了一种新方法,即漏斗图回归法。
原理:直接以效应值为应变量,样本量n为自变量直接建立回归方程。若不存在发表偏倚,那么回归直线的斜率应该为0,截距代表总体的效应值。如果得到的回归方程,经假设检验后斜率不为0,那么提示有可能存在发表偏倚。
4. 秩相关法(基于Kendall’s的秩相关检验法)
如果Z>1.96,P<0.05,提示可能存在发表偏倚;如果Z<1.96,P>0.05,提示不存在发表偏倚。
Begg的秩相关检验被认为是漏斗图的直接统计学模拟,但对该检验效能的模拟研究结果表明,检验效能的变异性大。
5. 剪补法(trim and fill method)
剪补法是一种非参数统计方法,用于估计缺失的研究个数,并对发表偏倚进行校正。
缺点:(1)剪补法是建立在漏斗图是严格对称的基础上,然而实际情况并非如此。漏斗图可能会受到各种情况的影响。
(2)用剪补法来探测发表偏倚,容易受极端值的影响。
(3)计算过程中不断进行中心化。
6. Richy法
X=∑i=k i=1 fi x (di-d-)
MF= fi x (di-d-)
前5种方法容易受到极端值影响,Richy法利用非参数方法求出所有MF的可信区间(一般是95%CI)。如果X的值在这个区间外,就认为存在发表偏倚。
缺点:该方法存在很多的局限;
优点:但是因为这个方法的提出,跳出了漏斗图这一基础限制,从另外一个角度来看待发表偏倚。
7. 失安全数法(fail-safe number method):也称为“抽屉文件”分析(file drawer analysis)。是一种敏感性分析方法。
基本思想:当meta分析得到有统计学意义的“阳性”结果时,为了避免该“阳性”结果是由于遗漏了一些没有统计学意义的“阴性”结果文献而产生的,可以估计这些可能被遗漏了的“阴性”结果的研究数量NR,即最少需要再增加多少“阴性”结果的研究才能使综合分析的结论逆转,由此来评价发表偏倚的程度。
(1)NR越大,表明存在这种因遗漏“阴性”结果而导致发表偏倚的程度越低,此时meta分析的结果也就越可靠。
(2)NR越小,则表明存在这因遗漏“阴性”结果而导致发表偏倚的程度越高,此时meta分析的结果也就越不可靠。
(3)一般,当NR<10时,meta分析得到的阳性结果应慎重对待。
从严格意义上讲,该方法不是一种识别发表偏倚的方法,而是一种能否确定发表偏倚可以忽略的方法,属于敏感性分析范畴。
优点:属于敏感性分析范畴。
缺点:当本身合并效应值无统计学意义时,则不能进行。
8. 量表评价法:Jadad量表较为常用。
如果各研究间异质性较大,则可在分析异质性的来源后,根据原因作出处理,包括:
(1)亚组分析:可以将各研究按设计方案、研究质量等分为几个亚组,分别合并及评价;
(2)敏感性分析:将所有研究纳入分析,得出结果。再将被认为是有异常的研究排除后重新分析,通过比较前后两次分析结果的差异来评价被排除的研究对综合结果的影响;
(3)采用随机效应模型等。
总之,在meta分析之前,应测量发表偏倚和评估其影响程度,如果发表偏倚较大,则需进一步收集相关资料信息,如与原文作者或者研究组联系,查阅有无阴性结果的研究,如果有,则尽量从中获得相关的资料。如果不能将发表偏倚减少到一定的水平,则只能放弃meta分析。
第七节 meta分析的具体实施
Meta分析常用的软件有Stata和ReviewManager,前者较好。尤其在做漏斗图方面以Stata为佳,还有敏感性分析和偏倚分析方面更佳。在Stata/SE软件中才有Meta分析(在User栏),无“/SE”的Stata软件不可。
Meta分析最重要的是文献搜索,一般要将pubmed,splinger,website,ovid,万方,NK等中外数据库均可用到,当中、英文重叠时取英文的,方式一般取[Title/Abstract],连接词“OR”较好,半年之内完成就(四个月搜索文献阅读,1周分析,余下的时间写作)可尝试不同的检索方式,队列及病例对照研究均要,队列研究的价值高。如果队列研究多,而病例对照只有1个,则舍去;反之亦然。在meta分析的文中必须有1个检索流程。
欢迎分享,转载请注明来源:优选云