
Cox比例风险模型 (考克斯,1972年)是常用的统计在医学研究调查的患者和一个或多个预测变量的存活时间之间的关联回归模型。
在上一章 生存分析基础 中,我们描述了生存分析的基本概念以及生存数据的分析和汇总方法,包括:
上述方法-Kaplan-Meier曲线和logrank检验-是 单变量分析的 示例。他们根据调查中的一个因素描述了生存情况,但忽略了其他因素的影响。
此外,仅当预测变量为分类变量时(例如:治疗A与治疗B;男性与女性),Kaplan-Meier曲线和对数秩检验才有用。对于定量预测指标(例如基因表达,体重或年龄),它们并不容易工作。
一种替代方法是Cox比例风险回归分析,它既适用于定量预测变量也适用于类别变量。此外,Cox回归模型扩展了生存分析方法,可以同时评估几种风险因素对生存时间的影响。
在本文中,我们将描述Cox回归模型并提供使用R软件的实际示例。
内容
在临床研究中,有许多情况,其中几个已知量(称为 协变量covariates )可能会影响患者的预后。
例如,假设比较了两组患者:有和没有特定基因型的患者。如果其中一组还包含较年长的个体,则生存率的任何差异都可能归因于基因型或年龄,或两者都有。因此,在调查与任何一个因素相关的生存率时,通常需要针对其他因素的影响进行调整。
统计模型是一种常用工具,可以同时分析多个因素的生存率。此外,统计模型还提供了每个因素的影响大小。
考克斯比例风险模型是用于对生存分析数据进行建模的最重要方法之一。下一节介绍Cox回归模型的基础。
该模型的目的是同时评估几个因素对生存的影响。换句话说,它允许我们检查特定因素如何影响特定时间点特定事件(例如,感染,死亡)的发生率。该比率通常称为风险比率。预测变量(或因子)在生存分析文献中通常称为 协变量 covariates 。
Cox模型由 h(t) 表示的 风险函数 表示。简而言之,危险函数可以解释为在时间t死亡的风险。可以估计如下:
其中:
Cox模型可以被写为变量 x(i)的 危险对数的多元线性回归,而基线危险是随时间变化的“截距”项。
系数 bi 称为危险比率(HR,hazard ratio)。 bi 值大于零,或相当于风险比率大于1,表明随着第 i 个协变量值的增加,事件风险增加,因此生存时间缩短。
换句话说,风险比大于1表示协变量与事件概率正相关,因此与存活时间负相关。
总之,
HR=1:无影响
HR<1:危害降低
HR>1:危险增加
在癌症研究中:
Cox模型的关键假设是观察组(或患者)的危险曲线应成比例,并且不能交叉。
假设两个x值不同的患者k和k'。相应的风险函数可以简单地写成如下:
因此,Cox 模型是一个比例风险模型:任何一组事件的风险都是其他任何一组事件风险的常数倍。这一假设意味着,如上所述,各组的危险曲线应成比例,不能交叉。
换言之,如果一个人在某个初始时间点的死亡风险是另一个人的两倍,那么在以后的任何时候,死亡风险仍然是另一个人的两倍。
这种比例风险的假设应该得到检验。我们将在本系列的下一篇文章中讨论评估比例性的方法: Cox模型假设 。
我们将使用两个R包:
函数 coxph ()[在 survival 包中]可用于计算R中的Cox比例风险回归模型。
简化格式如下:
我们将在生存R数据包中使用肺癌数据。
我们将使用以下协变量来拟合Cox回归:年龄,性别,phecog和wtloss。
我们首先为所有这些变量计算单变量Cox分析。然后我们将使用两个变量来拟合多元Cox分析,以描述这些因素如何共同影响生存。
单变量Cox分析的计算公式如下:
Cox模型的功能 摘要 ()产生更完整的报告:
Cox回归结果可以解释为:
要将单变量coxph函数一次应用于多个协变量,请输入以下命令:
上面的输出显示了每个变量相对于总生存率的回归beta系数,效应大小(以危险比给出)和统计显着性。通过单独的单变量Cox回归评估每个因素。
从上面的输出中,
现在,我们要描述这些因素如何共同影响生存。为了回答这个问题,我们将执行多元Cox回归分析。由于变量phkarno在单变量Cox分析中不重要,因此在多变量分析中将其跳过。我们将3个因素(性别,年龄和phecog)纳入多元模型。
时间常数协变量的死亡时间的Cox回归指定如下:
所有三个总体测试(似然性,Wald和得分)的p值均显着,表明该模型具有显著性。这些测试评估了所有beta的综合零假设为0。在上面的示例中,检验统计量非常一致,并且完全拒绝了综合零假设。
在多变量Cox分析中,协变量性别和phecog保持显着性(p <005)。但是,协变量年龄不显着(p = 023,大于005)。
性别的p值为0000986,危险比HR = exp(coef)= 058,表明患者的性别与死亡风险降低之间有很强的关系。协变量的危险比可解释为对危险的倍增效应。例如,保持其他协变量不变(女性(性别= 2))可将危险降低058或42%。我们得出结论,成为女性与良好的预后相关。
同样,phecog的p值为445e-05,危险比HR = 159,表明phecog值与死亡风险增加之间有很强的关系。保持其他协变量不变,phecog的值越高,生存率越低。
相比之下,年龄的p值现在为p = 023。危险比HR = exp(coef)= 101,95%置信区间为099至103。由于HR的置信区间为1,因此这些结果表明,在调整phog值和患者的性别之后,年龄对HR差异的贡献较小,并且仅趋于显着。例如,在其他协变量保持不变的情况下,再增加一岁会引起每日死亡危险,其系数为expβ= 101或1%,这并不是一个重要的贡献。
将Cox模型拟合到数据后,就可以可视化特定风险组在任何给定时间点的预测生存率。函数 survfit ()估计生存比例,默认情况下为协变量的平均值。
我们不妨展示估计的生存率如何取决于目标协变量的值。
考虑到这一点,我们想评估性别对估计生存率的影响。在这种情况下,我们用两行构造一个新的数据帧,每一行代表性别。其他协变量固定为其平均值(如果是连续变量)或最低水平(如果它们是离散变量)。对于伪协变量,平均值为数据集中编码为1的比例。该数据帧通过 newdata 参数传递给 survfit ():
在本文中,我们描述了Cox回归模型,用于同时评估多种风险因素与患者生存时间之间的关系。我们演示了如何使用 生存 包计算Cox模型。此外,我们描述了如何使用 survminer 软件包来可视化分析结果。
生存函数(英文:survival function),也被称为残存函数(英文:survivor function)或可靠性函数(英文:reliability function),是一种表示一系列事件的随机变量函数。
datadif函数是专门用来计算两个日期之间的月或年或天的差的函数;
计算月差公式为:=DATEDIF(A1,B1,"m")
如下图所示:
不存在小数问题,如果需要精确到天,公式如下:
=DATEDIF(A1,B1,"m")&"月"&DATEDIF(A1,B1,"md")&"天"
如下图所示:
生存分析:分析不同实验条件下,研究对象“生存时间”的分布情况,从而了解实验条件对生存时间的影响。这里的“生存时间”不是专指人或动物的生命延续时间,而是泛指某个事件发生前的延续等待时间。之所以用“生存”分析这个名称,是因为这种分析技术常用于描述病人在接受某种治疗后,他们存活时间的分布情况。
事件及事件发生
事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点
生存时间
生存时间是指从某一起点开始到所关心事件发生的时间。因为生存时间是生存分析的分析对象,所以对生存时间的长度确定至关重要。
删失/失访
删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。删失分为右删失、左删失和期间删失三种。只知道生存时间大于某一时间点,这种删失称为右删失;只知道生存时间小于某一时点的删失称为左删失;只知道生存时间在某一段时间之内的删失称为区间删失,右删失的情况最为常见。虽然删失使得生存时间无法准确计算,但在生存分析时还是应该将其考虑在内,因为删失数据会影响到最终的生存率结果。
生存分析原理
生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布,如何形象刻画生存时间的分布情况呢?可以用一个二维坐标图来描述,横轴是时间长度,纵轴是事件发生概率,这就能很清楚的知道生存时间的概率分布情况了。
因为涉及到概率,那么自然要用概率函数来表示。根据计算概率的不同,生存分析的概率函数有两种:风险函数和生存函数。生存函数和风险函数是用来描述生存时间的分布的两个主要工具。
用一个非负随机变量T来表示生存时间,生存函数定义为随机变量T越过某个时点t时,所有考察对象中,没有发生事情的概率,也就是生存下来的概率。当t=0时,生存函数的取值为1,随着时间的推移(t值增大),生存函数的取值逐渐变小,生存函数是时间t的单调递减函数。
根据生存函数,又可以提出累积风险函数,它的公式为:
表示生存时间T为超过时间点t时,研究对象中,已经发生事件的概率。
此外还有一个风险概率密度函数,它是累积风险函数的导数,公式如下:
风险概率密度函数表示某个时间点t上,事件发生的概率。
通过以上公式,最终我们可以得到风险函数,计算公式为:
表示生存时间T达到时间点t时,在接下来一瞬间,事件发生的概率。
从上面的结果可知,风险函数和生存函数是可以互相推导的,因此在生存分析中,既可以生存函数,也可以用风险函数,一般生存函数的运用更多。
事件及事件发生: 事件是指研究者所关心的事件发生了,事件发生的时间点,也就是生存时间的记录终点。
生存时间: 一般指某个事件的开始到终止这段事件,如癌症研究中的疾病确诊到缓解或者死亡,其中有几个比较重要的肿瘤临床试验终点。
生存概率(Survival probability): 指某段时间开始时存活的个人至该时间结束时仍然存活的可能性大小。
删失: 删失是指事件发生未被观测到或无法被观测到以至于生存时间无法被准确记录下来的情况。生存数据存在很多数据删失现象。删失分为右删失、左删失和期间删失三种。
生存分析原理:
生存分析刻画的是生存时间的分布情况,这里的分布指的是概率分布。用一个二维坐标图来描述,横轴是时间长度,纵轴是事件发生概率。
生存分析的概率函数有两种:风险函数和生存函数。用来描述生存时间的分布。
生存函数定义为随机变量越过某个时点t时,所有考察对象中,没有发生事情的概率,也就是生存下来的概率。当t=0时,生存函数的取值为1,随着时间的推移(t值增大),生存函数的取值逐渐变小。
根据生存函数,又可以提出累积风险函数。表示生存时间T为超过时间点t时,研究对象中,已经发生事件的概率。此外还有一个风险概率密度函数,它是累积风险函数的导数。风险概率密度函数表示某个时间点t上,事件发生的概率。
通过以上公式,最终可以得到风险函数,表示生存时间T达到时间点t时,在接下来一瞬间,事件发生的概率。
从上面的结果可知,风险函数和生存函数是可以互相推导的,因此在生存分析中,既可以生存函数,也可以用风险函数,一般生存函数的运用更多。这就好像测量汽车速度,可以测量瞬间速度,也可以通过测量距离和行驶时间计算平均速度,瞬时速度的测量通常是比较困难的,而且容易受到随机误差影响。
细胞间质: 细胞与细胞之间存在着细胞间质。人体组织内的细胞都浸润在细胞间质液中。细胞间质的多少与细胞间的密集程度有关。细胞间质就是细胞之间的物质。
基质细胞: 源自血液器官(如骨髓或胎肝)的一种非血细胞,可支持血细胞在体外的生长。基质细胞是人体内具有强分化能力和再生能力的功能细胞。
内皮细胞: 内皮细胞形成血管的内壁,保持血液的正常流动和血管的长期通畅。
NK细胞:自然杀伤细胞是机体重要的免疫细胞,与抗肿瘤、 抗病毒感染和免疫调节有关。
ECM: 细胞外基质,由细胞分泌到细胞外空间,不仅对组织细胞起支持、保护、营养作用,而且还与细胞的增殖、分化、代谢、识别、黏着、迁移、死亡等基本生命活动密切相关。细胞外基质被纤维母细胞修饰,这一修饰会增加ECM壁厚和胶原纤维,起到限制免疫细胞接触癌细胞的物理屏障作用。
EMT: 上皮细胞间质转化,EMT 简单来说就是上皮细胞转化为间质型细胞的过程。一般来说,这种转化有助于细胞在胚胎中的迁移。人类的大部分癌症主要先累及的是器官的上皮细胞层,通常情况下它们并不具备运动能力,但发生EMT的癌细胞由于粘附能力显著减弱,会造成癌症的转移。
基因标签( Gene signature ): 从数万个基因中寻找与疾病相关的差异表达基因,这些基因将成为诊断或愈后相关疾病的基因标签。
免疫检查点分子: 免疫系统中起抑制作用的调节分子,其对于维持自身耐受、防止自身免疫反应、以及通过控制免疫应答的时间和强度而使组织损伤最小化等至关重要。免疫检查点分子表达于免疫细胞上,将抑制免疫细胞功能,使机体无法产生有效的抗肿瘤免疫应答,肿瘤形成免疫逃逸。
免疫检查点抑制剂: 针对相应的免疫检查点研发的一些单抗类药物,其主要作用为阻断表达免疫检查点的肿瘤细胞与免疫细胞之间的作用,从而阻断肿瘤细胞对免疫细胞的抑制作用。类似于免疫检查点封锁(ICB)
抗原呈递: 抗肿瘤免疫需要T细胞在MHC上识别肿瘤表位,这一过程称为抗原呈递。
抗原提呈: 指抗原被抗原提呈细胞摄取,加工后以免疫性肽的形式呈现于提呈细胞表面,最终被免疫活性细胞识别的过程。抗原提呈过程是免疫反应的起始阶段,它发动免疫应答过程。
抗原表位: 是抗原物质分子表面或其他部位,具有一定组成和结构的特殊化学基团,能与其相应抗体或致敏淋巴细胞发生特异性结合的结构。
免疫原性: 免疫原性是指能引起免疫应答的性能,即抗原能刺激特定的免疫细胞,使免疫细胞活化、 增殖、分化,最终产生免疫效应物质抗体和致敏淋巴细胞的特性。一种物质能否被定义为抗原,取决于其是否具有免疫原性及免疫反应性(抗原性)。肿瘤会产生不同程度的免疫反应的特性被称为免疫原性。
免疫表型: 免疫表型是通常所说的白细胞分化标志,即CD加上数字,比如,CD3+是T细胞。
免疫效应: 免疫效应大致可分为抗体依赖性和非抗体依赖性两类。前者又称体液免疫,后者又称细胞免疫。
免疫耐受: 免疫耐受是指对抗原特异性应答的T细胞与B细胞,在抗原刺激下,不能被激活,不能产生特异性免疫效应细胞及特异性抗体,从而不能执行正常免疫应答的现象。
免疫毒性: 机体对自身组织成分或细胞抗原失去免疫耐受性,导致自身免疫效应细胞和自身抗体,对自身组织进行病理性免疫应答,引起组织结构的损伤。
免疫排斥: 免疫排斥是机体对异体细胞、组织或器官通过特异性免疫应答使其破坏的过程。
免疫编辑: 免疫系统在清除一些肿瘤细胞的同时,也对另一些肿瘤细胞的生物学特性(如肿瘤的抗原性)进行重塑,也即所谓的“免疫编辑”。被免疫编辑过的肿瘤细胞恶性程度越来越高,对免疫攻击的抵抗力越来越强,直至最终摧毁机体的免疫系统,造成肿瘤细胞的恶性生长并扩散。
肿瘤浸润性淋巴细胞(TIL): 从肿瘤组织中分离出的浸润淋巴细胞。
单克隆抗体: 由单一B细胞克隆产生的高度均一、仅针对某一特定抗原表位的抗体。
肿瘤免疫逃逸机制: 指肿瘤细胞通过多种机制逃避机体免疫系统识别和攻击,从而得以在体内生存和增殖。
肿瘤突变负担(TMB): 每百万碱基中被检测出的,体细胞基因编码错误、碱基替换、基因插入或缺失错误的总数。肿瘤突变负荷是一个具有良好前景的全新生物标志物。TMB高与免疫治疗疗效呈正相关。
人类白细胞抗原(HLA): 人类的主要组织相容性复合体(MHC)的表达产物。
DNA损伤: 复制过程中发生的DNA序列永久性改变,并导致遗传特征改变的现象。
DNA修复: 细胞对DNA受损伤后的一种反应,这种反应可能使DNA结构恢复原样,重新能执行它原来的功能;但有时并非能完全消除DNA的损伤,只是使细胞能够耐受这DNA的损伤而能继续生存。
冷肿瘤和热肿瘤: 肿瘤的发生一定需要躲开免疫细胞的监控。一般有两种情况,第一种是肿瘤细胞装正常细胞装得特别好,隐藏得很深,免疫细胞完全没有发现异常,在显微镜下看,这类肿瘤中间往往没有免疫细胞的影子,这就是“冷肿瘤”;第二种情况是肿瘤细胞没有装,免疫细胞已经识别并包围了肿瘤细胞,但肿瘤细胞进化过程中启动了免疫抑制,阻止了免疫细胞杀死癌细胞。如果我们在显微镜下面看这类肿瘤,会发现肿瘤中其实有很多“充满正义感”的免疫细胞,但它们没能发挥作用,这就是“热肿瘤”。对“热肿瘤”患使用免疫检验点抑制剂疗法,就会帮助已有的免疫细胞启动,起到杀伤并清除癌细胞的效果。而对“冷肿瘤”,由于免疫细胞根本就不认识肿瘤细胞,启动免疫系统也没用,因此免疫疗法效果很差。
肿瘤拓扑图(TTG): 肿瘤微环境的空间结构,可以清楚解析所有细胞类型间的空间相互作用,作为肿瘤-宿主相互作用的表型。
SPSS是一款比较常用的数据统计软件,今天就来教大家如何用spss计算五年生存率。
1、首先打开一份数据,因为之前是纵排的,先通过行列互换变为横排方便观察。
2、这时找到上方的转换。
3、接着选择计算度量,如下图所示。
4、在标签上输入总分,将需要添加的变量拖入框内,关键是居然无法全选只能一个一个的拖拽。
5、根据运算法则,将变量之间用+连接,点击确定。
6、最后通过变量视图,如下图所示,就可以看到在原数据基础上又添加了一行总分的个案。
excel中死亡用VLOOKUP函数
(1)在“发放花名册”和“已死亡人员登记”表格各添加一辅助列“姓名+身份z”,并在首行录入合并公式如下:
(2)在“发放花名册”表格中添加一列“是否死亡”,使用VLOOKUP公式查询
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)