什么是秩和检验

什么是秩和检验,第1张

秩和检验是用秩和作为统计量进行假设检验的方法。

秩和检验(rank sum test)又称顺序和检验,它是一种非参数检验(nonparametric test)。它不依赖于总体分布的具体形式,应用时可以不考虑被研究对象为何种分布以及分布是否以知,因而实用性较强。

在实践中常常会遇到以下一些资料,如需比较患者和正常人的血清铁蛋白、血铅值、不同药物的溶解时间、实验鼠发癌后的生存日数、护理效果评分等,我们将非参数统计中一种常用的检验方法--秩和检验,其中“秩”又称等级、即上述次序号的和称“秩和”,秩和检验就是用秩和作为统计量进行假设检验的方法。

秩和检验的背景

在总体分布任意的情形下,检验配对的试验数据所在总体的分布位置有无显著差异,往往可以利用符号检验的方法实现。但是符号检验只考虑差数的正负号,而不考虑差数的绝对值差异,会导致部分试验信息损失,结果较为粗略。

为了避免符号检验方法的这一缺陷,Wilcoxon提出了一种改进方法,称为Wilcoxon秩和检验(rank sum test)。这种方法同时考虑了差异的方向和差异的大小,较之符号检验更为有效。而对于成组的试验数据所在总体的分布位置有无差异,也可以采用类似的方法进行检验。

秩和检验是通过将所有观察值(或每对观察值差的绝对值)按照从小到大的次序排列,每一观察值(或每对观察值差的绝对值)按照次序编号,称为秩(或秩次)。

对两组观察值(配对设计下根据观察值差的正负分为两组)分别计算秩和进行检验。除了比较各对数据差的符号外,这种方法还进一步比较了各对数据差值大小的秩次高低,因此其检验效率较符号检验为高。

秩检验,即秩和检验,和卡方检验都是统计学名词,但二者为完全不同的检验方式,唯一联系是分类资料统计推断。

二者主要区别如下:

一、原理不同

1、秩和检验:次序号的和称“秩和”,秩和检验就是用秩和作为统计量进行假设检验的方法。

2、卡方检验:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

二、应用不同

1、秩和检验:作为统计量进行假设检验。

2、卡方检验:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

三、特点不同

1、秩和检验:不受总体分布限制,适用面广;适用于等级资料及两端无确定值的资料;易于理解,易于计算。

2、卡方检验:卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。

参考资料来源:

百度百科-卡方检验

百度百科-秩和检验

在单细胞数据分析的过程中,寻找差异基因的过程需要用到对基因统计的假设检验(例如函数FindAllMarkers中的test.use参数),我们这里来深入了解一下假设检验的方法和应用环境。

秩和检验适用于广泛的统计学环境,秩和检验是检验总体分布位置是否相同,因而称为非参数检验(Nonparametric test)。秩和检验(rank sum test)是一类常用的非参数检验。秩和检验首先将数据按从小到大或等级从弱到强转换成秩(也就是顺序),然后求秩和并计算秩和统计量,最后做出统计推断。本文简单介绍秩和检验的原理并基于R语言进行秩和检验的操作。

假设我们从总体A和总体B中分别采样n_a和n_b个样本构成样本集合a和b。通过将样本集a和b中的所有样本按从小到大顺序转化为秩之后我们可以通过绘图的方式对转换的结果进行展示,在图中我们使用“•”代表来自样本集a,使用“o”代表数据来自样本集b。

如果总体A和总体B总体分布位置分布相同(H_0:A=B),那么转换的结果如下图所示:

首先是python(范例),借助于python模块scipy来实现。

其次是R的实现:(wilcox.test的函数)

这里可以发现,秩和检验仅仅和数据的总体分布有关,适用于一般的环境 ,在单细胞数据中寻找markergene 的过程中,大部分默认就是采用此方法,当然,这种检验只是一种很常规的检验,离我们真正的数据分析还很遥远。

t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n <30),总体标准差σ未知的正态分布。 [1] t检验是用t分布理论来推论差异发生的 概率 ,从而比较两个平均数的差异是否显著。它与 f检验 、 卡方检验 并列。

这里我们需要注意一下:

(1)t检验对于大样本分布需要转换,而我们单细胞的数据分布属于大样本分布。

(2)数据分布为正态分布,单细胞数据是否为正态分布,在我的文章 单细胞数据分析之PCA再认识与ScaleData函数 做了详细的介绍,大家可以看一下。

t检验最常见的四个用途:

1、 单样本均值检验(One-sample t-test)

用于检验 总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等

2、两独立样本均值检验(Independent two-sample t-test)

用于检验两对独立的正态数据或近似正态的样本的均值是否相等,这里可根据总体方差是否相等分类讨论

3、配对样本均值检验(Dependent t-test for paired samples)

用于检验 一对配对样本的均值的差是否等于某一个值

4、回归系数的显著性检验(t-test for regression coefficient significance)

用于检验回归模型的解释变量对被解释变量是否有显著影响。

单样本T检验用于比较一组数据与一个特定数值之间的差异情况。

应用场景:

某个医生检测40名从事铅作业工人的血红蛋白含量,其均数为130.83g/L,标准差为25.74g/L,试分析从事铅作业的工人血红蛋白含量是否不同于正常成年人平均值140g/L?

我们来看一下这个结果,以p=0.2696,以p=0.05为界,说明没有统计意义。

两独立样本t检验的目的是利用来自两个总体的独立样本,推断两个总体的均值是否存在显著差异。

2、使用的前提条件

(1)两个样本应该是相互独立的;

(2)样本来自的两个总体应该服从正态分布。

显然单细胞使用的就是两独立样本均值检验。

用于分析配对定量数据之间的差异对比关系。与独立样本t检验相比,配对样本T检验要求样本是配对的。两个样本的样本量要相同;样本先后的顺序是一一对应的。

配对样本t检验用于样品的两个相关组之间的比较手段。在这种情况下,同一样本有两个值(即一对值)。

举个例子,在1个月内有20只小鼠接受了治疗X。我们想知道处理X是否会对小鼠的体重产生影响。

为了回答这个问题,在治疗之前和之后测量了20只小鼠的体重。通过测量相同小鼠体重的两次,我们得到了治疗前的20组值和治疗后的20组值。

在这种情况下,可以使用配对t检验比较治疗前后的平均体重。

似然比(likelihood ratio, LR) 是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。该指标全面反映筛检试验的诊断价值,且非常稳定。似然比的计算只涉及到灵敏度与特异度,不受患病率的影响。因检验结果有阳性与阴性之分,似然比可相应地区分为阳性似然比(positive likelihood ratio, +LR)和阴性似然比(negative likelihood ratio, -LR)。阳性似然比是筛检结果的真阳性率与假阳性率之比。说明筛检试验正确判断阳性的可能性是错误判断阳性可能性的倍数。比值越大,试验结果阳性时为真阳性的概率越大。阴性似然比是筛检结果的假阴性率与真阴性率之比。表示错误判断阴性的可能性是正确判断阴性可能性的倍数。其比值越小,试验结果阴性时为真阴阳性的可能性越大。

似然比检验(likelihood ratio test, LRT) 是一种检验 参数能否反映真实约束 的方法(分布或模型的某参数 θ 等于 θ 0 是否为真实约束)。似然比检验的思想是:“如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在 比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值 。” 可以看出,似然比检验是一种通用的检验方法(比 t 检验、 Κ 2 检验等具有更广的适用范围)。

这个有点难,我们不展开讨论了,主要就是检验分群结果结束以后,基因的表达分布是否是受到约束的

Identifies 'markers' of gene expression using ROC analysis. For each gene, evaluates (using AUC) a classifier built on that gene alone, to classify between two groups of cells. An AUC value of 1 means that expression values for this gene alone can perfectly classify the two groupings (i.e. Each of the cells in cells.1 exhibit a higher level than each of the cells in cells.2). An AUC value of 0 also means there is perfect classification, but in the other direction. A value of 0.5 implies that the gene has no predictive power to classify the two groups. Returns a 'predictive power' (abs(AUC-0.5) * 2) ranked matrix of putative differentially expressed genes.

关于roc的讲解在我的文章里 深入理解R包AUcell对于分析单细胞的作用 详细提到过,大家可以看一下。


欢迎分享,转载请注明来源:优选云

原文地址:https://54852.com/hy/503231.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-05
下一篇2023-04-05

随机推荐

  • 巴宝莉到底好在哪里

    感谢受邀,在众多的服饰品牌中,巴宝莉的服装具有明显的特色,经过一百多年的发展,巴宝莉服饰赢得了世人的信赖 第一,巴宝莉衣服整体“韵美感”较强。 不论是男式风衣,还是女士风衣,巴宝莉风衣的外观和其它服饰有显著的区别,主要在于它的设计

    2023-12-14
    10400
  • 推荐一款大牌,有保湿功效的蜜粉散粉

    香奈儿轻盈完美蜜粉20克550,非常适合你,不干燥,建议选择白一点的颜色会比较好或者LA MER极致轻柔蜜粉,25克900,也是非常保湿的,特别适合偏干皮肤或者资生堂心机透蜜粉,300,3月新品,粉质非常好,非常透明或者思魅欧泊莱修容无瑕雪

    2023-12-14
    8600
  • 日本豆乳护肤品怎么样值得购买吗

    日本豆乳护肤品挺好用的,性价比高,值得购买。用过从日本买的豆乳洗面奶。属于典型的皂基洁面产品,清洁力度中上水平,洗的很干净,不假滑。相比较于曼秀雷敦、妮维雅等洁面产品的话,效果还是不错的。量大,用量省,一支可以用大半年。推荐夏天晚上洁面使用

    2023-12-14
    7000
  • 骨雕价格及制作简介

    导语:目前,市场上有各式各样的古玩出现在我们的视野中,骨雕就是其中一种。骨雕是一种历史悠久并且用骨头来进行雕刻的一门艺术。而骨雕得价格也会随着它的品种和样式来变化。不同的种类、不同的样子它是会有不同价格的。现在市场上出现的那些饰品类的小件就

    2023-12-14
    9200
  • 爱典的化妆品好还是薇妮的化妆品好

    爱典的不好,我用过全套,用到10来天就变白了到一个月皮肤一看就是从美容院出来的,苍白色,一停用,原来没用之前斑还不明显,停后不到一个月原有的地方变得不能见人了,颜色那个深而且面积还扩散了,敢紧看中医拿了15副中药加检查开中成药花3了近200

    2023-12-14
    6900
  • 界十大化妆品品牌 国际知名的化妆品牌

    每个人都想看起来漂亮迷人每个女人都想看起来漂亮迷人,在这个世界上,很多人都用化妆品美化自己,或者通过穿名牌衣服、接受整容整容来改变自己的面貌。在这个世界上有一些顶级的化妆品牌,它们可以让你看上去更美,生活更轻松。现在让我们来看看世界上10个

    2023-12-14
    7800
  • 护肤品怎么批发出去

    护肤品怎么批发出去?护肤品怎么批发出去如下:第一,网上找护肤品厂家如果知道具体想要的护肤品厂家,那么直接在网络上搜索护肤品厂家名称看看。部分厂家会有自己的网站,那就可以找到****。而没有具体目标的话,一些厂家也会在其他网站上发布自己的信息

    2023-12-14
    6900
  • 年纪在24岁肤色偏黄,中性皮肤选什么化妆品怎么样

    功效上,这个季节你的情况要注重选择一些美白防晒的护肤品。化妆品可以选择一款贴近你肤色略浅一点的粉底。至于品牌,建议你用一些知名品牌,具体根据你个人的消费能力选择。24岁很年轻,不需要过分追求太昂贵的护肤品,注意补水,兼顾美白,就可以了。皮肤

    2023-12-13
    7500
  • 一套化妆品多少钱

    一套花西子化妆品要1262元,其中粉底199元、粉饼179元、蜜粉149元、眼线笔69元、眼影259元、睫毛膏99元、腮红89元、唇彩口红219元。化妆品使用需要注意目前国内的消费者购买化妆品选择超市或百货公司等化妆品专柜购买,欧美等发达国

    2023-12-13
    7100

发表评论

登录后才能评论
保存