什么是秩和检验

宝宝妈妈2023-04-05 76

秩和检验是用秩和作为统计量进行假设检验的方法。

秩和检验（rank sum test）又称顺序和检验，它是一种非参数检验（nonparametric test）。它不依赖于总体分布的具体形式，应用时可以不考虑被研究对象为何种分布以及分布是否以知，因而实用性较强。

在实践中常常会遇到以下一些资料，如需比较患者和正常人的血清铁蛋白、血铅值、不同药物的溶解时间、实验鼠发癌后的生存日数、护理效果评分等，我们将非参数统计中一种常用的检验方法--秩和检验，其中“秩”又称等级、即上述次序号的和称“秩和”，秩和检验就是用秩和作为统计量进行假设检验的方法。

秩和检验的背景

在总体分布任意的情形下，检验配对的试验数据所在总体的分布位置有无显著差异，往往可以利用符号检验的方法实现。但是符号检验只考虑差数的正负号，而不考虑差数的绝对值差异，会导致部分试验信息损失，结果较为粗略。

为了避免符号检验方法的这一缺陷，Wilcoxon提出了一种改进方法，称为Wilcoxon秩和检验（rank sum test）。这种方法同时考虑了差异的方向和差异的大小，较之符号检验更为有效。而对于成组的试验数据所在总体的分布位置有无差异，也可以采用类似的方法进行检验。

秩和检验是通过将所有观察值（或每对观察值差的绝对值）按照从小到大的次序排列，每一观察值（或每对观察值差的绝对值）按照次序编号，称为秩（或秩次）。

对两组观察值（配对设计下根据观察值差的正负分为两组）分别计算秩和进行检验。除了比较各对数据差的符号外，这种方法还进一步比较了各对数据差值大小的秩次高低，因此其检验效率较符号检验为高。

秩检验，即秩和检验，和卡方检验都是统计学名词，但二者为完全不同的检验方式，唯一联系是分类资料统计推断。

二者主要区别如下：

一、原理不同

1、秩和检验：次序号的和称“秩和”，秩和检验就是用秩和作为统计量进行假设检验的方法。

2、卡方检验：卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，如果卡方值越大，二者偏差程度越大；反之，二者偏差越小；若两个值完全相等时，卡方值就为0，表明理论值完全符合。

二、应用不同

1、秩和检验：作为统计量进行假设检验。

2、卡方检验：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

三、特点不同

1、秩和检验：不受总体分布限制，适用面广；适用于等级资料及两端无确定值的资料；易于理解，易于计算。

2、卡方检验：卡方检验的统计量是卡方值，它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。

参考资料来源：

百度百科-卡方检验

百度百科-秩和检验

在单细胞数据分析的过程中，寻找差异基因的过程需要用到对基因统计的假设检验（例如函数FindAllMarkers中的test.use参数），我们这里来深入了解一下假设检验的方法和应用环境。

秩和检验适用于广泛的统计学环境，秩和检验是检验总体分布位置是否相同，因而称为非参数检验（Nonparametric test）。秩和检验（rank sum test）是一类常用的非参数检验。秩和检验首先将数据按从小到大或等级从弱到强转换成秩（也就是顺序），然后求秩和并计算秩和统计量，最后做出统计推断。本文简单介绍秩和检验的原理并基于R语言进行秩和检验的操作。

假设我们从总体A和总体B中分别采样n_a和n_b个样本构成样本集合a和b。通过将样本集a和b中的所有样本按从小到大顺序转化为秩之后我们可以通过绘图的方式对转换的结果进行展示，在图中我们使用“•”代表来自样本集a，使用“o”代表数据来自样本集b。

如果总体A和总体B总体分布位置分布相同（H_0:A=B），那么转换的结果如下图所示：

首先是python（范例）,借助于python模块scipy来实现。

其次是R的实现：(wilcox.test的函数)

这里可以发现，秩和检验仅仅和数据的总体分布有关，适用于一般的环境 ，在单细胞数据中寻找markergene 的过程中，大部分默认就是采用此方法，当然，这种检验只是一种很常规的检验，离我们真正的数据分析还很遥远。

t检验，亦称student t检验（Student's t test），主要用于样本含量较小（例如n <30），总体标准差σ未知的正态分布。 [1] t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。它与 f检验、卡方检验并列。

这里我们需要注意一下：

（1）t检验对于大样本分布需要转换，而我们单细胞的数据分布属于大样本分布。

（2）数据分布为正态分布，单细胞数据是否为正态分布，在我的文章单细胞数据分析之PCA再认识与ScaleData函数做了详细的介绍，大家可以看一下。

t检验最常见的四个用途：

1、单样本均值检验（One-sample t-test）

用于检验总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等

2、两独立样本均值检验（Independent two-sample t-test）

用于检验两对独立的正态数据或近似正态的样本的均值是否相等，这里可根据总体方差是否相等分类讨论

3、配对样本均值检验（Dependent t-test for paired samples）

用于检验一对配对样本的均值的差是否等于某一个值

4、回归系数的显著性检验（t-test for regression coefficient significance）

用于检验回归模型的解释变量对被解释变量是否有显著影响。

单样本T检验用于比较一组数据与一个特定数值之间的差异情况。

应用场景：

某个医生检测40名从事铅作业工人的血红蛋白含量，其均数为130.83g/L，标准差为25.74g/L，试分析从事铅作业的工人血红蛋白含量是否不同于正常成年人平均值140g/L？

我们来看一下这个结果，以p=0.2696，以p=0.05为界，说明没有统计意义。

两独立样本t检验的目的是利用来自两个总体的独立样本，推断两个总体的均值是否存在显著差异。

2、使用的前提条件

（1）两个样本应该是相互独立的；

（2）样本来自的两个总体应该服从正态分布。

显然单细胞使用的就是两独立样本均值检验。

用于分析配对定量数据之间的差异对比关系。与独立样本t检验相比，配对样本T检验要求样本是配对的。两个样本的样本量要相同；样本先后的顺序是一一对应的。

配对样本t检验用于样品的两个相关组之间的比较手段。在这种情况下，同一样本有两个值（即一对值）。

举个例子，在1个月内有20只小鼠接受了治疗X。我们想知道处理X是否会对小鼠的体重产生影响。

为了回答这个问题，在治疗之前和之后测量了20只小鼠的体重。通过测量相同小鼠体重的两次，我们得到了治疗前的20组值和治疗后的20组值。

在这种情况下，可以使用配对t检验比较治疗前后的平均体重。

似然比(likelihood ratio, LR) 是反映真实性的一种指标，属于同时反映灵敏度和特异度的复合指标。即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。该指标全面反映筛检试验的诊断价值，且非常稳定。似然比的计算只涉及到灵敏度与特异度，不受患病率的影响。因检验结果有阳性与阴性之分，似然比可相应地区分为阳性似然比(positive likelihood ratio, ＋LR)和阴性似然比(negative likelihood ratio, －LR)。阳性似然比是筛检结果的真阳性率与假阳性率之比。说明筛检试验正确判断阳性的可能性是错误判断阳性可能性的倍数。比值越大，试验结果阳性时为真阳性的概率越大。阴性似然比是筛检结果的假阴性率与真阴性率之比。表示错误判断阴性的可能性是正确判断阴性可能性的倍数。其比值越小，试验结果阴性时为真阴阳性的可能性越大。

似然比检验（likelihood ratio test, LRT） 是一种检验 参数能否反映真实约束 的方法（分布或模型的某参数 θ 等于 θ 0 是否为真实约束）。似然比检验的思想是：“如果参数约束是有效的，那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在 比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值 。” 可以看出，似然比检验是一种通用的检验方法（比 t 检验、 Κ 2 检验等具有更广的适用范围）。

这个有点难，我们不展开讨论了，主要就是检验分群结果结束以后，基因的表达分布是否是受到约束的

Identifies 'markers' of gene expression using ROC analysis. For each gene, evaluates (using AUC) a classifier built on that gene alone, to classify between two groups of cells. An AUC value of 1 means that expression values for this gene alone can perfectly classify the two groupings (i.e. Each of the cells in cells.1 exhibit a higher level than each of the cells in cells.2). An AUC value of 0 also means there is perfect classification, but in the other direction. A value of 0.5 implies that the gene has no predictive power to classify the two groups. Returns a 'predictive power' (abs(AUC-0.5) * 2) ranked matrix of putative differentially expressed genes.

关于roc的讲解在我的文章里深入理解R包AUcell对于分析单细胞的作用详细提到过，大家可以看一下。

转载请注明原文地址:https://54852.com/read/503231.html

00 生成海报

什么是秩和检验

样本

总体

数据

阴性

单细胞

手在冬天冰冷是怎么回事.

我现在每次睡觉6个小时以上醒的时候都感到腰痛不知是怎么回事