请问pca主成分分析中,贡献率怎么计算apcs计算

请问pca主成分分析中,贡献率怎么计算apcs计算,第1张

PCA把原先的n个特征用数目更少的m个特征取代,新的m个特征一要保证最大化样本方差,二保证相互独立的。新特征是旧特征的线性组合,提供一个新的框架来解释结果。

PCA的原理就是维数投影,通俗的说可以把3维或者更zhi高维数投影到2维或者1维坐标上,PC1和PC2就是主元得分,三维的点投影到二维的位置就是主元得分,其次怎么确定投影坐标的维数呢,需要一个累计贡献率去做,比如保证百分之85的信息,再去确定其坐标维数;

计算的话,先算协方差,然后确定特征向量和特征值,通过累计贡献率算维数,然后原有数据乘以特征矩阵得到得分值,具体的你可以看看文献内容。

扩展资料:

主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。

参考资料来源:百度百科-主成分分析

主成分分析 ( PCA , principal component analysis)是一种数学降维方法, 利用正交变换 (orthogonal transformation)把一系列可能 线性相关的变量 转换为一组 线性不相关的新变量 ,也称为主成分,从而利用新变量在更小的维度下展示数据的特征。

主成分是原有变量的线性组合,其数目不多于原始变量。组合之后,相当于我们获得了一批新的观测数据,这些数据的含义不同于原有数据,但包含了之前数据的大部分特征,并且有着较低的维度,便于进一步的分析。

在空间上,PCA可以理解为把原始数据投射到一个新的坐标系统,第一主成分为第一坐标轴,它的含义代表了原始数据中多个变量经过某种变换得到的新变量的变化区间;第二成分为第二坐标轴,代表了原始数据中多个变量经过某种变换得到的第二个新变量的变化区间。这样我们把利用原始数据解释样品的差异转变为利用新变量解释样品的差异。

这种投射方式会有很多,为了最大限度保留对原始数据的解释,一般会用最大方差理论或最小损失理论,使得第一主成分有着最大的方差或变异数 (就是说其能尽量多的解释原始数据的差异);随后的每一个主成分都与前面的主成分正交,且有着仅次于前一主成分的最大方差 (正交简单的理解就是两个主成分空间夹角为90°,两者之间无线性关联,从而完成去冗余 *** 作)。

主成分分析的意义

简化运算。

在问题研究中,为了全面系统地分析问题,我们通常会收集众多的影响因素也就是众多的变量。这样会使得研究更丰富,通常也会带来较多的冗余数据和复杂的计算量。

比如我们我们测序了100种样品的基因表达谱借以通过分子表达水平的差异对这100种样品进行分类。在这个问题中,研究的变量就是不同的基因。每个基因的表达都可以在一定程度上反应样品之间的差异,但某些基因之间却有着调控、协同或拮抗的关系,表现为它们的表达值存在一些相关性,这就造成了统计数据所反映的信息存在一定程度的冗余。另外假如某些基因如持家基因在所有样本中表达都一样,它们对于解释样本的差异也没有意义。这么多的变量在后续统计分析中会增大运算量和计算复杂度,应用PCA就可以在尽量多的保持变量所包含的信息又能维持尽量少的变量数目,帮助简化运算和结果解释。

去除数据噪音。

比如说我们在样品的制备过程中,由于不完全一致的 *** 作,导致样品的状态有细微的改变,从而造成一些持家基因也发生了相应的变化,但变化幅度远小于核心基因 (一般认为噪音的方差小于信息的方差)。而PCA在降维的过程中滤去了这些变化幅度较小的噪音变化,增大了数据的信噪比。

利用散点图实现多维数据可视化。

在上面的表达谱分析中,假如我们有1个基因,可以在线性层面对样本进行分类;如果我们有2个基因,可以在一个平面对样本进行分类;如果我们有3个基因,可以在一个立体空间对样本进行分类;如果有更多的基因,比如说n个,那么每个样品就是n维空间的一个点,则很难在图形上展示样品的分类关系。利用PCA分析,我们可以选取贡献最大的2个或3个主成分作为数据代表用以可视化。这比直接选取三个表达变化最大的基因更能反映样品之间的差异。(利用Pearson相关系数对样品进行聚类在样品数目比较少时是一个解决办法)

发现隐性相关变量。

我们在合并冗余原始变量得到主成分过程中,会发现某些原始变量对同一主成分有着相似的贡献,也就是说这些变量之间存在着某种相关性,为相关变量。同时也可以获得这些变量对主成分的贡献程度。对基因表达数据可以理解为发现了存在协同或拮抗关系的基因。

示例展示原始变量对样品的分类

假设有一套数据集,包含100个样品中某一基因的表达量。如下所示,每一行为一个样品,每一列为基因的表达值。这也是做PCA分析的基本数据组织方式,每一行代表一个样品,每一列代表一组观察数据即一个变量。

Expression profile for Gene1 in 100 samples

PCA分析可参考:

>

我们使用SVD(singular value decomposition,中文译名“奇异值分解”)的方法来计算PCA。我们先看一个简单的案例,在这个案例中,我们检测了6只不同小鼠的2个基因。其实我们可以把它再抽象化一下,把小鼠看成样本,基因看成2个变量。如果我们只检测1个基因的话(Gene 1),那么我们根据基因1表达的情况,把小鼠的绘制到数轴上,小鼠1,小鼠2,小鼠3的Gene 1表达水平比较高,而小鼠4,小鼠5,小鼠6的Gene 1水平则较低。虽然这个图形比较简单,但是,我们从中还是能得到一些信息的,例如小鼠1,小鼠2和小鼠3比较接近,小鼠4,小鼠5和小鼠6比较接近。

如果我们检测了2个基因,那么我们可以绘制一个二维坐标系,横轴是Gene 1,纵轴是Gene 2,那么小鼠1,小鼠2和小鼠3会聚在一起,小鼠4,小鼠5和小鼠6会聚在一起。

如果我们检测了3个基因,那么我们可以绘制三维的坐标系,在上图的这个3维坐系中,圆点越大,表示离你越近。如下所示:

再进一步,如果我们检测了4个基因,此时我们很难绘制出四维的坐标系,那么我们就需要进行PCA分析了,PCA可以把超过4个的基因降维成二维的坐标系,在这个PCA的二维坐标系中,我们可以发现,小鼠4、小鼠5和小鼠6是一类,小鼠1,小鼠2和小鼠3是一类,它们的各自的基因表达模式也类似,PCA在对数据进行聚类(clustering)时有很大的价值,例如,经过PCA分析,在它的二维坐标轴上我们可以发现,Gene 3在x轴上对样本的区分有贡献最大

我们还回最初2个基因的案例上来:

此时,我们可能有疑问,为什么这条直线是最匹配数据的,它的计算原理是什么,那么接着看。我们先回到最初的直线,为了准确地找出最佳匹配所有数据的直线,PCA会将所有数据点都映射到这条直线上来,此时, 可以计算这些数据点到投射到这条直线上的距离,并且使这些距离最小,除了可以计算数据点到直线的距离最小外,还要计算所有数据点投射到这条直线上的点(图中绿叉位置所在点)到原点的距离,使这个距离最大。

通过勾股定理,我们可以知道,因为a不变,当数据点到直线的距离最短时 (b) ,投影点到原点的距离最大 (c)

我们计算投影点到原点的距离,我们把它我们把它命名为d1,d2计算剩余的投影点到原点的距离。然后把这些值的平方加起来称为SS(distances)。我们旋转直线,直到SS的值最大,此时数据点到直线的距离最短。这条直线就叫第一主成分(Principal Component 1,简称PC1)。

对于PC1,斜率为025。也就是说基因1增加4个单位,基因2增加1个单位。计算出红色箭头的长度为412。

当你用SVD(singular value decomposition,奇异值分解)进行PCA时,红色箭头的长度=1,我们所要做的就是把这个三角形缩小到红箭头是1个单位时,只需每边除以412。

三个边长分别变成了1,0242,097,但,Gene1/Gene2仍然等于4。此时我们可以说PC1由097的Gene1和0242的Gene2构成。

我们回顾一下计算过程:

这个单位向量由基因1的097和基因2的0242部分组成, 称为PC1的“奇异向量”(Singular Vector)或“特征向量”(Eigenvector) ,每个基因的比例则被称为 载荷得分(Loading Scores) 。原始数据的投影点到原点的距离的平方SS被称为PC1的 特征值(Eigenvalue) 。PC1的特征值的平方根叫做PC1的 奇异值(Singular value)

因为是一个二维图, PC2 只是一条垂直于PC1的穿过原点的直线,没有任何进一步的优化要做。由于PC2与PC1垂直,所以斜率为-4,也就是说PC2由-1份Gene1和4份Gene2组成。如果我们对所有东西进行缩放,得到一个单位向量,PC2由-0242个Gene 1和097个Gene 2构成, 称为PC2的“奇异向量”(Singular Vector)或“特征向量”(Eigenvector) 。每个基因的比例则被称为 载荷得分(Loading Scores) ,告诉我们,就基因值如何投射到PC2上而言,Gene2的重要性是Gene1的4倍

最后,PC2的 特征值 是投影点到原点的距离的平方和。

此时,PC1和PC2的计算结束,绘制最终的PCA图,如下所示:

然后旋转这个坐标,让PC1水平,PC2垂直,如下所示:

在这个新的坐标系中,图中黑色的叉就表示原始的样本6(Sample 6),如下所示:

而Sample 6位于这个点上:

同理,Sample 2在这里:

我们可以将特征值转化为PC1到原点的变异,通过除以样本大小减1:n-1。这个例子,假设PC1的变异为15,PC2的变异为3。这意味着PCs的变化是15 +3= 18。PC1占了PCs变异的15 / 18= 083 = 83%。PC2占了3/18= 017= 17%的PCs变异。

碎石图(scree plot) 是用图形表示每个PC所占的变异百分比。

PCA有3个变量(在这种情况下,3个基因)几乎等同于2个变量

然后找到经过原点的最佳拟合直线,和之前一样,最佳拟合线是PC1。PC1现在有三种成分:062的Gene1、015的Gene2和 077的Gene3,Gene3 是最主要的组成部分。然后求出PC2,它经过原点并垂直于PC1。PC2现在有三种成分:077的Gene1、062的Gene2和 015的Gene3,Gene1 是最主要的组成部分。然后,我们找到了PC3,这条最合适的直线,它通过原点并垂直于PC1和PC2。如果我们有更多的基因,我们就会通过添加垂线和旋转它们来不断寻找越来越多的主成分, 理论上,每个基因(或变量)都有一个。但在实际 *** 作中,PC的数量不是变量的数量或者样本的数量,取其中较小的一个。 一旦你找出了所有的主成分,你可以使用特征值(即SS(距离))来确定每个PC的变化比例。在这个例子中,PC1=79%,PC2=15%,PC3=6% ,PC1和PC2占了变异的绝大比例。 这就表明了,在二维图中,我们基本上只使用PC1和PC2就能解释三维图中的数据,因为二维图中的PC1和PC2占据了整体的变异的94%,

为了将3-D图像转换成2-D的PCA图像,我们去掉了所有除了数据和PC1、PC2。将数据投影到PC1和PC2上,然后旋转坐标轴,这是我们新的PCA图中的样本4。

最后,我们使用PC1和PC2将数据绘制成二维图形。

如果我们测量每只老鼠的4个基因,我们不可能画出一个四维图数据,但这并不妨碍我们进行PCA计算,并查看碎石图。在这种情况下,我们可以计算主成分,发现PC1和PC2占变异的90%,所以我们可以使用它们来绘制二维PCA图。

注意:如果碎石图中PC3和PC4占据了大量的变化,那么仅仅使用前2个PCs并不能创建一个非常准确的数据表示。然而,即使像这样一个PCA图也可以用来识别数据分类。

以上就是关于请问pca主成分分析中,贡献率怎么计算apcs计算全部的内容,包括:请问pca主成分分析中,贡献率怎么计算apcs计算、PCA原理简介及参考分析实战、03高通量测序-PCA中的主要概念等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/10117933.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-05
下一篇2023-05-05

发表评论

登录后才能评论

评论列表(0条)

    保存