
富集分析,来自于Enrichment这个词语
F or example, given a set of genes that are up-regulated under certain conditions, an enrichment analysis will find which Ontology terms are over-represented (or under-represented) using annotations for that gene set
通俗来说:富集分析是基于一个先验的知识图谱将输入内容进行聚类分析,得到聚类后结果。
上句话中逐个概念解析:
<figcaption style="margin-top: 066667em; padding: 0px 1em; font-size: 09em; line-height: 15; text-align: center; color: rgb(153, 153, 153);">GO 富集结果(柱状图)</figcaption>
结果解析:我们可以基于柱状图,清楚的看出,每一个聚类后结果(横轴下方的字段),以及每一个分类所对应的基因/基因产物数量(此图中为蛋白质数量)
上图是气泡图形式,由于GO有三个互不交集的ontology本体,所以要单独分区展示。气泡图比柱状图可以多展现1个维度,在上图中,体现了4个维度信息:
(1)气泡表示分类条目
(2)气泡大小表示基因/基因产物数量。
(3)增加了p-value的展示。p值的负对数分配给y轴(越高就越重要),统计学基础是超几何分布。( 从总的N个基因中挑出n个基因,作为分母(这是背景基因),分子则是M个基因(我们的差异基因,这是前景基因),有k个落在了某通路里,有n-k个不落在了某通路里,然后使用超几何分布来对它们进行计算,即前景基因落在某通路的比例是否高于背景基因在这一通路的比例 )
(4)表达量的上下调。横轴zscore表示是表达量是高了还是低了(一般应用于RNA和蛋白中,基因一般不涉及)。 [上传失败(image-efb449-1611106941603)]
<figcaption style="margin-top: 066667em; padding: 0px 1em; font-size: 09em; line-height: 15; text-align: center; color: rgb(153, 153, 153);">点击一个分类,可以查看其所对应的局部知识图谱</figcaption>
得到目标对象(基因或者基因产物)的富集结果(词条)后,通过查看网站对词条的注释声明,来验证或判断目标对象作为生物标志物的合理性。
<figcaption style="margin-top: 066667em; padding: 0px 1em; font-size: 09em; line-height: 15; text-align: center; color: rgb(153, 153, 153);">方法论示例</figcaption>
示例1:《 与胰腺癌相关的重要基因本体论术语和生物学途径分析 》IF: 2197
示例 2: 《 使用基因本体论术语和KEGG途径进行化学毒性作用分析 》 IF: 3681
GO 功能富集分析、KEGG pathway富集分析、 GSEA 功能富集分析、 reactome 通路富集分析
(1) David ——The D atabase for A nnotation, V isualization and I ntegrated D iscovery ,支持在线进行GO功能富集分析。 工作组 很多华人(从名字上看)
(2) GOrilla ——GeneOntology enRIchment anaLysis and visuaLizAtion tool,支持在线进行GO功能富集分析。
(3) KOBAS ——KEGG Orthology Based Annotation System,支持在线进行pathways通路分析 (KEGG PATHWAY, Reactome, Biocyc, Panther), 关联疾病分析diseases (KEGG DISEASE, OMIM, NHGRI GWAS Catalog), 和GO 功能富集。北大团队做的。
(4) clusterProfiler : universal enrichment tool for functional and comparative study。推荐一个R分析工作包,是生信分析领域大牛 Y叔 写的,几乎能支持市面上常见的各类功能、通路、关联疾病分析,受science大力推荐(反正Y叔公众号上他自己是这么说的,有没有忽悠成分咱就不管了哈,但是吃过的都说香)。
以 KOBAS 为例,演示两个流程:
(1) GO分析
step i :选择“基于基因列表进行富集分析”
step ii:在计算页面等一会,查看分析结果
step iii:查看GO的DAG图
<figcaption style="margin-top: 066667em; padding: 0px 1em; font-size: 09em; line-height: 15; text-align: center; color: rgb(153, 153, 153);">GO:3A004408</figcaption>
也有这样的:
<figcaption style="margin-top: 066667em; padding: 0px 1em; font-size: 09em; line-height: 15; text-align: center; color: rgb(153, 153, 153);">GO:0045893</figcaption>
(2)KEGG pathway分析
step i: 参数选择KEGG
step ii: 查看计算结果
step iii: 查看通路图
有些情况下KEGG会报错:
解决方法:注意将url的末尾添加一个/符号,即可正常展示。
GO、KEGG富集分析是我们做生信分析较为常用的部分,它可以将基因与功能相联系起来。
GO指的是Gene Ontology,是基因功能国际标准分类体系。目的在于建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO分为分子功能(Molecular Function)(MF)、生物过程(Biological Process)(BP)、和细胞组成(Cellular Component)(CC)三个部分。
KEGG指的是京都基因与基因组百科全书,通常我们使用KEGG中的pathway模块,将基因映射到某些通路上,了解基因参与生物体中的代谢过程等。
对于模式生物,GO和KEGG富集分析实现起来比较容易,对于非模式生物来说还是需要花点时间和精力。对于模式生物的GO和KEGG富集分析,网上教程案例挺多的。对于非模式生物,以小麦为例,进行下面一些基本的富集分析。
做富集分析,我们需要了解一下几个概念。
1、前景基因:指的是我们所要进行富集的基因,一般是基因的ID
2、背景基因:指的是前景基因在某个基因集合进行富集,这个基因集合就是背景基因
3、描述信息:每个GO的Term的属性,或者是每个KO号或者map号的属性。
我们具备前景基因,背景基因以及描述信息我们就可以做富集分析啦。
1、前景基因:这是必须的啦。有时候需要进行ID转换,但是个人觉得ID转换根据需要来就行。如果前景基因里面的基因ID是包括在背景基因里面,那就需要进行转换。如果前景基因在是新的基因或者在背景基因没有被注释到的,就不用进行ID转换。下面这个就是融合基因,在背景基因里面没有注释到的,那么我就不要转换。
2、背景基因:一个基因可能具备多个GO term,一个基因也可能参与多个通路,与之相对应的有多个map号
这个案例中背景基因文件构建思路如下图
3、描述文件
跑完之后就会得到一些结果:
生成一些简单的气泡图,条形图,GO二级分类图
与传统的 Over Representation Analysis: the up- or down-regulated DEGs 和 Gene Set Enrichment Analysis: All the ranked genes 相比, Gene Set Variation Analysis 分析直接使用gene expression或RNA-seq profile matrix计算基因在通路中的得分,并且这种计算可以基于单样本处理。更多知识分享请到 > 1、富集分析的背景知识 - (jianshucom) 2、clusterprofile富集分析--上游分析 - (jianshucom) 3、clusterprofile富集分析--下游可视化 - (jianshucom) 4、clusterprofile富集分析--多组设计的富集及可视化 - (jianshucom) 可设置的参数很多,常用的有 如下图结果,上半部分表示位于 Cell cycle 基因集中的差异基因的差异倍数;下半部分表示根据这些基因的打分过程(简单理解:从左到右遍历时,遇到差异基因就加分,不是就减分) 相比gseaplot,gseaplot2可一次展示多个基因集的富集结果 以上就是关于富集分析第二d全部的内容,包括:富集分析第二d、非模式生物GO、KEGG富集分析、数据分析:基于GSVA的通路富集分析等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力! 欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)