基因表达谱的SOM聚类分析识别功能基因集

基因表达谱的SOM聚类分析识别功能基因集,第1张

前不久我接触了这样一个分析,给定基因表达矩阵后,通过 自组织映射(Self-organizing map,SOM) 技术识别其中的高表达基因集,以便和功能建立关联。

下文将该方法简称为SOM聚类分析,因为它就是一种基于神经网络的聚类算法。那么,SOM聚类在表达谱数据中是如何应用的呢?本篇我们就来看一下。

为了帮助大家理解这种方法,首先来看文献“ NLRP3 inflammasome activation drives tau pathology ”中的部分内容。

作者构建小鼠模型,模拟额颞叶痴呆(FTD)病理学效应。Tau22小鼠转基因了人类tauFTD变体,并在一段时间内发展为tau病理学。获取野生型(WT)和Tau22小鼠的脑组织并提取RNA,包括2、8、11月龄的小鼠,进行RNA芯片分析基因表达,获得脑组织在tau病理学过程中显著被激活的基因。

作者通过SOM聚类,鉴定了参与tau蛋白的致病性基因集 。分别根据野生型或Tau22小鼠在3、8、11月时间点的相似表达水平将基因分组,并根据表达水平升高将其定义为每种条件的特征基因。共识别了6个主要的表达模块,同一模块内的基因集具有相似的表达模式,它们在该时间点均处于相对高表达的状态,暗示它们在这些时间点中发挥主要活性。

为了明确这些高度活跃的基因发挥的功能,随后作者通过基因集富集分析(GSEA),比较Tau22小鼠相较于WT小鼠中哪些途径被激活。在3个月大的Tau22小鼠中,特征基因显示与免疫反应的联系,表明在疾病开始时特征基因就参与了免疫过程;而在疾病发展后期,小鼠中上调的基因参与了诸如“应激反应”等功能中,且高达73%的特征基因与干扰素相关。

不难理解,上述文献中,作者通过SOM聚类识别高度表达的基因集,用作功能分析。

本篇模仿该文献中的思路,展示如何在R中执行基因表达谱的SOM聚类。

使用kohonen包执行SOM聚类,首先安装加载该包。

接下来基于示例的基因表达谱,对各基因执行SOM聚类。

如上过程基于基因表达值进行了聚类,获得了聚类模块,并按模块内基因的平均表达值赋值了模块颜色。随后,即可从图中判断选择高表达的模块,将其中的基因挑选出来,作为发挥生物学过程的“活跃”基因集。

那么,如何获得各模块中,都包含哪些基因呢?参考以下 *** 作。

这样,就将基因名称和其所属模块对应起来了。

最后,识别高表达的模块,并从中进一步筛选基因集就可以了。这些基因集既然存在高表达,那么必然会和功能密不可分。了解它们的功能,可以初步执行GO或KEGG富集分析进行探索,如开篇展示的文献中思路那样,不再多说了。

表达谱案例分析

肺癌组织的表达谱分析:选取 2 个肺癌病人( 5T 和 10T)的组织提取总 RNA,进 行分析。

实验目的:为了检测两个病人中表达差异较大的基因, 以便找出两个病人症状差 异的原因,并进行下一步相关的研究。

1、 数据质量的概述

通过严格的质量标准筛选后, 通过率达到 80%,最终得到 500 万左右的 Tag标签。

2、 标签的初步分析统计

两个样品中有 95%的 Tag重复频度超过 1,73%以上的 Tag重复频度超过 50。

3、 表达谱测序饱和度分析

通过对表达谱测序饱和度的分析,通常在表达谱 Tag数目达到 200 万时,测序 Tag接近饱和。因此,通过 Solexa 测序,仅需要 1次试验,就可以得到足够后 续进行表达分析的数据。

4、 样品重复性。

5、 Tag 标签的注释(含 cDNA,预测基因, EST,线粒体基因组,基因组等)

本案例中,人的 2 万 7 千个基因中有 50~60%都被 Tag所覆盖。即一般的基因的 表达量差异被检测出来。 为了提高 Tag同基因关联的可信度, 我们仅仅选取了在 基因序列中唯一定位的 Tag。这部分唯一定位的 Tag占全部 Tag数目的 50%左右。

另外,除去上述用于基因表达量统计的唯一定位 Tag,有大约 20%的 Tag 被定位 到了基因组的未注释区域, 其中大约有 10万个 Tag在基因组上的位置是唯 一的。 利用这些数据我们找到了许多新的转录本和调控区域。 同时发现了若干潜在的两 个样品间显著差异的区域。为后续的实验提供了可靠的研究目标。

6、 参考 Tag标签的统计分析

下表显示的人的参考 Tag 的统计信息,我们可以看到 9653%的基因都拥有 Tag。 说明 Tag-based 新一代测序技术的方法进行表达谱分析的可行性

7、 基因表达量的分布统计

8、 样本间表达差异基因的相关分析

通过对表达差异基因的统计和分析,我们可以选取样品间表达存在差异的基因, 反馈给用户; 此外一些已经报道可能相关的基因, 是这一部分研究的重点, 通过 表达差异,我们可以推测出相关基因可能发生的变化。针对此例,图 3-3 中 2 个基因是已经报道的在 10T样品中高表达的基因。

9、 样本间表达差异基因的信号通路相关分析

对差异表达基因进行功能分析和信号通路分析。 结合样本性状差异, 鉴定与性状 关联的候选基因,以便通过进一步实验验证。

10、 根据 Tag距离 3’端的位置对 tag 和基因数目进行的统计分析

通俗地说,转录图就像生命的乐谱。如果说人的每个细胞里的所有DNA决定6~10万基因的话,在每一种组织的细胞中,大概只有10%的DNA能表达,而表达的第一阶段就是“转录”。

我们知道,生物性状是由结构或功能蛋白决定的,功能蛋白是由信使RNA(mRNA)编码的,mRNA又是由编码蛋白功能基因转录而来的。转录图就是测定这些可表达片段(EST)的标记图。事实上,整个人类基因组中有97%的部分由不被转录的DNA组成,仅有2%~3%的DNA序列具有编码蛋白质的功能。在人体某一特定的组织中并非全部基因都表达。仅有10%的基因被表达。也就是说,只有不足1万个不同类型的mRNA分子(只有在胎儿的脑组织中,可能有30%~60%的基因被表达)。如果将这些mRNA通过一种反转录的过程构建成cDNA文库,然后再测定这些DNA的序列,最终绘制成一张可表达基因图——转录图。

首先,要不断地丰富EST数据库。DbEST是目前最大的一个公共功能性序列数据库,至1996年夏天,它已收集到40万种EST序列。其中大多数序列是在默尔克(Merck)公司资助下由华盛顿大学的序列测定项目提供的。这个数目并不代表人类基因组中可表达基因的数目(60000到100000个基因克隆),因为一个全长的cDNA可能产生几个不重叠的EST片断。由于发现这些可表达的EST片段——“真正的基因”具有潜在的经济效益,许多商业公司都非常重视EST片段的克隆和序列分析。比如美国人类基因组科学公司据称已得到了超过850000个EST片段的数据库,对应于可能的6000个不同的基因,与人类基因组的全部基因数已相差不多了。现在,国际数据库中所贮存的EST的数量正以每日1000多个的速度增加着。

下一步就是将EST片段在人的基因组中定位。即将这些EST片段与某些疾病的易感位点联系起来,许多国家正在寻求合作,通过对这些EST片段进行染色体定位,绘制一个真正的“转录图谱”。1994年,约有1000个EST片段得到定位,1995年增至10000个,1996年则达到20000个。这样,一旦确定了与某个疾病有关联的位点,转录图就可以告诉你在这个区域有哪些基因。是否所有的基因都能以EST片段的形式在染色体上得以定位呢不是的。我们前面就已经知道EST片段是由mRNA经过反转录而来,不包括RNA的结构基因。此外,由于某些低水平表达的基因在构建cDNA文库时可能不包括于其中,因而EST也不能代表这些低水平表达的基因。这样,RNA的结构基因以及低水平表达的基因就不能以EST的方式被定位到转录图上。这个悬而未决的问题将随着整个基因序列的完成而得以解决。

转录图有特定的意义。首先,由于DNA的转录是有组织与时间特异性的,它来源于已知的某一生育阶段的某一组织。有人提出可以绘制一张反映在正常或受控条件中表达的数目、种类及结构、功能的信息。在将来的数据库中,我们可了解某一基因在不同时间、不同组织、不同基因、不同水平的表达;也可以了解某一特定时间,在不同时间、不同水平的表达;还可以了解一种组织中,在不同时间、不同基因、不同水平的表达。有了“正常”的转录图,就奠定了构建特定生理条件下与“异常”下cDNA图的基础,为步入21世纪的基因医学绘制了新的蓝图,即基因表达谱。

免费且只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。利用这个数据库,我们可以检索到其他一些人上传的一些实验测序数据。

不涉及任何检测原理的角度来说的话,所谓的高通量检测,其实就是一次性检测很多指标变化的技术。例如我们说的表达谱数据,就是来检测基因表达水平。比如我们要对一个人来进行高通量检测的话,就能知道这个人上万个基因的表达水平了。

由于GEO数据库和我们之前介绍的gene数据库 [数据库推荐]gene:基因相关信息查询 以及我们常用来搜索文献的pubmed都是一个机构的。使用这个数据库,我们需要做的就是就是就是提供检索式。检索式可以是简单的几个关键词,也可以是制定特殊的检索式。

BioGPS是一个基于网络的生物信息学工具,可用于交互式数据挖掘和高效数据可视化。它包含了大量的基因表达数据,具有超过180种典型的主要哺乳动物和其他物种的基因表达数据,可让用户快速找到组织及细胞器官特异性表达的基因。要找出组织、器官特异性表达基因,首先要进入BioGPS平台的基因搜索框,输入感兴趣的基因名称或ID号,然后点击"搜索",得到基因相关信息,包括基因的组织及器官特异性的表达模式、相应的表达谱,以及组织分布的热图等。

因为GEO是基因表达综合数据库,RNA是实现遗传信息在蛋白质中的表达。

从GEO数据库获取GSE79973数据集,该数据集包含胃癌疾病与正常样本的表达谱数据,筛选出其中差异表达的lncRNA。

下载GSE62254和GSE15459数据集以及对应的临床数据,通过GSE62254数据集来构建一个临床预测模型,识别出与预后显著相关的lncRNA,通过GSE15459数据集对模型进行验证。

进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。

以上就是关于基因表达谱的SOM聚类分析识别功能基因集全部的内容,包括:基因表达谱的SOM聚类分析识别功能基因集、基因表达谱分析方法、什么是转录图等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/9728987.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-01
下一篇2023-05-01

发表评论

登录后才能评论

评论列表(0条)

    保存