基因表达谱的SOM聚类分析识别功能基因集_工具

前不久我接触了这样一个分析，给定基因表达矩阵后，通过 自组织映射（Self-organizing map，SOM） 技术识别其中的高表达基因集，以便和功能建立关联。

下文将该方法简称为SOM聚类分析，因为它就是一种基于神经网络的聚类算法。那么，SOM聚类在表达谱数据中是如何应用的呢？本篇我们就来看一下。

为了帮助大家理解这种方法，首先来看文献“ NLRP3 inflammasome activation drives tau pathology ”中的部分内容。

作者构建小鼠模型，模拟额颞叶痴呆（FTD）病理学效应。Tau22小鼠转基因了人类tauFTD变体，并在一段时间内发展为tau病理学。获取野生型（WT）和Tau22小鼠的脑组织并提取RNA，包括2、8、11月龄的小鼠，进行RNA芯片分析基因表达，获得脑组织在tau病理学过程中显著被激活的基因。

作者通过SOM聚类，鉴定了参与tau蛋白的致病性基因集 。分别根据野生型或Tau22小鼠在3、8、11月时间点的相似表达水平将基因分组，并根据表达水平升高将其定义为每种条件的特征基因。共识别了6个主要的表达模块，同一模块内的基因集具有相似的表达模式，它们在该时间点均处于相对高表达的状态，暗示它们在这些时间点中发挥主要活性。

为了明确这些高度活跃的基因发挥的功能，随后作者通过基因集富集分析（GSEA），比较Tau22小鼠相较于WT小鼠中哪些途径被激活。在3个月大的Tau22小鼠中，特征基因显示与免疫反应的联系，表明在疾病开始时特征基因就参与了免疫过程；而在疾病发展后期，小鼠中上调的基因参与了诸如“应激反应”等功能中，且高达73%的特征基因与干扰素相关。

不难理解，上述文献中，作者通过SOM聚类识别高度表达的基因集，用作功能分析。

本篇模仿该文献中的思路，展示如何在R中执行基因表达谱的SOM聚类。

使用kohonen包执行SOM聚类，首先安装加载该包。

接下来基于示例的基因表达谱，对各基因执行SOM聚类。

如上过程基于基因表达值进行了聚类，获得了聚类模块，并按模块内基因的平均表达值赋值了模块颜色。随后，即可从图中判断选择高表达的模块，将其中的基因挑选出来，作为发挥生物学过程的“活跃”基因集。

那么，如何获得各模块中，都包含哪些基因呢？参考以下 *** 作。

这样，就将基因名称和其所属模块对应起来了。

最后，识别高表达的模块，并从中进一步筛选基因集就可以了。这些基因集既然存在高表达，那么必然会和功能密不可分。了解它们的功能，可以初步执行GO或KEGG富集分析进行探索，如开篇展示的文献中思路那样，不再多说了。

表达谱案例分析

肺癌组织的表达谱分析：选取 2 个肺癌病人（ 5T 和 10T）的组织提取总 RNA，进行分析。

实验目的：为了检测两个病人中表达差异较大的基因，以便找出两个病人症状差异的原因，并进行下一步相关的研究。

1、数据质量的概述

通过严格的质量标准筛选后，通过率达到 80%，最终得到 500 万左右的 Tag标签。

2、标签的初步分析统计

两个样品中有 95%的 Tag重复频度超过 1，73%以上的 Tag重复频度超过 50。

3、表达谱测序饱和度分析

通过对表达谱测序饱和度的分析，通常在表达谱 Tag数目达到 200 万时，测序 Tag接近饱和。因此，通过 Solexa 测序，仅需要 1次试验，就可以得到足够后续进行表达分析的数据。

4、样品重复性。

5、 Tag 标签的注释（含 cDNA，预测基因， EST，线粒体基因组，基因组等）

本案例中，人的 2 万 7 千个基因中有 50~60%都被 Tag所覆盖。即一般的基因的表达量差异被检测出来。为了提高 Tag同基因关联的可信度，我们仅仅选取了在基因序列中唯一定位的 Tag。这部分唯一定位的 Tag占全部 Tag数目的 50%左右。

另外，除去上述用于基因表达量统计的唯一定位 Tag，有大约 20%的 Tag 被定位到了基因组的未注释区域，其中大约有 10万个 Tag在基因组上的位置是唯一的。利用这些数据我们找到了许多新的转录本和调控区域。同时发现了若干潜在的两个样品间显著差异的区域。为后续的实验提供了可靠的研究目标。

6、参考 Tag标签的统计分析

下表显示的人的参考 Tag 的统计信息，我们可以看到 9653%的基因都拥有 Tag。说明 Tag-based 新一代测序技术的方法进行表达谱分析的可行性

7、基因表达量的分布统计

8、样本间表达差异基因的相关分析

通过对表达差异基因的统计和分析，我们可以选取样品间表达存在差异的基因，反馈给用户；此外一些已经报道可能相关的基因，是这一部分研究的重点，通过表达差异，我们可以推测出相关基因可能发生的变化。针对此例，图 3-3 中 2 个基因是已经报道的在 10T样品中高表达的基因。

9、样本间表达差异基因的信号通路相关分析

对差异表达基因进行功能分析和信号通路分析。结合样本性状差异，鉴定与性状关联的候选基因，以便通过进一步实验验证。

10、根据 Tag距离 3’端的位置对 tag 和基因数目进行的统计分析

通俗地说，转录图就像生命的乐谱。如果说人的每个细胞里的所有DNA决定6～10万基因的话，在每一种组织的细胞中，大概只有10%的DNA能表达，而表达的第一阶段就是“转录”。

我们知道，生物性状是由结构或功能蛋白决定的，功能蛋白是由信使RNA(mRNA)编码的，mRNA又是由编码蛋白功能基因转录而来的。转录图就是测定这些可表达片段(EST)的标记图。事实上，整个人类基因组中有97%的部分由不被转录的DNA组成，仅有2%～3%的DNA序列具有编码蛋白质的功能。在人体某一特定的组织中并非全部基因都表达。仅有10%的基因被表达。也就是说，只有不足1万个不同类型的mRNA分子(只有在胎儿的脑组织中，可能有30%～60%的基因被表达)。如果将这些mRNA通过一种反转录的过程构建成cDNA文库，然后再测定这些DNA的序列，最终绘制成一张可表达基因图——转录图。

首先，要不断地丰富EST数据库。DbEST是目前最大的一个公共功能性序列数据库，至1996年夏天，它已收集到40万种EST序列。其中大多数序列是在默尔克(Merck)公司资助下由华盛顿大学的序列测定项目提供的。这个数目并不代表人类基因组中可表达基因的数目(60000到100000个基因克隆)，因为一个全长的cDNA可能产生几个不重叠的EST片断。由于发现这些可表达的EST片段——“真正的基因”具有潜在的经济效益，许多商业公司都非常重视EST片段的克隆和序列分析。比如美国人类基因组科学公司据称已得到了超过850000个EST片段的数据库，对应于可能的6000个不同的基因，与人类基因组的全部基因数已相差不多了。现在，国际数据库中所贮存的EST的数量正以每日1000多个的速度增加着。

下一步就是将EST片段在人的基因组中定位。即将这些EST片段与某些疾病的易感位点联系起来，许多国家正在寻求合作，通过对这些EST片段进行染色体定位，绘制一个真正的“转录图谱”。1994年，约有1000个EST片段得到定位，1995年增至10000个，1996年则达到20000个。这样，一旦确定了与某个疾病有关联的位点，转录图就可以告诉你在这个区域有哪些基因。是否所有的基因都能以EST片段的形式在染色体上得以定位呢不是的。我们前面就已经知道EST片段是由mRNA经过反转录而来，不包括RNA的结构基因。此外，由于某些低水平表达的基因在构建cDNA文库时可能不包括于其中，因而EST也不能代表这些低水平表达的基因。这样，RNA的结构基因以及低水平表达的基因就不能以EST的方式被定位到转录图上。这个悬而未决的问题将随着整个基因序列的完成而得以解决。

转录图有特定的意义。首先，由于DNA的转录是有组织与时间特异性的，它来源于已知的某一生育阶段的某一组织。有人提出可以绘制一张反映在正常或受控条件中表达的数目、种类及结构、功能的信息。在将来的数据库中，我们可了解某一基因在不同时间、不同组织、不同基因、不同水平的表达；也可以了解某一特定时间，在不同时间、不同水平的表达；还可以了解一种组织中，在不同时间、不同基因、不同水平的表达。有了“正常”的转录图，就奠定了构建特定生理条件下与“异常”下cDNA图的基础，为步入21世纪的基因医学绘制了新的蓝图，即基因表达谱。

免费且只要是目前已经发表的论文，论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。利用这个数据库，我们可以检索到其他一些人上传的一些实验测序数据。

不涉及任何检测原理的角度来说的话，所谓的高通量检测，其实就是一次性检测很多指标变化的技术。例如我们说的表达谱数据，就是来检测基因表达水平。比如我们要对一个人来进行高通量检测的话，就能知道这个人上万个基因的表达水平了。

由于GEO数据库和我们之前介绍的gene数据库 [数据库推荐]gene:基因相关信息查询以及我们常用来搜索文献的pubmed都是一个机构的。使用这个数据库，我们需要做的就是就是就是提供检索式。检索式可以是简单的几个关键词，也可以是制定特殊的检索式。

BioGPS是一个基于网络的生物信息学工具，可用于交互式数据挖掘和高效数据可视化。它包含了大量的基因表达数据，具有超过180种典型的主要哺乳动物和其他物种的基因表达数据，可让用户快速找到组织及细胞器官特异性表达的基因。要找出组织、器官特异性表达基因，首先要进入BioGPS平台的基因搜索框，输入感兴趣的基因名称或ID号，然后点击"搜索"，得到基因相关信息，包括基因的组织及器官特异性的表达模式、相应的表达谱，以及组织分布的热图等。

因为GEO是基因表达综合数据库，RNA是实现遗传信息在蛋白质中的表达。

从GEO数据库获取GSE79973数据集，该数据集包含胃癌疾病与正常样本的表达谱数据，筛选出其中差异表达的lncRNA。

下载GSE62254和GSE15459数据集以及对应的临床数据，通过GSE62254数据集来构建一个临床预测模型，识别出与预后显著相关的lncRNA，通过GSE15459数据集对模型进行验证。

进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。

以上就是关于基因表达谱的SOM聚类分析识别功能基因集全部的内容，包括:基因表达谱的SOM聚类分析识别功能基因集、基因表达谱分析方法、什么是转录图等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9728987.html

基因表达谱的SOM聚类分析识别功能基因集

发表评论

评论列表（0条）