geo数据库的优点

geo数据库的优点,第1张

免费且只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。

GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。利用这个数据库,我们可以检索到其他一些人上传的一些实验测序数据。

不涉及任何检测原理的角度来说的话,所谓的高通量检测,其实就是一次性检测很多指标变化的技术。例如我们说的表达谱数据,就是来检测基因表达水平。比如我们要对一个人来进行高通量检测的话,就能知道这个人上万个基因的表达水平了。

由于GEO数据库和我们之前介绍的gene数据库 [数据库推荐]gene:基因相关信息查询 以及我们常用来搜索文献的pubmed都是一个机构的。使用这个数据库,我们需要做的就是就是就是提供检索式。检索式可以是简单的几个关键词,也可以是制定特殊的检索式。

标准化的方法就是Counts值:

对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。

aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的。

标准化的三种方法得出的三种值:

RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。

RPKM/FPKM方法:

103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果。

TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。

具体判断方法:

表达量是否需要重新标准化。

可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断。

是否需要log2:根据数据值的大小。

如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/10020867.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-04
下一篇2023-05-04

发表评论

登录后才能评论

评论列表(0条)

    保存