
20210106 14:24
参考的教程:
Submitting high-throughput sequence data to GEO
How to upload files to GEO
以及我师兄给我写的教程
大致的流程从网站上截取下来的
准备的数据有三个
There are three required components for the spreadsheet-based submission method:
数据准备完之后就是需要上传这些数据到GEO ftp 上,这个过程比较麻烦,GEO 的服务器真的是不太好用,速度很慢。
有几个方案可以选择:
这个方法缺点在于文件会中断,你每次中断之后需要续传真的很麻烦,而且有时候会出现
读取目录失败 连接被服务器关闭等问题 第一次登陆时也出现这个问题真的是百度了很久没有解决 后来到官网一看 原来人家早已经想到这个问题了真的是血的教训要好好看官网教程
但是后来还是会时常连接中断 感觉是geo ftp 不太稳定
大致是会出现这个问题 之后按他们说的方法就可以解决问题了
我用FileZilla传完数据,但是不知道是不是因为续传的原因只有一个数据是完整的 其他数据geo 工作者说是corrupted 然后我看了geo 服务器上的数据和本地服务器上的数据是一样的 并不知道为什么他们说不一样 难过
1Using 'lftp'
2Using 'sftp' (expect slower transfer speeds since this method encrypts on-the-fly)
3Using 'ncftpput' (transfers from the command-line without entering an interactive shell)
这个方法是可以挂在后台跑的就是挂在自己服务器上跑 让它自己慢慢传就是速度真的很慢啊 最后一个还是比较方便一点
标准化的方法就是Counts值:
对给定的基因组参考区域,计算比对上的read数,又称为raw count(RC)。
aw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是基因长度、测序深度不同不可以比较。所以我们要进行标准化把count矩阵转变为相对值,去除基因长度、测序深度的影响,我们采用分析的。
标准化的三种方法得出的三种值:
RPM (Reads per million mapped reads):RPM方法:10^6标准化了测序深度的影响,但没有考虑转录本的长度的影响。
RPKM/FPKM方法:
103标准化了基因长度的影响,106标准化了测序深度的影响。TCGA的数据分析多采用这种结果。
TPM (Transcript per million):TPM的计算方法也同RPKM/FPKM类似,TPM可以看作是RPKM/FPKM值的百分比。
具体判断方法:
表达量是否需要重新标准化。
可以通过boxplot函数观察一下样本表达丰度值的分布是否整齐进行判断。
是否需要log2:根据数据值的大小。
如果表达丰度的数值在50以内,通常是经过log2转化的。如果数字在几百几千,则是未经转化的。
含义不同。geo和go分析的区别是含义不同,go不是数据库,GEO数据是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表。
以上就是关于上传数据到GEO数据库获得GEO号全部的内容,包括:上传数据到GEO数据库获得GEO号、geo数据库数据如何标准化、geo和go分析的区别等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)