
在NCBI的GEO数据库中,系列(series)中matrix目录下的GSExxx_series_matrixtxtgz文件,其中的数据是什么含义。是不是别人已经标准化好的数据(而且是log2处理过的),我可以用来直接求倍数然后看表达差异
GSExxx_series_matrixtxtgz数据格式和楼主的数据截图类似,差别在于列标题,楼主的列标题是GSMxxxxxxCEL,而从GEO下载的GSExxx_series_matrixtxtgz的数据,列标题是GSMxxxxxx,无“CEL”。
ID_REF GSM413894 GSM413895 GSM413896 GSM413897 GSM413898 GSM413899 GSM413900 GSM413901
AFFX-BioB-3_at 8472861 758379 7726437 7808923 8604332 860782 8343771 8628157
AFFX-BioB-5_at 865537 7696443 7996466 7719412 8770542 8652599 8404749 8911979
AFFX-BioB-M_at 8813823 7890245 8127718 8306655 9011187 891993 8566244 906862
AFFX-BioC-3_at 9633732 9024885 9136383 9120244 102995 1015661 1000954 1025113
AFFX-BioC-5_at 9756588 9118516 9137075 9544678 9945514 9793713 9544567 9861975
AFFX-BioDn-3_at 120726 1167344 1162215 119874 1216764 1197144 1181811 120963
打开GEO数据库的主页:>
在搜索框中输入您想要查找的run或biosample的相关信息,例如实验号、样本名称、作者等。
点击搜索按钮,在搜索结果页面中选择您想要查看的数据集。
进入数据集页面后,在页面左侧的导航栏中找到“Supplementary”(附加材料)选项,点击展开。
在展开的附加材料选项中可以找到包含run和biosample信息的文件,通常命名为"Series_and_Samples"或者"metadata"。
点击文件名称即可查看包含run和biosample信息的表格或文本文件
你好,是准确的。这个就涉及到GEO2R的使用目标了。GEO2R只适用于 表达谱芯片分析。但是GEO数据里面,并不止是包括表达谱芯片数据。还包括一些二代测序的数据。而二代的数据是不能这么简单的分析的,这也是为什么我们在第一次介绍GEO的时候,就说,现在常规的容易入门的数据分析类型还是 表达谱数据。
一般我们在GEO检索结果的时候,如果可以用GEO2R分析的,都会显示。
因为GEO是基因表达综合数据库,RNA是实现遗传信息在蛋白质中的表达。
从GEO数据库获取GSE79973数据集,该数据集包含胃癌疾病与正常样本的表达谱数据,筛选出其中差异表达的lncRNA。
下载GSE62254和GSE15459数据集以及对应的临床数据,通过GSE62254数据集来构建一个临床预测模型,识别出与预后显著相关的lncRNA,通过GSE15459数据集对模型进行验证。
进一步的通过多因素分析来研究ACJJ分期、性别、年龄和样本的风险分数与临床预后的关系。最后通过ssGSEA来发现样本的高低风险组之间通路富集的差异情况。
geo数据库筛选数据方法是:
1、首先,打开NCBI,选择GEODatasets,输入GDS5656,点击Search。
2、点击样品分类号,我们可以看到该研究的详情,包括文章研究内容、实验方案设计、样本详情等。
3、点击AnalyzewithGEO2R,利用在线工具进行数据分析。将4个样本分成了两组,分组完毕后,点击saveallresults,获取两组之间的差异表达基因。
4、得到如下所示的文本内容,将其粘贴到记事本(例如,保存为resulttxt),然后导入到excel中(数据→自文本,选择resulttxt文件导入),准备进行筛选。
5、下一步,我们需要对差异表达基因的数据进行进一步的筛选。
6、最后我们可以在EXCEL左下角的状态栏看到,一共筛选出来738个条目。
以上就是关于如何使用geo数据库分析基因表达与预后的关系全部的内容,包括:如何使用geo数据库分析基因表达与预后的关系、GEO数据库的run,biosample在哪里看、geo数据库里的高表达低表达准确吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)