请教关于TCGA数据的问题

请教关于TCGA数据的问题,第1张

Case列显示的是该文件里数据来自于多少cases。比如569,说明这个文件整合了所有569个cases的genotyping数据,有些数字为1的,说明这个文件里只有一个case的数据。

对于RNAseq后续的分析,如果要用软件比如limma,edgeR比较表达差异的基因,就用counts数据。如果你想自己做t-test,下载counts数据自己做normalization再进行比较也行,或者下载已经做过normalization的RPKM/RPKM-UQ直接比较也行

癌旁的数据也包含在这些cases里了,下载metadata就能看到每个sample的信息,你会发现有些是来自solid tissue normal,这些都是癌旁的数据

需要

1、把握现在,数控未来。

2、智能数据搜索,商机定位高效。

3、搜索定位相助,数据让你出众。

4、数接千载,据联万里。

5、数据不是黄金,数据指引黄金。

6、商务不再迷茫,数据精准领航。

7、搜索未来商机,下载未来先机。

8、数析先机,商联天下。

9、数据分析有路,商机快速起步。

10、问道专业大数据,抢占市场新效益。

11、未来市场怎么办,数据分析有答案。

12、快速定位,高效分析,洞察先机。

TCGA数据分析系列(一) (qqcom)

TCGA中数据类型主要有以下几种

mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量

microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量

Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息

Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值

Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化

Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量

Methylation:甲基化芯片测得的DNA甲基化数据

Project:所有TCGA样本名均以这个开头

TSS: Tissue source site,组织来源编码

详见组织来源编码

Participant:参与者编号

Sample:其中编号01~09表示肿瘤,10~19表示正常对照,最常见的是01和11

Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据

Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用

Analyte:分析的分子类型,对应关系如下所示

Plate:在一系列96孔板中的顺序,值大表示制板越晚

Center:测序或鉴定中心编码

1、筛选PTC中潜在的circRNA,GEO数据库中查找甲状腺乳头状癌相关的数据集,最终找到GSE93522。通过GEO2R在线差异分析工具进行差异分析,此处组别的设置为:(正常vs良性);(正常vs恶性)。在挑选候选circRNA分子时,只挑选在(正常vs恶性)中的差异分子,排除在(正常vs良性)中上调或者下调的circRNA。最终找到13个上调和1个下调的PTC发生和进展相关的circRNA分子。随后,我们通过circBase数据库找到这14个circRNA分子的亲本基因以及在基因组中的座位。为了绘制circRNA圈图,我们在CSCD数据库中查找这14个circRNA,最终找到11个circRNA,并用其中的数据绘制圈图。

2、预测和分析PTC中与潜在circRNA分子结合的miRNA,circRNA分子发挥作用存在三种比较常见的机制:作为miRNA的海绵;与RBP结合;翻译为短肽或者蛋白质。从绘制的圈图看,这11个miRNA均存在MRE元件,可能可以与相应的miRNA相互作用。因此,我们使用CSCD和CRI数据库来预测相应的结合miRNA,并用Cytoscape软件构建相应的circRNA-miRNA网络图。随后,通过使用TCGA数据库中的数据,分析上述miRNA在甲状腺乳头状癌中的表达和预后价值。3、预测和分析PTC中上述miRNA下游的靶基因,通过上述的表达分析和预后分析,符合筛选要求的只有miR-605-5p和miR-876-3p两个miRNA。接着,我们使用综合性靶基因预测数据库miRNet,预测这两个miRNA下游的靶基因。通过蛋白互作网络分析,我们构建靶基因PPI网络,并结合CytoHubba中的算法(Cytoscape中的插件),最终筛选出20个hub基因。同时,使用STRING数据库,我们对预测出的靶基因进行GO和KEGG富集分析。

4、构建PTC中潜在的信号通路:hsa_circ_0088494-miR-876-3p-CTNNB1/CCND1,还是通过Cytoscape,我们构建miRNA-hub基因网。使用starBase数据库,我们对miRNA-hubgene关系对作表达相关性分析,从中筛选呈显著负相关的关系对(3个关系对符合)。最后,对三个关系对中的hub基因作表达分析,发现只有CTNNB1和CCND1在甲状腺乳头状癌中显著高表达,符合要求。

DataTable dt = new DataTable();

dtColumnsAdd(new DataColumn("PreRevDate0", typeof(decimal)));

DataColumn col = new DataColumn();

colColumnName = "PreRevDate1";

colExpression = "ABS(ConvertToInt32(PreRevDate0))";

colDataType = typeof(decimal);

dtColumnsAdd(col);

DataRow dr = dtNewRow();

dr["PreRevDate0"] = -1;

dtRowsAdd(dr);

以上就是关于请教关于TCGA数据的问题全部的内容,包括:请教关于TCGA数据的问题、TCGA数据库使用需要伦理审核吗、TCGA数据ID的编码意义等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/sjk/10147269.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-05
下一篇2023-05-05

发表评论

登录后才能评论

评论列表(0条)

    保存