
Case列显示的是该文件里数据来自于多少cases。比如569,说明这个文件整合了所有569个cases的genotyping数据,有些数字为1的,说明这个文件里只有一个case的数据。
对于RNAseq后续的分析,如果要用软件比如limma,edgeR比较表达差异的基因,就用counts数据。如果你想自己做t-test,下载counts数据自己做normalization再进行比较也行,或者下载已经做过normalization的RPKM/RPKM-UQ直接比较也行
癌旁的数据也包含在这些cases里了,下载metadata就能看到每个sample的信息,你会发现有些是来自solid tissue normal,这些都是癌旁的数据
需要
1、把握现在,数控未来。
2、智能数据搜索,商机定位高效。
3、搜索定位相助,数据让你出众。
4、数接千载,据联万里。
5、数据不是黄金,数据指引黄金。
6、商务不再迷茫,数据精准领航。
7、搜索未来商机,下载未来先机。
8、数析先机,商联天下。
9、数据分析有路,商机快速起步。
10、问道专业大数据,抢占市场新效益。
11、未来市场怎么办,数据分析有答案。
12、快速定位,高效分析,洞察先机。
TCGA数据分析系列(一) (qqcom)
TCGA中数据类型主要有以下几种
mRNA:mRNA芯片或者RNA-Seq测得的mRNA表达量
microRNA:microRNA芯片或者microRNA-Seq测得的microRNA表达量
Clinical:病人的一般情况、诊治情况、生存情况、肿瘤分期等随访信息
Copy Number:SNP芯片得到的肿瘤组织比对正常组织的染色体上各片段的比值
Mutation:肿瘤组织测序结果相对参考基因组的核苷酸突变,包括插入和缺失等变化
Protein:蛋白芯片测序得到的约200种常见癌症相关蛋白的表达量
Methylation:甲基化芯片测得的DNA甲基化数据
Project:所有TCGA样本名均以这个开头
TSS: Tissue source site,组织来源编码
详见组织来源编码
Participant:参与者编号
Sample:其中编号01~09表示肿瘤,10~19表示正常对照,最常见的是01和11
Vial:在一系列患者组织中的顺序,绝大多数样本该位置编码都是A; B表示福尔马林固定石蜡包埋组织,已被证明用于测序分析的效果不佳,所以不建议使用B的样本数据
Portion:同属于一个患者组织的不同部分的顺序编号,同一组织会分割为100-120mg的部分,分别使用
Analyte:分析的分子类型,对应关系如下所示
Plate:在一系列96孔板中的顺序,值大表示制板越晚
Center:测序或鉴定中心编码
1、筛选PTC中潜在的circRNA,GEO数据库中查找甲状腺乳头状癌相关的数据集,最终找到GSE93522。通过GEO2R在线差异分析工具进行差异分析,此处组别的设置为:(正常vs良性);(正常vs恶性)。在挑选候选circRNA分子时,只挑选在(正常vs恶性)中的差异分子,排除在(正常vs良性)中上调或者下调的circRNA。最终找到13个上调和1个下调的PTC发生和进展相关的circRNA分子。随后,我们通过circBase数据库找到这14个circRNA分子的亲本基因以及在基因组中的座位。为了绘制circRNA圈图,我们在CSCD数据库中查找这14个circRNA,最终找到11个circRNA,并用其中的数据绘制圈图。
2、预测和分析PTC中与潜在circRNA分子结合的miRNA,circRNA分子发挥作用存在三种比较常见的机制:作为miRNA的海绵;与RBP结合;翻译为短肽或者蛋白质。从绘制的圈图看,这11个miRNA均存在MRE元件,可能可以与相应的miRNA相互作用。因此,我们使用CSCD和CRI数据库来预测相应的结合miRNA,并用Cytoscape软件构建相应的circRNA-miRNA网络图。随后,通过使用TCGA数据库中的数据,分析上述miRNA在甲状腺乳头状癌中的表达和预后价值。3、预测和分析PTC中上述miRNA下游的靶基因,通过上述的表达分析和预后分析,符合筛选要求的只有miR-605-5p和miR-876-3p两个miRNA。接着,我们使用综合性靶基因预测数据库miRNet,预测这两个miRNA下游的靶基因。通过蛋白互作网络分析,我们构建靶基因PPI网络,并结合CytoHubba中的算法(Cytoscape中的插件),最终筛选出20个hub基因。同时,使用STRING数据库,我们对预测出的靶基因进行GO和KEGG富集分析。
4、构建PTC中潜在的信号通路:hsa_circ_0088494-miR-876-3p-CTNNB1/CCND1,还是通过Cytoscape,我们构建miRNA-hub基因网。使用starBase数据库,我们对miRNA-hubgene关系对作表达相关性分析,从中筛选呈显著负相关的关系对(3个关系对符合)。最后,对三个关系对中的hub基因作表达分析,发现只有CTNNB1和CCND1在甲状腺乳头状癌中显著高表达,符合要求。
DataTable dt = new DataTable();
dtColumnsAdd(new DataColumn("PreRevDate0", typeof(decimal)));
DataColumn col = new DataColumn();
colColumnName = "PreRevDate1";
colExpression = "ABS(ConvertToInt32(PreRevDate0))";
colDataType = typeof(decimal);
dtColumnsAdd(col);
DataRow dr = dtNewRow();
dr["PreRevDate0"] = -1;
dtRowsAdd(dr);
以上就是关于请教关于TCGA数据的问题全部的内容,包括:请教关于TCGA数据的问题、TCGA数据库使用需要伦理审核吗、TCGA数据ID的编码意义等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)