
· 什么是GenBank? GenBank 是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特征的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
· 纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
· 访问GenBank - 通过 Entrez Nucleotides 来查询。用 accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于 Entrez 更多的信息请看下文。用 BLAST 来在 GenBank 和其他数据库中进行序列相似搜索。用E-mail来访问Entrez 和 BLAST 可以通过 Query 和 BLAST 服务器。另外一种选择是可以用 FTP 下载整个的 GenBank 和更新数据。
· 增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8(GenBank增长)小节。
· 公布通知,最新 - 最近和即将有的变化,GenBank 的分类,数据增长统计,GenBank 的引用。
· 公布通知,旧 - 同上相同,是过去公布的统计。
· 遗传密码 - 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。
向GenBank提交数据
· 关于提交序列数据,收到 accession number,和对纪录作更新的一般信息。
· BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用 VecScreen 去除载体)
· Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/种系/突变研究的提交。可以懒⑹褂茫�蛘哂没�赥CP/IP的"network aware"模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)
· ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和 RACE 实验的 cDNA 序列。
· GSSs - 基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap 获得的序列,cosmid/BAC/YAC 末端,及其他。
· HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段3)序列。(注意:完成的人类的HTG序列可以同时在 GenBank 和 Human Genome Sequencing 页面上访问。)
· STSs - 序列标签位点。短的在基因组上可以被唯一 *** 作的序列,用于产生作图位点。
· 注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中(dbSNP)。
国际核苷酸序列数据库合作组织
· GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。GenBank,DDBJ(DNA Data Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。
· DDBJ/EMBJ/GenBank 特性表 - 特性表格式和标准被合作数据库用在序列记录的注释上,使得数据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸的代号。
FTP GenBank 及每日更新
· GenBank普通文件格式 - 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。
· ASN.1格式 - 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。
· FASTA格式 - 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
http://www.bioon.com/biology/Print.asp?ArticleID=1256
(1)在公共DNA数据库(比如GenBank)中有多少玉米相关的条目(entries)?在数据库中与玉米相关数据中有多少Waxy (granule-bound starch synthase)基因序列?(2)SSH实验得到了一个未知序列,请在公共数据库中找到最佳匹配(hit)(其实就是做比对,blast),然后预测潜在的功能。(结构相似性与功能相似性)
(3)用动态算法(指定了这个算法:Needleman-Wunsch algorithm)对以下序列进行全局比对,打分系统用BLOSUM50空位罚分8。(需要你去了解这个算法,然后用程序实现应用到比对中,最后得出最佳的匹配方案得到结果)
(4) 在竹子的基因组片段中找基因
(5) 在植物抗病基因中找一致性序列(domains/motifs)(这个你可以用寻找motif的软件工具,如MEME)
(6) 构建植物抗病基因的系统发生树
(7) 写一篇近两年关于谷物类基因或者人类基因组相关的综述。
P.S. LZ你这个是课程结束作业么,工作量不小啊
因为这样精确。测序数据有小数是因为这样精确
测序数据有小数是为了防止误差,得到的小片段(类似ATCCTA..GCTA)counts:与已知序列(基因)比对上的reads个数(为整数,可能是个位数也可能是几千,与基因表达情况和测序深度有关)由于不同基因的reads长度不同,从统计角度上看,需要采用FPKM或RPKM来排除随机抽样带来的偏倚。并且,不同的测序深度,直接影响counts的个数。通常,如果数据集都为整数,基本上可以判定是counts值,如果是小数,基本上可以判定是做整理后的FPKM或RPKM,这个就需要找到数据集的源头(NCBI或其它数据库)查看数据的说明
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)