
2.登陆BackIt站点,注意到页面右边的“Sign in to use BankIt”标签,点击登录进入。如果没有账号就注册一个(注意,此账号与NCBI账号不通用)。
附 注册账号步骤,需要填写的项目为:
Title:你的职位或头衔
First name:名
last name:姓
login:登陆名
Affiliation:所属机构地址,一般填写自己学校地址
E-mail Address:通信电邮,填完后会发随机密码到此电邮地址,使用随机密码进行登陆,当然登陆后可对密码进行重置;
3.登陆BankIt,看到如下图所示界面,此时NCBI会自动分配一个SubmissionID,但不是最终的提交序列ID:
接下来共有九个步骤(好事多磨):
3.1 Contact Information
填写个人姓名、机构、电邮等资料集联系方式,如果错误该页会有ERROR提示直到正确填写,填写完毕点击CONTINUE;
3.2 Reference
填写参考作者信息(Reference author)及序列相关信息,比如该序列是否对应有文章,如单纯提交序列则只需选择Unpublished即可(Reference title项可以填入“Direct Submission”),有的话就填写已发表文章的信息(卷、期等),接下来会问你该序列的提交者是否是序列的发现者等信息,填写完毕点击CONTINUE;
※提示:新版的BankIt中,接下来会有“Sequencing Technology”一项,呈现有454、Illumina、SOLiD及Other等测序方法选择,目前为“Sanger dideoxy sequencing”即一代测序方法测序,并且所提交的序列均为“assembled sequences”,目前的“assembly program”为“Lasergene,version 7.0”。
3.3 Nucleotide
包括三个小项:Submission Release Date(期望NCBI什么时候公布你的序列)、16S
rRNA submissions(该序列是否为16S rRNA)、Sequence(s) and Definition
Line(s)(会提示问你该序列是否为全长genomic
DNA、线状或环状等、序列长度,需要复制序列或提交FASTA格式文件),如若序列长度与复制序列或FASTA文件长度不同则会有提示,需要重新提交序列,依次选择即可。一般选择“Immediately after Processing”,“非16S rRNA”,“genomic DNA”,“circular”,“complete”等信息,然后将全序列粘贴到下方的空格中,别忘了在上方写上总核苷酸数。完后审查看有没有错误,继续CONTINUE;
3.4 Organism
填写Organism(病原物)的名字,即序列公开显示时候的标题(如MYVYNV分离物序列“Malvastrum yellow vein Yunnan virus isolate SC226-5, complete genome"),点击CONTINUE后会出现自动检索项目,核对后(有可能会进行选择)继续CONTINUE;
3.5 Submission Category
提交范畴,是否直接提交或通过第三方Annotation提交(不是太清楚什么意思,可能指的是从EMBL和DDBJ中导入的数据吧),一般为直接提交,如下图示选择Original,继续CONTINUE;
3.6 Source modifier
选择该病原物的种类,比如质粒、线粒体等;
Source
modifier下拉菜单及后面的Value设置:进一步选择该病原物获取信息,比如Country、Host、Clone、Collection
date、Strain/Isolate等,至少三项(Organelle/Location为细胞器/位置,该项可以不填写),否则该项不通过,尽量信息全面真实,需要继续添加则点击Add,填写完毕查看下方已填写表格进行信息核对,然后CONTINUE;
3.7 Primers
PCR引物项目,可选项目,不想填写可CONTINUE;
3.8 Features(※)
该步骤重要!将用到之前准备的内容,比如序列内ORFs等信息的填写,并根据之前的选项来填写该步骤,比如需要将DNA翻译为氨基酸序列并进行复制粘贴等,该步 *** 作只需将之前准备信息录入即可,比较耗时;
点击下方“ADD”键,页面将切换为↓
在这里我们需要录入更多与该序列有关的信息,最主要的就是录入之前已经整理好的序列里面的开放阅读框(ORF)信息:Genetic Code设置为”Standard“,5'和3'都勾选上,Protein Name/Protein Description项都填写,将特定区域(ORF)的核苷酸序列翻译为氨基酸序列后(除去末端的终止子)复制到下方的”Amino Acid Sequence“框中,依次录入即可。在这里越详细越好,具体参照实际 *** 作;
3.9 Review and Correct
对已填写信息进行复核及提交,并被告知在2个工作日之内会收到NCBI电邮,需要进一步对序列进行审查核对;
4.至此,基本序列提交已经完工,剩下的事情就是等待审核,大概两个工作日后会收到来自NCBI工作人员的电邮,如有问题会通知你进一步修改信息直到完全无误,包括以后的接受序列号,即你的序列会出现在NCBI里面世界上唯一的一个界面里。
许多期刊在文章发表之前需要在文章中有序列的登录号,并且要求你在文章发表时,序列可以被读者索取。NCBI的GenBank提供了两个投递方式:
1、在线投递-BankIt,特点是比较方便。
2、本地投递文件生成程序——Sequin。目前NCBI seqin有MAC, PC和UNIX不同版本。其输出文件需要你通过电子邮件发给NCBI.
另外,上面所述一般适用于研究单个或多个功能基因的情况。如果大规模的测序如EST、 STS和GSS序列分别有专门的投递途径。
另外,提醒你的两个问题:
1、对你所投序列所属物种分类(拉丁名)要有所了解,这通常是出错的地方(seqin)
2、在你投递序列到发表文章之间,要注意NCBI发给你的电子邮件,它会询问你在什么时间将序列公布。
具体细节你可以浏览参考资料所指连接。
NCBI主页进入提交界面
选择基因组以及细胞器基因
登录以后正式进入提交流程,前四个提交都不是线粒体基因相关的,所以只能选第五个。
姓名,机构地址以及相关信息,电话+86(中国)
邮箱会有两个,会有一个Alternative Email,写不同的比较好,可以保证你一个邮箱出问题还有一个可以接收邮件。
第一个部分是序列作者
第二部分是文献引用,以及文献的作者,咱上传序列不是就为了发文章用嘛,写上这个文章就行。
根据自己实际情况选择就可以。测序方式,是否组装成序列,是的话还要写上用的什么软件组装。
最上面的是写数据释放时期,可以选择立即释放,如果选择延后释放的话,那就至少六个月以后。
下面就是分子数据类型,拓扑结构(线性,成环),是否是完整序列。然后上传序列信息就可以,上传文件和粘贴序列二选一就可以。
线粒体这块看选项,咱们也只能选第一个基因组DNA
这块建议写大家都先定到种再上传,这样这块就可以写上物种名(属名加种名)。如果没有定种,那写sp.也是可以的。
这里就两种类型一个就是自己数据自己组装序列,另一个就是使用第三方数据,你组装上传的序列。
这块不知道咋说了,除了上面写一下细胞器或者序列定位。剩下的都是添加一些零碎信息,坐标,海拔,收集时间,收集人,这些东西。自由发挥。
这部分我觉得是重头戏,线粒体基因序列的基因注释信息太重要了呀,没有这个就不知那一块是啥基因,这样后人使用就会很麻烦。
分为两个注释方式,
使用五列要素表如图下,记得选择文件以后要点一下2.Upload File,这是上传。(后面我会单独说一下五列要素表的格式)
上传以后NCBI会检查一下你上传的是否有问题,有问题的地方会警告。
底下接着是所有的注释特征可编辑。最底下是预览的gbk格式。
再确认一遍邮箱我觉得就可以完成提交。
其余都是具体情况再调整的。
最后完成提交,收工。
Feature Table File
https://www.ncbi.nlm.nih.gov/WebSub/html/help/feature-table.html
五列要素表我第一次接触是在mitoz的结果文件中有一个*.tbl文件,所以我后面使用时候也都这么写后缀,虽然不知是不是这个后缀。
格式要求:
1.五列说明:
2.跟gbk一样每一个基因都应该有两个特征一个是gene;另一个是tRNA,rRNA,CDS。
3.负链上基因特征起始和终止位置要跟gbk反过来,因为这里面没有complement()可以用,所以反向那就把起始和终止位置写成实际位置,系统自动读取为负链
4.tRNA,rRNA,CDS都要有 product
CDS还要有 transl_table
特殊需要注释的使用 note
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)