dna文件解析错误怎么办

dna文件解析错误怎么办,第1张

dna文件解析错误怎么办,原因如下:

第一种原因,这些信息在服务器底层数据库存储时出现了格式错误,此时需要管理员执行数据库周期性的archive *** 作,纠正这些格式错误。

第二种原因,客户端使用的服务器检索程序编写有故障,或者不能处理所有的特殊格式。这种情况需要增强检索查询。

FASTQ是储存原始测序数据的一种文本文件格式,包含核酸序列以及对应的质量值。

每个read有四行:第一行记录测序所用仪器以及read测序时所在通道坐标信息;第二行是ATGC碱基序列,缺省时用N表示;第三行+号;第四行是对应碱基的质量值。

第四行这个质量值(Phred或者Q-score),是用一个整数表示碱基的错误率,P是错误率,

在序列中Q值用ASCII字符表示. ASCII字符与对应的整数转换如下:

SAM文件全程Sequence Alignment Map,是储存生物序列比对到参考基因组的一种数据格式。

samtools view -H命令可以浏览带有@的header的信息不带-H直接是read alignment的信息。

vcf文件是一种储存DNA多态性(SNP、插入、缺失、结构变异)的一种数据格式。

跟SAM文件类似的存储结构,也是header+body。不同软件提供的vcf文件INFO大同小异,主体都是一样:

前八列是必须项,包括染色体CHROM, 变异在染色体上的位置信息POS, 变异的标识符ID, 参考等位基因REF, 逗号分割的其他非参考等位基因ALT, 质量值QUAL, 位点过滤信息FILTER以及变异注释信息INFO。

如果有样本信息,第九列则为FORMAT,从第十列开始则是每个样本的信息。

在FORMAT中的一些关键字,INFO里有时也会有。一般header里都会存储FORMAT出现的所有缩写的解释,但也有时拿到数据时header里没有找到对应的解释,可能是由于在数据过滤的过程中没有保留所有的header信息。

以上是遇到过的一些vcf出现的关键字,也有只含有GT基因型信息的, 它以数字编译等位基因,0是ref,1是alt, 2是第二个ALT... 等位基因的数量表示该生物样本的染色体倍数,分隔符表示等位基因是否分型过phased (‘|’)或者unphased (‘/’)。根据不同分析可能依赖侧重的信息不同,就不一一列举了,有文已经解释的比较清楚,可以按需查询。

Quality (Phred) scores

NGS数据格式02-SAM/BAM最详细解读 - 知乎

variant call format and VCFtools | Bioinformatics | Oxford Academic

vcf文件与vcftools(一) -

VCF (Variant Call Format) version 4.0 | 1000 Genomes

DNA文件用SnapGene软件打开。

打开一个质粒图谱文件,在Topologyoption处选择circular,显示质粒图谱的开放阅读框及转录方向。点击其显示的箭头可显示该ORF的片段大小,GC%等一些信息。

SnapGene是一款综合性的分子生物学的软件,其包括的功能如PCR,酶切质粒,载体构建,电泳等。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/tougao/11596240.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-17
下一篇2023-05-17

发表评论

登录后才能评论

评论列表(0条)

    保存