生物数据格式 - vcfbcf

生物数据格式 - vcfbcf,第1张

VCF是Variant Call Format的简称,该格式文件是专门用于存储基因序列突变信息的一种文本文件,包括单碱基突变SNV、单核苷酸多态性SNP、InDel、拷贝数变异CNV和结构变异SV等,文件可以采取editplus或pilotedit(建议)打开查看岁指,其二进制存储格式是BCF。vcf文件后续可以用于多种分析,包括但不限于:进化树分析、群体结构分析、PCA分析、GWAS关联分析等。vcf文件格式如下:

VCF文件开头是整体的注释信息,以##作为起始,其后接FILTER、INFO、FORMAT等,其中##FILTER开头的行是vcf主体record中第七列缩写词的说明、##INFO开头的行注释vcf主体record中第8列的缩写字母、##FORMAT开头的行注释第九列的缩写字母。

在header之后,vcf主体的每一行是一条record,固定列有9列,以及在之后的第十列,它们分别是:

第一列:#CHROM,数塌染色体号

第二列:POS,在染色体上的位置

第三列:ID,突变名称,一般只有人类才有dbSNP编号,以rs开头

第四列:REF,参考基因组碱基类型,必须大写

第五列:ALT,变异碱基类型,大写,多个以逗号分隔,‘.'表示缺失

第乎毕配六列:QUAL,变异检测质量值,越高越可靠

第七列:FILTER,标记过滤结果的列:通过质控过滤标准的标记为‘PASS’,后续可用其他工具进行挑选过滤

第八列:INFO,附加信息列,附加信息的注释在header的##INFO中

第九列:FORMAT,后面信息的说明列

第十列开始为样品信息:GT=genotype、AD=碱基支持数量、DP=测序深度总和、PL=归一化后基因型的可能性、GQ=PL判读的基因型的质量值,其中当第二小的值小于99时,有必要怀疑基因型的可靠性。

vcf文件基本由bam文件生成,当得到排序并建立索引的bam文件后,可以使用多种工具例如bcftools、gatk、freebayes、lumpy、delly、varscan2等处理得到。

处理vcf格式文件的软件有许多种,包括:bcftools、vcftools、gatk、python_pyvcf、plink等。

———以上属个人理解与记录

本教程 *** 作环境:windows10系统、DELL G3电脑。

vcf是什么格式的文件VCF是通讯录导出的一种格式。

VCF格式是Windows系统中outlook的名片存储格式,简单地说就是我们俗称的通讯录,打开VCF格式需要使用各手机的配套软件,例如vcf通讯录编辑器打开等,用outlook也可以打开VCF文件。但是问题是要么乱码,要么outlook只能导入第一个号码。

VCF格式通讯录格式用途广泛,配拆森一般诺御告基亚、摩托罗拉手机导出通讯录的格式即为VCF。可以把VCF格式保存到电脑上以备不时之需。而且很多网上通讯录的导入格式也是VCF,例如飞信就加入了导入联系人的功能,可以把手机通讯录导入飞信的通讯录里,这样不管你手机在不在,只要有一台电脑就可以对自己的通讯录里的人了如指掌了。

需要强调的的是,一般导入VCF基本都有乱码,可以用工具VCFEncoding工具重新导入一下,这样就可以解决乱码了。还可以在网上找一些网络通讯录,里面基本都会有用记事本改VCF的功能,可是,一个一个改比较繁琐,建议用第一种方法,省时省力。

上面说导入VCF格式通讯录。下面方法是比较简便的,即向电脑导入CSV通讯录格式。因为VCF格式是一个联系人一个VCF文件,导入网络通讯录时得一培亩个一个导入,而CSV则是所有通讯录都集成在一个文件里,这样导入的话就比较方便。先下载转换工具超级强档,之后安装,安装后运行,点文件,其中有一栏为导入,导入VCF的文件夹就可以,之后在点文件,有一栏为导出,导出CSV文件就可以了,例如将通讯录里的人导入飞信就可以用以上步骤,最后将CSV导入飞信就可以了。CSV可以用Excel编辑,自己看情况可以另外编辑。

也可以直接用WPS表格Excel打开VCF格式文件,打开后是表格。也可以对表格进行修改。

vcf通讯录编辑器下载如下:

更多相关知识,请访问常见问题栏目!


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/tougao/12305090.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-22
下一篇2023-05-22

发表评论

登录后才能评论

评论列表(0条)

    保存