
当你双击要打开的文件,Windows将检查文件胡敏扩展名。如果Windows能够识别的文件扩展名,它打开文件在程序与关联的文件扩展名。当Windows不能识别的文件扩裤团枝展名,您会收或乱到以下消息:
篇目
.sra文件扩展的细节
Sequence Read Archive
.sra 文件转换器
.sra 文件相关的错误
这个文件Windows无法打开
例子.sra
打开这个文件,Windows需要知道你想用什么程序打开它...
如果你不知道如何设置 .sra 文件关联,检查 常见问题。
扩展的文件我可以改变吗?
更改文件扩展名的文件是不是一个好主意。当您更改文件的扩展名,你改变方式你的计算机上的程序读取文件。问题是,改变文件扩展名不能更改文件格式。
利用NCBI数据进行分析的时候,遇到的第二个问题就是如何将SRA文件转化为常用的fastq文件。
NCBI官方提供的SRAtoolkit里面有fastq-dump,很简单的一个命令,直接转侍并换出来就是压缩好的fastq.gz文件,但是这个命令是单线程的,遇上大量的SRA数据就非常慢了,所以后来开发了一个fasterq-dump,能够多线程的转换。
但是这个命令最大的问题是不能直接出压缩好的fastq.gz文件,对于非服务器用户很不友好,没压缩的fq文件通常十几个G,文件一多硬盘就爆炸,所以还是希望能够以压缩好的gz文件存储,通常只有原始文件的1/8左右,只有原始SRA文件的2倍左右。如悉谈租果利用gzip命令,这玩意也是个单线程的,压缩起来要了亲命睁兆。所以通过寻找我发现pigz这个命令可以多线程的压缩,压缩大小和gzip是差不多的,最后我写了个简单的shell脚本,可以一次性完成这两步工作。
把两个分割线中间的命令用记事本保存为sh文件,放在服务器上就能够执行了。多线程的转换,多线程的压缩,节约不少时间,对台式机用户比较友好。
来源还是 生信技能树 。
高通量测序产生的海量数据都是经过压缩再上传的,目前比sra更好的压缩方式也正在研究中。首先把sra文件转换成人可读的fastq格式:
--gzip 输出gz压缩格式 --split-3 对PE reads使用
首先看下fastq数据前几行了解数据大猜世败概内容。因为是PE测序,所以两个文件都分别看下 zcat SRR3589959_1.fastq.gz |head -n 8 和 zcat SRR3589959_2.fastq.gz |head -n 8 。
可以看出fastq数据每条read的记录由4行组成:
其中
HWUSI-EAS100R 设备名
6flowcell lane(流动槽泳道号)
73 tile number within the flowcell lane(泳道区块号)
941‘x’-coordinate of the cluster within the tile(区块上x坐标)
1973 ‘y’-coordinate of the cluster within the tile(区块上y坐标)返枣
#0 index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)
ls *.fastq.gz |xargs fastqc -t 6
结果如下:
其中绿色表示检测通过,黄色为警告,红色为未通过。如图Per base sequence content因为前15个碱基分布异常而未通过检测,可能存在序列污染或者接头没去干净。一般mRNA测序数据的碱基分布都是比较均一平行的,穗颤而 ChIP-seq、RIP-seq则可能出现比较大的碱基分布偏好 。
根据最后三项检测可以进一步分析是否有污染或者没去干净的接头序列存在。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)