linux idr作用

linux idr作用,第1张

idr在linux内核中指的就是整数ID管理机制,从本质上来说,这就是一种将整数ID号和特定指针关联在一起的机制。

现在,在内核的很多地方都可以找到idr的身影。idr机制适用在那些需要把某个整数和特定指针关联在一起的地方。

linux中内核并发机制也就是同步机制产生的原因,总的来说可归纳为一下4点:

l 中断——中断几乎可以在任何时刻异步发生,也就可能随时打断当前正在执行的代码。

2 睡眠及与用户空间的同步——在内核执行的进程可能会睡眠,这就会唤醒调度程序,从而导致调度一个新的用户进程执行。

3 对称多处理——两个或多个处理器可以同时执行代码。

4内核抢占——因为内核具有抢占性,所以内核中的任务可能会被另一任务抢占(在2.6内核引进的新能力)。

ATAC-seq/ChIP-Seq中重复样本的处理

ATAC-Seq要求必须有2次或更多次生物学重复(十分珍贵或者稀有样本除外,但必须做至少2次技术重复)。理论上重复样本的peaks应该有高度的一致性,实际情况并不完全与预期一致。如何评价重复样本的重复性的好坏?如何得到一致性的peaks?

1. 用Bedtools进行简单的overlap合并重复样本

2. 用IDR(Irreproducibility Discovery Rate)的方法获得高重复性的peaks

如何得到两个重复样本间一致性的peaks? 一种简单粗暴的方法就是用 bedtools 计算peaks的overlaps。

用法: bedtools intersect [OPTIONS] -a <bed/gff/vcf/bam>-b <bed/gff/vcf/bam>

其他常用参数解释和图解如下:

评估重复样本间peaks一致性的另一种方法是IDR。IDR是通过比较一对经过排序的regions/peaks 的列表,然后计算反映其重复性的值。

IDR在 ENCODE 和modENCODE项目中被广泛使用,也是 ChIP-seq指南和标准 中的一部分。

使用IDR的注意事项:

--samples :narrowPeak的输入文件(重复样本)

--input-file-type :输入文件格式包括narrowPeak,broadPeak,bed

--rank p.value :以p-value排序

--output-file : 输出文件路径

--plot :输出IDR度量值的结果

输出文件解读:

详细内容可参考: https://github.com/nboley/idr#output-file-format

(1)sample-idr

sample-idr是common peaks的结果输出文件,格式与输入文件格式类似,只是多了几列信息。前10列是标准的narrowPeak格式文件,包含重复样本整合后的peaks信息。

其他列信息如下:

wc -l *-idr 计算下common peaks的个数,接着可再计算下与总peaks的比率。

如果想看IDR<0.05的,可以通过第5列信息过滤:

awk '{if($5 >= 540) print $0}' sample-idr | wc -l

(2)sample-idr.log

log文件会给出peaks通过IDR <0.05的比率,如下图所示

左上: Rep1 peak ranks vs Rep2 peak ranks, 没有通过特定IDR阈值的peaks显示为红色。

右上:Rep1 log10 peak scores vs Rep2 log10 peak scores,没有通过特定IDR阈值的peaks显示为红色。

下面两个图: Peak rank vs IDR scores,箱线图展示了IDR值的分布,默认情况下,IDR值的阈值为-1E-6。

哈佛深度NGS数据分析课程

06-Handling replicates in ChIP-Seq


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/7315930.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-04
下一篇2023-04-04

发表评论

登录后才能评论

评论列表(0条)

    保存