移步 github 实现目录跳转,获得更好的阅读体验
目录
基因型缺失:样本中没有被测序数据覆盖到的区域,基因型就属于未知的,我们将之称为缺失位点
基因型数据的缺失又分为 遗传性缺失 和 检测性缺失 :
注意!
分为 样本水平的缺失率 和 位点水平的缺失率
例如下图,0、1、2 分别代表三种检测到的基因型,图中缺失位点使用“?”表示。那么样本1的缺失率=20%(总体10个位点,有两个位点缺失),而位点2的缺失率=60%(总体5个位点,有3个位点缺失)
基因型缺失最直接的影响就是这个位置的 信息缺失 ,从而影响下游分析(包括遗传图谱构建,QTL定位,选择压力分析,GWAS分析等)的信息完整性和准确性。
例如,(b)中红色的点是(a)中缺失的位点。而与性状关联的SNP位点,恰恰位于虚线所在的区域内。这些显著位点在(a)中是缺失的,所以(a)没有检测到关联信号,从丢失了非常关键的信息
基因型缺失对GWAS分析、选择压力分析影响都比较大
原理:
常见imputation的基本逻辑包括两步:
根据缺失样本有限的基因型信息(仅有3个位点),就可以判断这个样本与参考单倍型集中的哪种单倍型最为相似(图中分别对应紫色、绿色、黄色三种单倍型)。然后,将对应的最相似的单倍型赋予给该样本,从而让该样本获得完整的基因型,图b
(1) 计算密集型 ,比如IMPUTE、 IMPUTE2、MACH、 和fastPHASE/BIMBAM
这种类型的方法在填充的过程中 充分考虑到全部可以观察到的基因型信息 ,使得对缺失值的估算更加精确;但以上大部分软件都是针对人类的开发的。人类种群的遗传特性是个体杂合率较高、近交率低、系谱关系来源随机。很多植物,尤其作物的遗传特性则和人类相反。
(2) 计算高效型 ,比如PLINK、TUNA、WHAP和BEAGLE
此种算法 仅仅关注与特定位点相邻的一小部分标记 的基因型,因此在计算上更加快捷
Impute2的基因填充 (genotype imputation) 分为两种应用情景:
对于大规模的reference panels,基因型填充建议分两步进行:
IMPUTE2 或 SHAPEIT 都可以执行pre-phasing操作,Drs. Bryan Howie 和 Jonathan Marchini推荐使用 SHAPEIT 进行pre-phasing,因为该工具采用的phasing方法更准确
IMPUTE2的pre-phasing推荐采用 滑动窗口法 (Sliding Window Analyses) 进行:
对整条染色体进行pre-phasing建议使用SHAPEIT
SHAPEIT接受PLINK PED和IMPUTE的格式输入
参考资料:
(1) 【】群体遗传学习笔记-基因型缺失数据的填充
(2) Impute2官方文档
(3) Genotype File Format
(4) IMPUTE2: 1000 Genomes Imputation Cookbook
(5) Weale M (2010) Quality Control for Genome-Wide Association Studies. Methods Mol. Biol. 628:341–372
(6) van Leeuwen EM, et al. Population-specific genotype imputations using minimac or IMPUTE2[J]. Nature Protocols, 2015, 10(9):1285-1296.
说来话长,要看你面对的是什么样的情况,首先啤酒瓶子要分新瓶、旧瓶,其次要分普通瓶、专用瓶。先说旧瓶,分2种包装形式,一种是麻包、一种是周转箱装的。周转箱的好办,一般你只要清点数目就行,而且在卸车的时候你能够监视到瓶子的缺损情况,少几个都一目了然,顺便摸摸瓶口有没有伤,有经验的摸都用,扫一眼就非常清楚。
麻包的就不好办了,如果送货的单位比较专业,一般麻包的规格就差不多,因为没时间一包一包的看,那就只好采用抽验的形式来检验了。假如送来的货都是110瓶/袋的,那你要根据这车货的总数,大致抽个2%,用这几包来代表全部的质量和数量。如果这几包的缺失率已经达到3%,你可以判为不合格,要和商家谈判就是否收货,如果低于这个指标,就把缺失的百分比乘上总的进货数量,开进货单据。缺失率含真缺的
破损的、破口的、非B的、过期的。
再说新瓶,进货检验基本和旧瓶的形式一样,但是要多一个理化指标的检验,可以依据啤酒瓶的国家标准,也可根据合同标准来执行,一般的项目包括:
抗冲击、抗冷热、抗内压、外观的合缝线,沙眼、气泡、等等。
如果感兴趣,我们可以进一步联系。
欢迎分享,转载请注明来源:优选云