全基因组测序技术_服务器

问题一：全基因组测序的技术路线提取基因组DNA，然后随机打断，电泳回收所需长度的DNA片段（02~5Kb），加上接头, 进行基因簇cluster制备或电子扩增E-PCR，最后利用Paired-End（Solexa）或者Mate-Pair（SOLiD）的方法对插入片段进行测序。然后对测得的序列组装成Contig，通过Paired-End的距离可进一步组装成Scaffold，进而可组装成染色体等。组装效果与测序深度与覆盖度、测序质量等有关。常用的组装有：SOAPdenovo、Trimity、Abyss等。

问题二：全基因组重测序的技术路线提取基因组DNA，利用Covaris进行随机打断，电泳回收所需长度的DNA片段（02~5Kb），加上接头, 进行cluster制备（Solexa）或E-PCR （SOLiD），最后利用Paired-End（Solexa）或者Mate-Pair（SOLiD）的方法对插入片段进行重测序。图1-1，以SOLiD为例，说明整个实验方案。双末端（Paired-End）测序原理测序深度（Sequencing Depth）：测序得到的碱基总量（bp）与基因组大小（Genome）的比值，它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系，测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体，如果采用的是Paired-End或Mate-Pair方案，当测序深度在10~15X以上时，基因组覆盖度和测序错误率控制均得以保证。测序深度对基因组覆盖度和测序错误率的影响（HOM：纯合体 HET：杂合体）

问题三：什么是基因组测序技术自1998年美国塞莱拉遗传公司组建以来，人类基因组研究开始由两部分科学家同时展开，分别是由公共经费支持的人类基因组工程和美国塞莱拉遗传公司。在研究过程中，他们也分别采用了两种不同的测序和分析的方法。塞莱拉公司的核心分析方法被称为霰d法，人类基因组工程则采用了克隆法。
所谓霰d法，其实是一种高度计算机化的方法，它先把基因组随机分成已知长度（2000个碱基对、1万个碱基对、5万个碱基对）的片段，然后用数学算法将这些片段组装成毗邻的大段并确定它们在基因组上的正确位置。
塞莱拉公司的科学家先用霰d法测序DNA，并将整个基因组覆盖8次，然后用两个数学公式将人类基因组序列多次组装起来，确定出基因中的转录单元，预测出60%的已识别基因的分子功能。最后研究人员将人类基因组信息与此前已完成的果蝇和线虫的基因组序列进行比较，从而找出了三者共有的核心功能。
而人类基因组工程采用的克隆法则通过先复制更大段的人类基因序列，然后将它们绘制到基因组的适当区域进行研究。这种方法需要研究人员在早期把较多的时间和精力放到克隆和绘制草图上。
两个研究组将所得数据进行对比，经人类基因组工程的科学家、《科学》和《自然》杂志高级指导编辑评估，表明塞莱拉公司的基因组分析与人类基因组工程的分析结果虽然存在一些差异，但大部分地方都有极高的吻合度。
塞莱拉公司测定的序列覆盖了95%以上的人类基因组，其中约85%的人类基因组存在于按照正确顺序排列、至少包含50万个碱基对的片段中。这一序列为人类至少拥有26383万个控制合成蛋白质的基因提供了有力的证据，也为另外12731万个假设基因的存在提供了较弱的证据

问题四：全基因组和全外显子组测序的区别基于第二代高通量测序技术，对于有参考序列的物种，针对不同的真菌菌株，可通过全基因组重测序的方法获得全基因组范围内完整的变异信息，讨论群体的遗传结构、影响群体遗传平衡的因素以及物种形成的机制，定位重要性状位点，为后续分子育种打下坚实基础。同时，通过全基因组大样本重测序对真菌重要菌株进行全基因组的基因型鉴定，并与关注的表型数据进行全基因组关联分析（GWAS），找出与关注表型相关的SNP位点，定位性状相关基因。随着测序成本降低和拥有参考基因组序列的物种增多，基因组重测序也成为育种研究中迅速有效的方法之一，在全基因组水平扫描并检测出与重要性状相关的变异位点，具有重大的科研价值和产业价值。
近日，Nature Genetics发表的一篇文章就充分利用了微生物基因组测序与以全基因组重测序为基础的全基因组关联分析结合的方法，揭示了裂殖酵母遗传与表型多样性之间的联系。研究者选取裂殖酵母Schizosaccharomyces pombe作为研究对象，在全球20个国家范围内收集了时间跨度为100年的161个野生株系的SPombe，进行了全基因组测序，推测裂殖酵母在公元前340年开始广泛大量出现，祖先种到达美洲的时间为公园1623年。后续研究者又选取223个菌种进行全基因组关联分析，发现至少89个性状表现出一个关联。每个性状最显著的检测到的变异可以解释平均22%的表型差异，且indel的影响比SNP更大。

问题五：全基因组测序的研究结果 ①NCI-H209细胞系基因组中，共检测到22,910个碱基替换、65个插入缺失（Indels）、58个结构变异；在基因组的编码区，除了发现RB1 和TP53基因发生点突变和MLL2基因由于发生了G>T的颠换，从而产生了pre-stop codon外，有94个点突变直接改变了氨基酸序列，有36个属同义突变。②特定的碱基及其周围序列易被烟气中的多环芳烃和丙烯醛诱变。在NCI-H209细胞系基因组中，G>T/C>A是最为普遍的颠换现象，发生频率为34%；其次是G>A/C>T（21%）和A>G/T>C（19%）；CpG岛外的CpG二核苷酸多发生G>T颠换，而CpG岛内的CpG二核苷酸多发生G>C颠换，说明烟气中的致癌物偏好引起甲基化的CpG二核苷酸发生颠换。③检测到转录偶联修复（Transcription-coupled repair）和表达相关的修复（Expression-linked repair）在起作用。转录偶联修复作用机制：鸟嘌呤和腺嘌呤上大的加合物是吸烟过程中所释放的致癌化学物质引起DNA损伤的主要形式，这些大的加合物阻止了转录链上RNA聚合酶的转录过程，而转录受阻的RNA聚合酶招募核苷酸剪切修复相关因子对受损的核苷酸进行修复以避免突变发生。在TP53基因突变的肺癌细胞中，G>T颠换常出现在非转录链，表明在转录链上相同的损伤已被识别和修复。在本研究中，转录链上G和A碱基替换频率比非转录链上少，由此看来嘌呤是烟气致癌物质主要诱变靶标。另外，在NCI-H209细胞系中，转录链和非转录链上发生不同类型的突变（G>T、A>G、A>T）两条链基因表达水平也有差异，这就意味着转录偶联修复机制识别、修复不同加合物损伤的能力不同。表达相关的修复（Expression-linked repair）作用机制：这是一种新的、更为普遍的修复机制，即，高表达的基因中，转录链及非转录链的突变频率都较低。在NCI-H209细胞系中，转录链和非转录链上发生G>A的突变，两条链上基因表达水平都很高，这就说明表达相关的修复作用比转录偶联修复作用更为重要。④在SCLC细胞系中，CHD7基因发生了重排。在NCI-H209细胞系中，CHD7基因3~8外显子发生连续重复，而另外2个LU-135、NCI-H2171细胞系则携带PVT1-CHD7融合基因，说明在肺癌中CHD7基因发生了周期性重排。以上结果表明，第二代测序技术已成为研究与癌症相关的基因突变过程、细胞损伤修复路径、基因调控网络的强有力工具。

问题六：第二代测序技术能测基因组全长吗第二代测序技术能测基因组全长
测序文库的构建（Library Construction）
首先准备基因组（虽然测序公司要求样品量要达到200ng，但是Gnome Analyzer系统所需的样品量可低至100ng,能应用在很多样品有限的实验中），然后将DNA随机片段化成几百碱基或更短的小片段，并在两头加上特定的接头（Adaptor）。如果是转录组测序，则文库的构建要相对麻烦些，RNA片段化之后需反转成cDNA，然后加上接头，或者先将RNA反转成cDNA，然后再片段化并加上接头。片段的大小（Insert size）对于后面的数据分析有影响，可根据需要来选择。对于基因组测序来说，通常会选择几种不同的insert size，以便在组装（Assembly）的时候获得更多的信息。

一、16SrRNA

16SrRNA为核糖体的RNA的一个亚基，16SrDNA就是编码该亚基的基因。细菌rRNA（核糖体RNA）按沉降系数分为3种，分别为5S、16S和23S rRNA。16S rDNA是细菌染色体上编码 rRNA相对应的DNA序列，存在于所有细菌染色体基因中。该序列包含9个高变区和10个保守区，通过对某一段高变区序列（V4区或V3-V4区）进行PCR扩增后进行测序，得到1500bp左右的序列。对于16S测序而言，任何一个高变区或几个高变区，尽管变异性再高，对于某些物种来说，这些高变区也可能十分相近，而能够区分它们的特异性序列片段有可能不在我们的扩增区域内。换言之，非全长的可变区序列覆盖范围不够导至无法鉴定到种。

目前来说，16S比较可靠的是用来做菌群的群落分析，物种的组成，多样性分析等，但是由于16S测序本身的性质，想要注释到种水平目前准确性还有待商榷。由于16s是以菌为主体进行研究，想要研究具体的功能目前来说还比较困难。

2、宏基因组

宏基因组研究以环境中所有微生物基因组为研究对象，通过对环境样品中的全基因组DNA进行高通量测序，获得单个样品的饱和数据量，基于denovo组装进行微生物群落结构多样性，微生物群体基因组成及功能，特定环境相关的代谢通路等分析，从而进一步发掘和研究具有应用价值的基因及环境中微生物群落内部、微生物与环境间的相互关系。构建的环境微生物基因集，可为环境中微生物的研究、开发和利用提供基因资源库。

宏基因组测序又能做什么分析呢，首先16s能做的宏基因组都能做，有些还能做的更好，比如宏基因组就可以准确的在种水平上进行相应的注释。除此之外，由于宏基因组可以组装到比对到基因上，那么就可以基于基因水平进行更多的分析，如GO，KEGG功能分析，代谢相关关联分析，疾病关联分析等。对于菌群在疾病的发生发展的解释会更加的细致具体。

如果你有一些临床样本（口腔，鼻腔或粪便等），想了解研究菌群与疾病的关联，那么我们该选16S测序还是宏基因组测序呢？首先就是研究经费得够，目前来说16S一个只要几百块钱，但是宏基因组测序一个样本需要3、4千，如果经费不够那就选择16S啦。其次和我们的研究目标是密切相关的，假设我们研究的是疾病与对照组间菌群直接的差异，那么16S测序完全够用，而且目前来说除了种水平外，其它的多个水平同样的样本16s注释的物种会更加丰富。当然如果需要研究关键的功能和基因，那么直接选择宏基因组测序即可。

1977年，英国化学家桑格（Frederick Sanger）发明了双脱氧链终止法，这个技术以及吉尔伯特（WGilbert)发明的化学降解法被称为一代测序技术。 Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

不同于一代测序，NGS采用的是边合成边测序的策略，主要的技术路线以Roche公司的454技术、illumina公司的Solexa，Hiseq技术和ABI公司的Solid技术为代表。为了增强测序准确性，需要对同一模板通过PCR扩增多个拷贝来矫正偏差值。因此整个测序分为PCR扩增（一种可以快速复制大量产生相同DNA片段的技术）和测序两个步骤。但是PCR过程会一定程度增加系统的错误率，并且带来的错误具有偏向性，这也是二代技术存在的问题之一。

illumina公司主打产品MiSeq测序仪、HiSeq X Ten测序仪、Miseq FGx测序仪、NextSeq 500/550桌上型测序仪、MiniSeq台式测序仪等，涵盖了不同的应用场景的不同需求。

第二代测序技术测序平台和测序成本，测序费用，花费时间，建库等实验技术难度，错误率以及读长（150-400bp），分析工作的体量，对于满足更高的科研需求和在医疗诊断中的普及都是不小的阻碍。其PCR过程带来的误差和偏好或成为其在医疗诊断大规模运用的阻碍。三代技术主要解决二代测长较短的问题。

PacBio 的SMRT 技术，LifeTechnologies 的 IonTorrent 半导体测序技术和 Oxford NanoporeTechnologies 纳米孔单分子测序技术是三代测序技术的代表。

PacBio SMR

PacBio的SMRT仍然运用边合成边测序的策略，但是其超强活性的DNA聚合酶是实现超长读长（~1000bp）的关键。反应在纳米管中进行，方便达到超高通量的目的。利用的是ZMW（零模波导孔）原理在超小的纳米孔中区别荧光信号的背景。其测序速度很快，每秒约10个dNTP。目前的问题在于测序的错误率太高（81-83%），这也是大多数三代技术需要解决的共同问题。不过错误随机，几乎没有偏向性，为其通过矫正来减少错误率提供了可能。目前这个技术已经投入市场。

Oxford Nanopre MinlON

而Nanopore的MinlON测序仪应用纳米孔单分子技术，这是一种基于电信号的测序技术，比起其他的光信号测序技术来说是一个革新。技术核心是一种特殊的内有分子接头的纳米孔，由蛋白质小孔嵌在人造膜上形成。膜两侧加上电压，使电流通过小孔。当不同的DNA碱基通过纳米孔时，其对电流的阻碍作用短暂地影响流过纳米孔的电流强度，不同碱基影响的程度不同，这种差异被灵敏的电子设备捕捉从而鉴定所通过的碱基种类。这种技术的优点很多，读长长（大约在几十kb，甚至100 kb），错误随机，而不是聚集在读取的两端，通量较高，该公司也在努力简化样品制备流程。理论上运用这个技术RNA也可以直接测序，还能检测到甲基化的胞嘧啶。不过不能实现理想的错误率控制，或成为其投入市场的阻碍。

LifeTechnologies IonTorrent

IonTorrent 使用半导体芯片，在芯片的微孔中固定DNA链。依次加入AGCT的碱基，DNA合成时如果碱基可以结合到模板链则会释放一个氢离子。这个氢离子导致局部HP值发生变化。离子传感器检测到PH 变化后，便将化学信号转变为序列信息。而如果DNA 链有两个连续的相同碱基，则记录到的信号翻倍，从而将其识别。如果不匹配，则记录不到变化。这种技术由于不涉及荧光激发和拍照，则运行时间被大大缩减（仅数小时），无需激光光源，光学系统和照相系统，也不需要荧光标记，规避了这些环节带来的误差。但是其读长不算太长（200bp），并且当遭遇多个连续的相同碱基时，强烈的PH变化会带来误差。

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：(1)微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；(2) Metagenomics研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时，相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变，称做SNV。

基因组上小片段（<50bp）的插入或缺失，形同SNP/SNV。

当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads，这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

由于大部分测序得到的reads较短，一个reads能够匹配到基因组多个位置，无法区分其真实来源的位置。一些工具根据统计模型，如将这类reads分配给reads较多的区域。

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3…Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3……Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

用测序的数据组装成转录本。有两种组装方式：1，de-novo构建； 2，有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下，将有overlap的reads连接成一个更长的序列，经过不断的延伸，拼成一个个的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有参考基因组重构，是指先将read回贴到基因组上，然后在基因组通过reads覆盖度，junction位点的信息等得到转录本，常用工具包括scripture、cufflinks。

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性，克隆人类疾病基因，揭示基因功能和疾病分子机制，阐明物种进化关系，及基因组的内在结构

Q30是指一个碱基的识别可靠性等于999%，或者说出错可能性是01%。Q20则是指碱基识别的可靠性等于99%。Q30数据量是指一批数据中，质量高于等于Q30的数据的量的总和。

PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。对于前25个碱基中的是否有两个碱基的识别可靠性低于06，是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中，如果低质量的数据有2个或更多，则这条read被判定为不合格，PF就不通过。反之，则质检通过。

PF是国际公认的质检标准。对于哺乳动物基因组重测序、外显子测序，我们保证数据质量是Q30的比例高于80%。对于mRNA测序，smRNA测序，我们保证对照Lane的数据质量是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序，GC比例在40%左右，Q30的比例是80~95%；

RNA-seq，GC比例在50%左右，Q30的比例是~80%。如果Poly(A)特别多的情况下，Q30会更低一些；

SmRNA-seq，因为有许多的read读通之后，只剩下一串的A，质量会更低，我们的实验结果%Q30在70~75%。

Illumina的测序仪的数据产量高，数据质量也是最高的。因为采用带终止基团的荧光dNTP，所以在测Homopolyer（碱基同聚物，例如一串4个T：TTTT）等的时候，不会产生移码错读。

Roche 454采用的是pyrosequencing的测序原理，通过水解DNA全成过程中所产生的焦磷，放出光，通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。

Ion Torrent，包括PGM和Proton，采用测量DNA合成过程中所释放的氢离子引起的PH值的变化，来得到序列。优点是速度最快，上机前约3~4天的时间，上机只要2~4个小时。

SOLID采用的是杂交，连接反应，再测荧光的方法。因为杂交，所以速度慢，测长较短。现在事实上已被淘汰。

PacBio是三代测序，也就是单分子测序。目前的情况是测序长度可以在1个KB以上，而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低，目前的测序准确度只有每个碱基80~90%。另一方面通量较小，一次读7万条reads
部分参考：>全基因组重测序（whole genome sequencing,WGS）对全基因组进行测序扫描，能在全基因组范围之内解读所有常见和稀有变异信息，全面检测单核苷酸多态位点（Single Nucleotide Polymorphisms, SNP）、插入缺失位点（Insertion Deletion, InDel）、结构变异（Structure Variation，SV）以及拷贝数变异（Copy Number Variation, CNV）。

按照Illumina公司提供的标准 protocol 执行，包括样品质量检测、文库构建、文库质量检测和文库测序等流程。

全基因组重测序生物信息分析流程

染色体覆盖深度分布图

SNP突变类型分布图

各类型变异在染色体的分布

遗传病致病机制、疾病发生发展、肿瘤分子分型、疾病风险筛查。

Cancer Sci 2018;109(3):513-522 Nakagawa H, Fujita M Whole genome sequencing analysis for cancer genomics and precision medicine

APMIS 2019;127(5):303-315 Rossing M, Sørensen CS, Ejlertsen B, Nielsen FC Whole genome sequencing of breast cancer

Leukemia, 2018;32(2):332-342 Burns A, Alsolami R, Becq J, et al Whole-genome sequencing of chronic lymphocytic leukaemia reveals distinct differences in the mutational landscape between IgHVmut and IgHVunmut subgroups

BMC Genomics 2019;20(1):231 Published 2019 Mar 20 Li T, Unger ER, Rajeevan MS Universal human papillomavirus typing by whole genome sequencing following target enrichment: evaluation of assay reproducibility and limit of detection

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10454444.html

全基因组测序技术

发表评论

评论列表（0条）