
缺乏一种有效的,可推广的全基因组方法单细胞组蛋白修饰或染色质结合蛋白的定位方法。在这里,我们开发CoBATCH,组合条形码和目标染色质剪切,用于捕获单细胞全基因组的蛋白结合区域 融合到Tn5转座酶的ProteinA通过特异性抗体富集到基因组区域,Tn5产生片段加上index,准备进行文库制备和测序。 重要的是,这种方法不仅能在完整的组织中实现低细胞量的表观基因组图谱,而且还能在自然条件和交联条件下,对数万个单细胞的实验 CoBATCH在极低细胞量情况,每个细胞可以测到12000 条reads 通过CoBATCH,对10个小鼠胚胎器官的内皮细胞谱系进行定位,可以有效地破译细胞群的表观遗传异质性和顺式调控机制。 因此,不依赖专门的设备,CoBATCH可以广泛适用于单细胞水平蛋白质- dna相互作用
单细胞测序技术目前被广泛用于研究发育与疾病相关细胞群体异质性和绘制细胞图谱。随着技术的发展,这项技术正逐渐将生命科学研究推进到新的维度。在单细胞表观组领域,虽然DNA甲基化测序、染色质构象捕获技术、染色质开放程度测序已经分别在2013年 (scRRBS)、2013年 (single cell Hi-C)、2015年 (scATAC-seq)实现了单细胞水平测序。研究基因表达调控与细胞命运决定的机制,最直接的证据是特定染色质区域与蛋白的相互作用,然而, 高效的单细胞染色质免疫共沉淀测序(scChIP-seq)技术尚未出现。
蛋白质和DNA相互作用的染色质免疫共沉淀技术(ChIP-seq)技术是研究表观遗传调控的一种重要手段,常规ChIP-seq技术需要使用超声打断交联的基因组片段,然后用特异性抗体富集含有目的蛋白结合的基因组片段,并将目的DNA片段纯化后,进行建库测序。这一系列 *** 作使得ChIP-seq需要百万个细胞作为起始材料。为减少ChIP-seq技术对细胞数目的要求,近年来,一些适用于少量细胞起始的ChIP-seq技术被逐渐开发出来,包括MOWChIP,STAR-ChIP和ULI-NChIP等。虽然Drop-ChIP第一次实现了单细胞水平ChIP-seq,然而这一技术依赖特殊的微流控装置,并且每个细胞只能捕获到约800个DNA片段,这极大地限制了这项技术的推广应用。随后开发的scChIC-seq虽然实现了单细胞水平的解析,但是获得的单细胞数据的基因组比对率只有约61 %,大大增加了测序成本,且通量较低。另外,Cut&Tag需要依赖Takara ICELL8这一特殊装置。综上,目前还缺乏一种具有普适性,易 *** 作,高质量的单细胞ChIP-seq技术。
本文 报道了一种新的具有普适性、易 *** 作、高通量和高质量的单细胞ChIP-seq技术,将单细胞表观组学新技术的研究、普及和应用往前推进了一大步。 研究者把这一新型单细胞技术命名为 CoBATCH (combinatorial barcoding and targeted chromatinrelease)。这一单细胞技术不仅适用于各种组蛋白修饰,同时也能捕获DNA结合蛋白质在基因组上的结合信息。利用这一单细胞技术,研究者 首次解析了小鼠胚胎10个不同器官 (心脏、肝脏、肺、左脑、右脑、后脑、肾脏、皮肤、肌肉和小肠) 的内皮细胞谱系发育、分化和功能的异质性。
这些研究结果证明了CoBATCH可以解析不同器官来源的内皮细胞表观异质性以及顺式作用元件在发育过程中的动态变化,为理解器官功能特异的内皮细胞发育提供了重要线索。
简而言之, CoBATCH技术是第一个具有普适性、高质量、高通量的单细胞ChIP-seq方法,该技术将在单细胞水平上为解析细胞命运决定和功能异质性的表观遗传调控机制提供强有力的支持,并对研究器官发育和疾病发生过程具有重大的意义。
一、真核基因组结构特点
• 真核基因组结构庞大 3×109bp、染色质、核膜
• 单顺反子
• 基因不连续性 断裂基因(interrupted gene)、内含子(intron)、 外显子(exon)
• 非编码区较多 多于编码序列(9:1)
• 含有大量重复序列
原核生物基因组结构特点
基因组很小,大多只有一条染色体
结构简单
存在转录单元多顺反子
有重叠基因
二、真核细胞与原核细胞在基因转录、翻译及DNA的空间结构方面存在以下几个方面的差异
① 在真核细胞中,一条成熟的mRNA链只能翻译出一条多肽链,很少存在原核生物中常见的多基因 *** 纵子形式。
② 真核细胞DNA与组蛋白和大量非组蛋白相结合,只有一小部分DNA是裸露的。
③ 高等真核细胞DNA中很大部分是不转录的,大部分真核细胞的基因中间还存在不被翻译的内含子。
④ 真核生物能够有序地根据生长发育阶段的需要进行DNA片段重排,还能在需要时增加细胞内某些基因的拷贝数。
⑤ 在真核生物中,基因转录的调节区相对较大,它们可能远离启动子达几百个甚至上千个碱基对,这些调节区一般通过改变整个所控制基因5’上游区DNA构型来影响它与RNA聚合酶的结合能力。
在原核生物中,转录的调节区都很小,大都位于启动子上游不远处,调控蛋白结合到调节位点上可直接促进或抑制RNA聚合酶与它的结合。
三、基本概念
1、简单多基因家族
简单多基因家族中的基因一般以串联方式前后相连。
2、复杂多基因家族
复杂多基因家族一般由几个相关基因家族构成,基因家族之间由间隔序列隔开,并作为独立的转录单位。现已发现存在不同形式的复杂多基因家族。
(二)断裂基因
• 基因的编码序列在DNA分子上是不连续的,为非编码序列所隔开,其中编码的序列称为外显子,非编码序列称内含子。
• 外显子(Exon) :真核细胞基因DNA中的编码序列,这些序列被转录成RNA并进而翻译为蛋白质。
• 内含子(Intron) :真核细胞基因DNA中的间插序列,这些序列被转录成RNA,但随即被剪除而不翻译。
1、外显子与内含子的连接区
指外显子和内含子的交界或称边界序列,它有两个重要特征:
• 内含子的两端序列之间没有广泛的同源性
• 连接区序列很短,高度保守,是RNA剪接的信号序列
2、外显子与内含子的可变调控
• 组成型剪接:一个基因的转录产物通过剪接只能产生一种成熟的mRNA。
• 选择性剪接:同一基因的转录产物由于不同的剪接方式形成不同mRNA。
图 小鼠淀粉酶(amy)基因利用不同启动子产生两个不同的mRNA
(三)假基因
是基因组中因突变而失活的基因,无蛋白质产物。一般是启动子出现问题。
96 真核生物基因表达调控的特点和种类
97 真核生物DNA水平上的基因表达调控
98 真核生物转录水平上的基因表达调控
99 真核基因翻译水平上的调控
96 真核生物基因表达调控的特点和种类
一、真核生物基因表达调控的特点
二、真核生物基因表达调控的种类
一、真核生物基因表达调控的特点
原核生物的调控系统就是要在一个特定的环境中为细胞创造高速生长的条件,或使细胞在受到损伤时,尽快得到修复,所以,原核生物基因表达的开关经常是通过控制转录的起始来调节的。
真核基因表达调控的最显著特征是能在特定时间和特定的细胞中激活特定的基因,从而实现"预定"的、有序的、不可逆转的分化、发育过程,并使生物的组织和器官在一定的环境条件范围内保持正常功能。
真核生物基因表达调控与原核的共同点:
• 基因表达都有转录水平和转录后的调控,且以转录水平调控为最重要;
• 在结构基因上游和下游、甚至内部存在多种调控成分,并依靠特异蛋白因子与这些调控成分的结合与否调控基因的转录。
真核生物基因表达调控与原核的不同点:
1、真核基因表达调控的环节更多:转录与翻译间隔进行,具有多种原核生物没有的调控机制;个体发育复杂,具有调控基因特异性表达的机制。
2、真核生物活性染色体结构的变化对基因表达具有调控作用:DNA拓扑结构变化、DNA碱基修饰变化 、组蛋白变化;
3、正性调节占主导,且一个真核基因通常有多个调控序列,需要有多个激活物。
二、真核生物基因表达调控的种类
根据其性质可分为两大类:
一是瞬时调控或称为可逆性调控,它相当于原核细胞对环境条件变化所做出的反应。瞬时调控包括某种底物或激素水平的升降,及细胞周期不同阶段中酶活性和浓度的调节。
二是发育调控或称不可逆调控,是真核基因调控的精髓部分,它决定了真核细胞生长、分化、发育的全部进程。
根据基因调控在同一事件中发生的先后次序又可分为:
– DNA水平调控 Replicational regulation
– 转录水平调控 transcriptional regulation
– 转录后水平调控 post transcriptional regulation
– 翻译水平调控 translational regulation
– 蛋白质加工水平的调控 regulation of protein maturation
97 真核生物DNA水平上的基因表达调控
一、基因丢失
二、基因扩增
三、基因重排
四、DNA的甲基化与基因调控
五、染色质结构与基因表达调控
一、基因丢失
• 丢失一段DNA或整条染色体的现象。
• 在细胞分化过程中,可以通过丢失掉某些基因而去除这些基因的活性。某些原生动物、线虫、昆虫和甲壳类动物在个体发育中,许多体细胞常常丢失掉整条或部分的染色体,只有将来分化产生生殖细胞的那些细胞一直保留着整套的染色体。
• 目前,在高等真核生物(包括动物、植物)中尚未发现类似的基因丢失现象。
图 马蛔虫受精卵的早期分裂
• 马蛔虫2n=2,但染色体上有多个着丝粒。第一次卵裂是横裂,产生上下2个子细胞。第二次卵裂时,一个子细胞仍进行横裂,保持完整的基因组,而另一个子细胞却进行纵向分裂,丢失部分染色体。
图 小麦瘿蚊的染色体丢弃
瘿蚊卵跟果蝇相似(始核分裂胞质不分裂),其卵的后端含有一种特殊的细胞质
极细胞质核→保持了全部40条染色体→生殖细胞
其他细胞质区域核→丢失32条、留8条→体细胞
二、基因扩增
• 基因扩增是指某些基因的拷贝数专一性增大的现象,它使得细胞在短期内产生大量的基因产物以满足生长发育的需要,是基因活性调控的一种方式。
• 如非洲爪蟾卵母细胞中rDNA的基因扩增是因发育需要而出现的基因扩增现象。
发育或系统发生中的倍性增加在植物中普遍存在
基因组拷贝数增加,即多倍性,在植物中是非常普遍的现象。基因组拷贝数增加使可供遗传重组的物质增多,这可能构成了加速基因进化、基因组重组和最终物种形成的一种方式。
三、基因重排
• 将一个基因从远离启动子的地方移到距它很近的位点从而启动转录,这种方式被称为基因重排。
• 通过基因重排调节基因活性的典型例子是免疫球蛋白结构基因的表达。
• 在人类基因组中,所有抗体的重链和轻链都不是由固定的完整基因编码的,而是由不同基因片段经重排后形成的完整基因编码的。
• 完整的重链基因由VH、D、J和C四个基因片断组合而成。
• 完整的轻链基因由VL、J和C 3个片段组合而成。
人类基因组中抗体基因片断
产生免疫球蛋白分子多样性的遗传控制
重链和轻链的不同组合,κ、λ、H;
在重链中,V、D、J和C片段的组合;
κ轻链中V和C的组合;
λ轻链中V、J和C的组合;
基因片段之间的连接点也可以在几个bp的范围内移动。
因此,可以从约300个抗体基因片段中产生109 数量级的免疫球蛋白分子。
四、DNA的甲基化与基因调控
1、DNA的甲基化
• 胞嘧啶被甲基化修饰形成5-甲基胞嘧啶(mC)
• 几乎所有的mC与其3’的鸟嘌呤以5’ mCpG3’的形式存在。
• 当两条链上的胞嘧啶都被
甲基化时称为完全甲基化。
• 一般在复制刚完成时,子链
上的C呈非甲基化状态,称
为半甲基化。
• 在真核生物中,5-甲基胞嘧啶主要出现在CpG序列、CpXpG、CCA/TGG和GATC中
• CpG二核苷酸通常成串出现在DNA上,CpG岛
甲基化位点的检测
• 特殊的限制性内切酶——同裂酶
• HpaⅡ识别并切割未甲基化的CCGG (C↓CGG)
• MspⅠ识别无论是否甲基化的CCGG (C↓CGG或C↓CmGG)
真核生物细胞内存在两种甲基化酶活性:
• 构建性甲基转移酶:作用于非甲基化位点,对发育早期DNA甲基化位点的确定起重要作用。
• 维持性甲基转移酶:作用于半甲基化位点,使子代细胞具备亲代的甲基化状态。
• 在一些不表达的基因中,启动区的甲基化程度很高,而处于活化状态的基因则甲基化程度较低。
2亲本印记(imprinting)
• 印记:来源于父母本的一对等位基因表达不同。如源于父本的IGF-Ⅱ (胰岛素样生长因子Ⅱ)基因可表达,而源于母本的则不能表达。这是由于卵母细胞中的IGF-Ⅱ 已被甲基化,而精子中的IGF-Ⅱ未被甲基化,所以这一对等位基因在合子中表现不同。
• 目前在人类和鼠身上已辨明了20种印迹基因。大多数人类的印迹基因集中在三个簇中。在每个基因簇上都存在着特异的印记盒 (imprinting box),能顺式调节印迹基因的亲本特异性表达,这些位点表现出亲本特异性的甲基化作用和去甲基化作用。
3、DNA甲基化抑制基因转录的机理
DNA甲基化导致某些区域DNA构象变化,从而影响了蛋白质与DNA的相互作用,抑制了转录因子与启动区DNA的结合效率。
五、染色质结构与基因表达调控
(一)活性染色质
• 按功能状态的不同可将染色质分为活性染色质和非活性染色质:
• 活性染色质是指具有转录活性的染色质;
• 非活性染色质是指没有转录活性的染色质。
• 真核细胞中基因转录的模板是染色质而不是裸露的DNA,因此染色质呈疏松或紧密结构,即是否处于活化状态是决定RNA聚合酶能否有效行使转录功能的关键。
活性染色质的主要特点
• 在结构上:
• 活性染色质上具有DNase I 超敏感位点
• 活性染色质上具有基因座控制区
• 活性染色质上具有核基质结合区(MAR序列)
活性染色质上具有DNase I 超敏感位点。每个活跃表达的基因都有一个或几个超敏感位点,大部分位于基因5´端启动子区域。
活性染色质上具有核基质结合区( matrix attachment region ,MAR)。MAR一般位于DNA放射环或活性转录基因的两端。在外源基因两端接上MAR,可增加基因表达水平10倍以上,说明MAR在基因表达调控中有作用。是一种新的基因调控元件。
(二)活性染色体结构变化
1、对核酸酶敏感
活化基因常有超敏位点,位于调节蛋白结合位点附近。
2、DNA拓扑结构变化
• 天然双链DNA均以负性超螺旋构象存在;
• 基因活化后
3、DNA碱基修饰变化
– 真核DNA约有5%的胞嘧啶被甲基化,
– 甲基化范围与基因表达程度呈反比。
4、组蛋白变化
① 富含Lys组蛋白水平降低
② H2A, H2B二聚体不稳定性增加
③ 组蛋白修饰:高乙酰化
④ H3组蛋白巯基暴露
98 真核生物转录水平上的基因表达调控
一、真核生物与原核生物转录调控的差异
二、真核生物转录调控顺式作用元件
三、反式作用因子
一、真核生物与原核生物转录调控的差异
1真核生物转录过程涉及复杂的染色质结构变化;
2原核生物调节元件种类少,真核很多;
3原核生物有 *** 纵子结构,真核不组成 *** 纵子;
4大多数真核生物启动子以正调控为主,原核生物以负调控为主。
“基因”的分子生物学定义:产生一条多肽链或功能RNA所必需的全部核苷酸序列。
二、真核生物转录调控顺式作用元件
(cis-acting element)
定义:影响自身基因表达活性的非编码DNA序列。
例: 启动子、增强子、沉默子等
1、启动子:在DNA分子中,RNA聚合酶能够识别、结合并导致转录起始的序列。
2、增强子
指能使与它连锁的基因转录频率明显增加的DNA序列。
SV40的转录单元上发现,转录起始位点上游约200 bp处有两段长72 bp的正向重复序列。
增强子特点:
① 增强效应十分明显,一般能使基因转录频率增加10-200倍
② 增强效应与其位置和取向无关,不论增强子以什么方向排列(5‘→3’或3‘→5’),甚至和靶基因相距3 kb,或在靶基因下游,均表现出增强效应;
③大多为重复序列,一般长约50bp,适合与某些蛋白因子结合。其内部常含有一个核心序列:(G)TGGA/TA/TA/T(G),该序列是产生增强效应时所必需的;
④ 增强效应有严密的组织和细胞特异性,说明增强子只有与特定的蛋白质(转录因子)相互作用才能发挥其功能;
⑤ 没有基因专一性,可以在不同的基因组合上表现增强效应;
⑥ 许多增强子还受外部信号的调控,如金属硫蛋白的基因启动区上游所带的增强子,就可以对环境中的锌、镉浓度做出反应。
3、沉默子
某些基因含有负性调节元件——沉默子,当其结合特异蛋白因子时,对基因转录起阻遏作用。
三、反式作用因子(转录因子,transcription factor)
(一)定义
能直接或间接地识别或结合在各类顺式作用元件上,参与调控靶基因转录的蛋白质,也称为转录因子(transcriptional factor,TF)。
如:TFⅡD(TATA)、CTF(CAAT)、SP1(GGGCGG)、HSF(热激蛋白启动区)
反式作用因子
识别/结合
顺式作用元件中的靶序列
启动转录
例:转录因子TFⅡD 识别结合 TATA box
转录因子 SP1 识别结合 GC box
转录因子 CTF1 识别结合 CCAATbox
(二)反式作用因子的类型
1 基本转录因子(通用转录因子)
又称TATA盒结合蛋白,如TFⅠ、TFⅡ和TFⅢ等。
与RNA pol II 相关的基本转录因子
基本转录因子(通用转录因子)
2 组织或细胞特异性转录因子
EF1因子 红细胞
Isl-I因子 胰岛β细胞
Myo DI因子 骨骼肌细胞
NF-κB因子 B淋巴细胞
DF3因子 乳腺癌细胞
CEA启动子结合蛋白 CEA阳性的肿瘤细胞
3 可诱导(inducible)的转录因子
热休克转录因子(HSTF) 高温环境
cAMP效应元件结合蛋白(CREBF) cAMP
血清应激因子(SRF) 血清中的生长因子
CD28反应元件结合蛋白 抗原
激活蛋白2(AP-2) 感染与炎症反应
(三)转录因子上的几种
重要结构域
• 反式因子有两个必需的结构域
1、DNA结合结构域
– 螺旋-转折-螺旋(Helix-turn-helix,H-T-H)
– 锌指结构(zinc finger)
– 碱性-亮氨酸拉链(basic - leucine zipper)
– 碱性-螺旋-环-螺旋(basic – helix /loop /helix,bHLH)
• 螺旋-转角-螺旋
(helix-turn-helix,HTH)
• HTH的基本结构是两个α螺旋被一个转角结构分开。
• α螺旋由短肽链组成,肽链的氨基酸顺序因不同的转录因子而不同。
• 其中一个α螺旋识别特异的顺式作用元件上的DNA序列,另一个α螺旋则结合在DNA上,调控基因的转录。
螺旋-转折-螺旋结构图
(2)锌指结构
定义:是一种常出现在DNA结合蛋白中的结构基元。是由一个含有大约30个氨基酸的环和一个与环上的4个Cys或2个Cys和2个His配位的Zn构成,形成的结构像手指状。
• 锌指的N-端部分形成β折叠结构,C-端部分形成α螺旋结构
• 每个α螺旋有两处识别特异的DNA序列;3个α螺旋结构与一个DNA双螺旋的深沟(major groove)结合,调控RNA的转录。
• α螺旋的氨基酸顺序视不同的转录因子而不同。
转录因子SP1 (GC盒) 、连续的3个锌指重复结构
(3)碱性-亮氨酸拉链(Leucine zipper)
• 蛋白质之间的相互作用是生命现象的普遍规律之一,在基因表达调控中同样具有重要意义。
• 亮氨酸拉链是蛋白质二聚体化(蛋白质相互作用的一种方式)的一种结构基础。
• 某些癌基因(如c-jun,v-jun,c-fos,v-fos等)表达产物通过亮氨酸拉链形成同源或异源二聚体,大大增加对DNA的结合能力,调控基因表达。
• 亮氨酸拉链是一个高亮氨酸组成的α螺旋,每两个螺圈出现一个亮氨酸,形成拉链的一边。
• 两个蛋白质因子的α螺旋通过亮氨酸的疏水作用结合在一起形成拉链结构
• 在亮氨酸拉链近N-端有富含碱性(带正电荷)氨基酸残基的区域,是DNA的结合区。
亮氨酸拉链结构
• 二聚体
• 亮氨酸之间相互作用形成二聚体,形成“拉链” 。
• 肽链氨基端20~30个富含碱性氨基酸结构域与DNA结合。
这类蛋白质的DNA结合结构域实际是以碱性区和亮氨酸拉链结构域整体作为基础的。
定义:出现在DNA结合蛋白质和其它蛋白质中的一种结构基元(motif)。当来自同一个或不同多肽链的两个α-螺旋的疏水面(常常含有亮氨酸残基)相互作用形成一个圈对圈的二聚体结构时就形成了亮氨酸拉链。
(4)碱性-螺旋-环-螺旋helix-loop-helix
2、转录激活结构域
• A 酸性激活域 如酵母转录因子GCN4,GAL4
• P rich-Gln 如SP1, AP2, oct1, oct2
• Q rich-pro脯 如CTF/NF1
• 不规则的,含双性-helix
(四)mRNA转录激活及其调节
RNA聚合酶II在转录因子帮助下,
形成转录起始复合物。
99 翻译的调控
一 5’UTR(untranslated region)结构与翻译起始的调节
二.蛋白质磷酸化对翻译效率的影响
三.3’UTR(untranslated region)结构与mRNA稳定性调控
一 5’UTR(untranslated region)结构与翻译起始的调节
• 5’UTR通常不到100nt
• 几乎所有的真核生物和病毒mRNA的5’端都具有帽子结构,其作用
– 保护mRNA免遭5’外切酶降解
– 为mRNA的核输出提供转运信号
– 提高翻译模板的稳定性和翻译效率
• 实验证实,对于通过滑动搜索起始的转录过程来说,mRNA的翻译活性依赖于5’端的帽子结构。
二.蛋白质磷酸化对翻译效率的影响
• eIF-4F的磷酸化能提高翻译速度
• eIF-2α的磷酸化抑制翻译起始
三.3’UTR结构与mRNA稳定性调控
• 3’UTR序列及结构调节mRNA稳定性和寿命
• 多聚腺苷酸尾调节翻译效率
本章教学要求
1熟悉真核基因组的结构特点及真核基因表达调控的特点。
2掌握以下概念:顺式作用元件、反式作用因子、启动子、增强子,熟悉沉默子、基本转录因子、特异转录因子。
3了解转录因子的结构特点。
文章发表于nature review genetics: Integrative single- cell analysis ,作者是Tim Stuart与 Rahul Satija 。做过单细胞分析的对他们应该不陌生。
scRNA-seq技术的发展契合了研究个体细胞表观遗传、空间研究、蛋白质组与谱系信息的方法需要,这为研究多类型数据的综合方法提出了独特的机遇与挑战。综合分析可以发现细胞之间的模式关系,获取细胞的整体状态信息,产生涵盖不同样本与不同研究手段的数据集。该文重点讨论了单细胞基因表达数据与其他类型的单细胞分析方法的整合。
多模态(Multimodal)数据 :多种类型数据的组合,如RNA与蛋白质数据组合,是一种多维度数据,类似多组学。
单模态 :单个类型数据
Pseudotime :拟时分析
联合聚类(Joint-clustering) :通过联合不同类型数据对细胞进行分组。
典型相关分析(CCA) : 利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。
动态时间规整(Dynamic time warping) :一种局部拉伸或压缩两个一维矢量以校正一个矢量相对于另一个矢量的滞后的方法。
MNNs :标准化基因表达空间中最临近的细胞。聚类用校正批次效应。
梯度推进(Gradient boosting) :一种预测模型算法。
随着分子生物学、微流控与纳米技术的发展,催生了许多类型的单细胞测序技术。过去的方法集中在单模态测量上,如DNA序列、RNA表达量和 染色质可及性 上。虽然这些技术促进了我们对细胞多样性与发育景观的理解,但是它们并不能很好地解析单细胞内分子间互作关系。而这些互作关系是深入探索细胞状态的关键。此外,随着可用数据集规模的快速增长,迫切需要用于标准化与联合分析且考量到批次效应与个体差异的计算方法。
scRNA-seq是应用最为广泛的单细胞测序技术之一。而后出现了一系列互补技术如单细胞基因组、表观基因组和蛋白质组分析技术,涵盖了单细胞基因组测序( Vitak, S A et al, 2017 ; Navin, N et al, 2011 )、染色质可及性( Pott, S, 2017 ; Corces, M R et al, 2016 ; Buenrostro, J D et al, 2015 ; Cusanovich, D A et al, 2015 ; Lake, B B et al, 2018 )、DNA甲基化( Luo, C et al, 2017 ; Smallwood, S A et al, 2014 ; Guo, H et al, 2013 ; Mulqueen, R M et al, 2018 )、膜蛋白( Stoeckius, M et al, 2017 ; Peterson, V M et al, 2017 )、小RNA( Faridani, O R et al, 2016 )、组蛋白修饰( Gomez, D te al, 2013 ; Rotem, A et al, 2015 )和染色体构象( Ramani, V et al, 2017 ; Nagano, T et al, 2013 )等技术。目前已开发出研究单细胞空间结构和谱系信息的方法( Frieda, K L et al, 2017 ; Shah, S et al, 2016 )。
单细胞多模态综合分析方法示意
单模态与多模态分析方法汇总
CEL-seq :线性扩增测序法
CITE- seq :膜蛋白丰度与基因表达水平测定
G&T-seq :基因组转录组测序
LINNAEUS :谱系追踪
MARS-seq :大规模平行单细胞RNA测序
MEMOIR :谱系与空间结构测定
MERFISH :主要是细胞间结构测定
osmFISH :环状单分子荧光原位杂交,空间结构测定
REAP- seq :膜蛋白丰度与基因表达水平测定
scATAC-seq :单细胞空间结构测定
scBS-seq :单细胞甲基化测序
scChIP-seq :单细胞ChIP-seq
scGESTALT :结合CRISPR-cas9的谱系追踪弄方法
scHi-C-seq :测定染色体组装
sciATAC-seq :结合index转座酶的scATAC-seq
sci-CAR :利用index联合分析mRNA和染色质可及性谱
sci-MET :利用index分析单细胞甲基化水平
sci-RNA-seq :结合index的scRNA-seq
SCI-seq :单细胞组合标记测序,检测CNV
scM&T-seq :单细胞甲基化组和转录组测序,可研究未知的DNA甲基化与基因表达之间的关系
scNOMe- seq :核小体占位与甲基化组测序
scRRBS :单细胞限制性代表区域甲基化测序
scTHS- seq :单细胞转座体超敏性位点测序
seqFISH :内含子序贯荧光原位杂交,扩展观测到基因数量
snmC-seq :单核甲基胞嘧啶测序
SNS :单核测序
SPLiT-seq :丐版scRNA-seq
STARmap :原位单细胞测序
理想的实验流程应当全面洞悉细胞的所有方面,包括分子状态、空间构象、胞外环境互作的全部过程。尽管当下技术手段无法做到,但多模态技术与综合计算方法可以是我们离该目标越来越近。文章希望提出整合单细胞转录组学、基因组学、表观组学与蛋白组学的数据统一分析方法,重点在结合其他数据类型分析scRNA-seq数据,尤其是整合来自于同一细胞的不同类型数据。
文章分为四大块,首先探讨了多模态单细胞分析方法,其次研究了不同实验不同数据整合分析,然后讨论了单细胞空间测序数据整合分析方法,最后给出了整合分析方法的前景与必要性。
最初的单细胞分析方法主要关注细胞某状态下的某类分子水平。而现在更引人瞩目的是同时分析单细胞内多种分子以建立更全面的单细胞分子视图。通常这些方法是将scRNA-seq数据与其它分析手段的结合,目前主要有四种策略从单细胞中得到多模态数据:
严格来说这种方法算单模态。
一些scRNA-seq workflow采用流式分选细胞,随后进行scRNA-seq(MARS-seq/Smart-seq/2),这样可以同时获得单细胞与对应的荧光信号,将荧光所表示的蛋白质水平与转录组在同一细胞中关联( Ramsköld, D et al, 2012 ; Jaitin, D A et al, 2014 ; Picelli, S et al, 2013 )。早期研究( Hayashi, T et al, 2010 )利用FACS结合半定量RT-PCR(作者称之为FBSC‐PCR),结合scRNA-seq,明确了细胞表面marker可以区分细胞类型与状态( Wilson, N K et al, 2015 ;该文结合了Smart-seq2),( Paul, F et al, 2015 ;该文结合了MARS-seq)和鉴定稀有细胞的思路。 Paul, F et al, 2015 与 Nestorowa, S et al, 2016 利用该workflow研究发现了小鼠造血祖细胞由转录组定义不同细胞簇的免疫表型, Wilson, N K et al, 2015 则分离了小鼠HSCs,鉴定细胞维持干性相关的表面marker。但是囿于荧光光谱的重叠现象,利用该法测到的每个细胞的参数范围有限。
针对荧光无法分选的部分,FACS显然是不合适的,尤其是需要同时测得单细胞基因组与胞内蛋白的scRNA-seq实验。此时需要物理分离或通过不同tag筛选出不同组分。
G&T-seq通过加入oligo(dT)特异性分离mRNA同时保留基因组DNA从而实现了基因组转录组平行测序( Macaulay, I C et al, 2015 )DR-seq通过则通过加入barcode特异扩增cDNA序列实现基因组转录组平行测序( Dey, S S et al, 2015 )。这使得单细胞基因表达水平与其对应基因型联系起来,深度揭示单细胞间DNA拷贝数变异与染色体重排对下游mRNA丰度的具体关联。这些方法适用于研究体细胞基因高度变异的肿瘤组织。
DNA甲基化与转录组水平结合研究是基于 Macaulay, I C et al, 2015 的G&T-seq和 Smallwood, S A et al, 2014 的scBS- seq技术发展的,同普通BSP一样,用亚硫酸氢钠处理DNA片段随后进行扩增,结合G&T-seq,可以分析同一细胞内的DNA甲基化模式和基因表达数据( Angermueller, C et al, 2016 )。由于DNA甲基化存在不稳定性和异质性,因此若要研究DNA甲基化与基因表达间的关系,则必须将表观基因组变异与细胞间的异质性区别开来。
通过DNA甲基化与转录组关联分析,为启动子甲基化与基因表达间的负相关性提供深层次的证据。此外,利用barcode系统选择性标记基因组DNA与cDNA,结合index系统,可以对数千个单细胞进行染色质可及性与基因表达水平间的关联分析,同时鉴定出影响基因表达的顺式调控元件( Cao, J et al, 2018 )。
关于胞内蛋白与mRNA关联研究,有两种思路可供借鉴。其一( Darmanis, S et al, 2016 )是将FACS sort到的细胞裂解后分离裂解液,分别进行蛋白质与RNA定量。作者采用 PEA (邻近探针延伸分析) 检测蛋白并用RT-qPCR定量,采用qRT-PCR定量mRNA。该法可以同时检测82个mRNA/75个蛋白;其二( Genshaft, A S et al )是将FACS sort到的细胞在微流控芯片中同时进行逆转录和PEA而不分离裂解液。该法可以同时检测96个mRNA/38个蛋白。这两种方法检测的蛋白与mRNA数量与质量均有限。
这些技术的出现表明若将可以细胞信息转化为有序的barcode,我们就可以在分析单细胞转录组时将这些信息同时获取。这种策略不仅适用于分析细胞的自然状态,也适用于大规模基因扰动研究。目前有Perturb-Seq( Dixit, A et al, 2016 )和CRISPR-Seq( Adamson, B et al, 2016 ; Datlinger, P et al, 2017 ; Jaitin, D A et al, 2016 ),他们将scRNA-seq与CRISPR-cas9结合进行遗传筛选,使得研究正向遗传学的大规模基因扰动试验成为可能。具体原理是给单个基因扰动和受到影响的细胞添加barcode,通过scRNA-seq能够鉴定出这两者,从而推断CRISPR靶向基因和由此产生的单个细胞的转录谱间的关系。目前应用在基因调控网络( Dixit, A et al, 2016 )、未折叠蛋白反应( Adamson, B et al, 2016 )、免疫细胞分化发育( Datlinger, P et al, 2017 )和T细胞受体激活( Jaitin, D A et al, 2016 ),非编码区调控元件( Klann, T S et al, 2017 )。此外,还可以结合CRISPR-dcas9系统,扩展到转录调控、表观遗传调控领域中( Thakore, P I et al, 2016 ; Liu, X S et al, 2016 ; Hilton, I B et al, 2015 ; Konermann, S et al, 2015 ; Gilbert, L A et al, 2017 ),18年发展了同时靶向和敲除基因的技术( Boettcher, M et al, 2018 )。
另一个应用是结合CRISPR-cas9的谱系追踪技术。单细胞谱系追踪是去年的大热方向之一,此处提到三种mRNA+lineage方法: scGESTALT 、 ScarTrace 、 LINNAEUS 。这三种方法各有不同,但大体是利用CRISPR-cas9连续切割结合到基因组上的barcode,细胞会用NHEJ来应对这种损伤。但NHEJ容易出错,从而在DNA序列中产生随机突变,这些突变通过细胞分裂进行遗传,结合scRNAseq利用这些突变作为复合barcode来构建组织或器官发育谱系。
另一种略有不同的方法是 MEMOIR ,它结合smFISH与CRISPR-cas9系统,可以同时检测细胞谱系与空间位置。
普通的scRNA-seq流程除了可以做转录本丰度外,还可以进行诸如体细胞突变、遗传变异、RNA isoform等分析。
关于体细胞突变目前已有研究( Lodato, M A et al, 2015 ),该文通过对人大脑的少量单细胞全基因组测序,分析了发生的细胞突变,构建了人大脑神经细胞谱系。作者发现突变大多发生在高转录活性相关位置,这表明可能可以通过scRNA-seq数据来分析神经细胞突变情况,根据转录状态重构神经细胞谱系。此外,分析scRNA-seq数据中的拷贝数变异,可以研究癌症非整倍体与异质性等情况( Tirosh, I et al, 2016 ; Fan, J et al, 2018 )。
单细胞分析也为理解DNA自然变异如何影响基因表达与细胞状态提供了新思路。有研究结合GWAS+scRNAseq,鉴定出了不同个体之间的eQTL( Kang, H M et al, 2018 )。
多模态测序策略正在催生与之相匹配的数据分析方法。多模数据集可以检测到细胞间的细微差异,而单模数据很可能无法做到这一点。由于scRNAseq数据存在dropout,故而它更容易忽略细胞间的细微差别;但与来自同一细胞的其他数据互补分析可以改善这一问题。例如,很难通过scRNA-seq数据区分不同的T细胞亚群,但联合膜蛋白分析则可以显著提高亚群分辨率( Stoeckius, M et al, 2017 ),同样,RNA+chromatin、RNA+methylation联合可能揭示单个细胞间的调控异质性,不再赘述。
单细胞多模态分析思路很可能受到bulk-seq多组学联合分析的启发( Meng, C et al, 2016 ), Argelaguet 开发了一种名为MOFA( multi- omics factor analysis)的方法,该方法在多组学bulk-seq数据中效果良好,同时测试了单细胞DNA甲基化数据与RNA数据联合处理情况,效果也可以。这暗示适用于bulk-seq的多组学数据处理方式可能也适用于单细胞多模态数据。鉴于单细胞数据规模远超bulk-seq,多视图机器学习不失为一种重要的补充手段( Colomé- Tatché, M & Theis, F J, 2018 )。
单细胞多模态研究策略为解析细胞内不同组分间的关系提供了新方法。如CITE-seq和REAP-seq可以轻易鉴别出相关度较低的RNA-protein模块,表明此处存在活跃的转录后调节。还有一个很有意思的是通过测量剪接过的成熟RNA与未剪接RNA的相对丰度,可以建立RNA与蛋白的关联动态模型( La Manno, G et al, 2018 )。
此外,还可以在不同类型数据间建立统计模型。前面提到的sci-CAR文章建立了染色质可及性与基因表达水平间的统计模型,通过染色质可及性数据估计细胞内基因表达水平( Cao, J et al, 2018 ),另一组研究人员建立了gRNA与基因表达水平间的线性回归模型,用以识别细胞应答的前后关系,重构转录网络(Perturb-Seq( Dixit, A et al, 2016 ))。通过这种手段可以研究目标物种复杂的调控网络。
前面主要讲了在同一测序实验同一批细胞进行的多模态数据整合,而不同测序实验数据整合分析才是亟需解决的关键问题。同bulk seq 数据一样,处理批次效应是综合分析不同实验室、不同workflow产出数据的首要问题(SVA包( Leek, J T 2014 ))。然而目前bulk seq水平的处理方法无法处理单细胞数据(( Haghverdi, L, et al, 2018 ,作者用MNN处理数据,该法在 mnnpy 中得到改进); Butler, A, et al, 2018 )。目前最新方法利用 CCA / MNN 可以识别出两个数据集间共有的部分,判定细胞间共有的生物学状态,然后以这些相同状态的细胞为基准消除批次效应。
此处作者介绍了他自己在Seurat V2中开发的方法( Satija, R, et al, 2015 ;),该法用 CCA 鉴别出不同数据集间相同的细胞类型且可以避免出现由批次效应或常规PCA造成的假阳性细胞类型;接下来采用动态时间规整算法校正数据集间细胞密度差异。这两步骤可以将细胞投影到一个低维空间,具有相同生物学状态的细胞相互接近且消除了不同数据集带来的影响。
另一种方法即mnnCorrect,最早用于计算机领域图形识别。该法寻找不同数据集间最接近的细胞,将之判定为潜在的状态相同细胞,随后利用成对MNNs距离计算一个批次参数(batch vector),用以校正原始表达矩阵( Haghverdi, L, 2018 )。
CCA/mnnCorrect在整合处理不同来源的scRNA-seq数据时表现良好。这将极大提升发现稀有细胞、微弱转录差异细胞及与之对应maker的能力( Haghverdi, L, et al,2018 ; Butler, A,et al, 2018 ) 。这为建立一个统一的单细胞参考数据集提供了依据。在此基础上,scRNA-seq数据整合分析得到了快速发展( Hie, B L, et al, 2018 ; Barkas, N et al, 2018 ; Park, J-E, 2018 ; Korsunsky, I et al, 2018 ; Stuart, T et al, 2018 ; Welch, J et al, 2018 )。这种多数据集整合分析的应用远不止用于校正批次效应这么单一。它可以在单细胞尺度上深入比较细胞间的状态,发现细胞对环境及基因扰动的特异性响应,对不同疾病及不同治疗下的患者的测序数据进行标准化。
scRNA-seq数据整合分析还可以扩展至跨物种分析。 Karaiskos,N 比较了两种果蝇早期胚胎的空间基因表达模式,通过构建空间基因表达图谱,该研究系统比较了两个果蝇的同源基因表达谱,鉴定出了彼此间的进化波动。 Tosches 比较了爬行动物与哺乳动物脑细胞间的相关性。 Baron 分析了人与小鼠胰岛细胞scRNA-seq数据,鉴定出了二者间的保守亚群。 Alpert 开发出了cellAlign,在一维水平上比对了人与小鼠的拟时轨迹,发现人胚胎合子激活要比小鼠晚,小鼠中比人活跃的基因皆与蛋白合成相关。跨物种分析未来是光明的,但对于多物种整合分析而言,精确鉴定物种间同源基因是多物种整合分析至关重要的一步。
以细胞分类信息的形式串联不同的scRNA-seq数据集,或者借鉴到自己实验中,是优于合并数据集然后de novo聚类这种方法的。且随着 有参细胞图谱 的开发,这种方式将更加寻常。目前已开发对应方法: scmap- cell & scmap- cluster ,其中scmap-cell 用乘积量化( product quantization )算法进行比对,而scmap-cluster则用于识别未知数据集中的cluster。
利用已有的注释数据集,目前开发的新方法采用 奇异值分解 、 线性判别分析 和 支持向量机 算法来对细胞进行分类。此外,随着引用数据集的大小、范围与深度越来越高,监督聚类在解析细胞类型方面要比无监督聚类强得多。通过以上这些方法,可以更精确地识别并解析细胞亚群。
satija已有相关文章研究: Comprehensive Integration of Single-Cell Data
这一部分讲的是将scRNA-seq数据与其它不同来源和类型数据诸如甲基化、染色质结构等整合分析的方法。
将scRNA-seq数据与其它类型、不同来源的单细胞数据整合分析是无法提取到数据间的共同特征的,因为它们不是一个类型的数据,需要不同的分析方法。这点在基于基因组的数据(如染色质可及性与甲基化数据)与基于基因的数据(如基因与蛋白表达数据)间整合分析尤为明显。但如果这些数据来自于同一类细胞群,由于存在着共同的生物学状态,此时可以联立分析以发现不同数据集类型间的对应关系。
MATCHER 是一种在一维水平上比较不同类型测序数据拟时轨迹的方法。简单来说就是比对不同类型测序数据的拟时轨迹,以确定这些数据集间的对应关系。这种方法可以识别不同数据集间的“等效细胞”而不需预先知道彼此间的对应关系。开发者用scM&T- seq( Angermueller, C et al, 2016 )和scRNA-seq数据做了验证,准确预测了DNA甲基化与基因表达之间的关系。
其他sc-seq数据不同于scRNA-seq数据一样可以借助Marker解析细胞类型,因此可以利用scRNA-seq解析出的细胞信息为其他sc-seq数据分析做参考。有研究( Lake, B B et al, 2018 )对不同脑组织切片进行了单核RNAseq(snRNA-seq)与单细胞转座子超敏性位点测序(scTHS-seq),通过梯度推进算法利用单细胞基因表达谱指导了染色质可及性测序数据集的细胞分类:作者首先鉴别出snRNA-seq数据集与scTHS-seq数据集共有的细胞亚群,训练一个可以将基因表达与染色质可及性数据关联的模型;然后利用该模型去分类scTHS-seq中剩余未被分类的细胞。这种方法可以更细致地对大脑组织中的细胞进行分类。同样,可以整合scATAC-seq数据集来分析单细胞DNA甲基化或转座酶染色质可及性间的细胞分类。
目前正在开发的新方法有利用假定等价特征、或识别在所有类型数据中的假定相关共享特征来进行数据交叉模态分类。 Welch 开发了一种集成非负矩阵分解(iNMF)的方法,名为LIGER,可以跨模态整合数据。他们对同一类型 皮质细胞 分别进行了亚硫酸盐测序(snmC- seq)与scRNA-seq并对其进行了分类。他们假设基因体甲基化与其表达水平负相关从而整合了不同模态测序数据进行细胞分类。在seurat v30中,作者也引入了假定等价特征或关联特征进行多模态整合数据细胞分类的方法。这些方法优点如上所述,即可以利用scRNA-seq的细胞分类信息来指导scATAC-seq数据细胞分类,鉴别出染色质可及性与DNA甲基化的细胞特异模块。
组织中细胞的空间结构常反映出细胞间的功能差异与细胞命运和谱系的差异。不同基因表达引导细胞向不同方向分化,不同细胞精确排列形成不同组织。关键是单细胞实验通常在分析前细胞已被解离,组织原位信息无法保留,scRNA-seq得到的表达谱不能完全反应细胞空间信息。具有相似基因表达谱的细胞可能存在于不同的空间位置中,故而细胞分离过程中空间信息的缺失是很多单细胞实验的主要缺点。结合高分辨率基因表达谱与空间表达图谱 (spatial expression maps) 将细胞空间坐标与基因表达谱联系起来,可以解决这一问题。有两类方法:计算模型或者RNA原位定量,可以同时收集到细胞空间坐标与基因表达值。
分子生物学:在分子水平上研究生命现象的科学。研究生物大分子(核酸、蛋白质)的结 构、功能和生物合成等方面来阐明各种生命现象的本质。研究内容包括各种生命过程如光合作用、发育的分子机制、神经活动的机理、癌的发生等。
组蛋白密码:遗传特异性由基因组碱基序列决定,序列变化导致细胞行为改变。但是科学发展到今天,这已不是问题的全部。有人提出"表观遗传学"概念,表观遗传学的一个典型例子就是抑瘤基因异常甲基化与肿瘤相关。随着转录调控研究的深入,一种新的调节机制 --"组蛋白密码"日益被科研工作者重视,组蛋白密码信息存在于转录后组蛋白修饰等过程中。
在真核细胞的细胞核中,核小体是染色质的主要结构元件(见图)。核小体主要由四种组蛋白(H2A,H2B,H3和H4)构成。这四种组蛋白和缠绕于组蛋白的DNA共同组成了核小体。每个组蛋白都有进化上保守的N端拖尾伸出核小体外。这些拖尾是许多信号传导通路的靶位点,从而导致转录后修饰。该类修饰包括组蛋白磷酸化、乙酰化、甲基化、ADP-核糖基化等过程。尤其是组蛋白乙酰化、甲基化修饰能为相关调控蛋白提供其在组蛋白上的附着位点,改变染色质结构和活性。一般来说,组蛋白乙酰化能选择性的使某些染色质区域的结构从紧密变得松散,开放某些基因的转录,增强其表达水平。而组蛋白甲基化既可抑制也可增强基因表达。乙酰化修饰和甲基化修饰往往是相互排斥的。在细胞有丝分裂和凋亡过程中,磷酸化修饰能调控蛋白质复合体向染色质集结。
细胞对外在刺激作出的每一个反应几乎都会涉及到染色质活性的改变,这一改变就是通过修饰组蛋白,变换组蛋白密码实现的。既然几乎每一种生物学过程都有特定的组蛋白修饰标记,那么特定的组蛋白修饰标记就能反应相应的特定生物学过程。因此通过组蛋白修饰系列抗体特异性地识别靶蛋白修饰形式,就能简化对组蛋白修饰的研究
染色质的转录活性与组蛋白修饰相伴(见表1)。总体上来说,组蛋白乙酰化水平增加与转录活性增强有关,而组蛋白甲基化修饰的结果则相对复杂,它可以是转录增强或转录抑制。
表1-组蛋白修饰与转录状态
转录激活 转录抑制
乙酰化 增加 降低
赖氨酸甲基化 组蛋白H3 K4 组蛋白H3 K9,K27,K79
精氨酸甲基化 组蛋白H3 R2,R17,R26 降低
组蛋白H3 R4
有丝分裂过程也与特异性组蛋白修饰有显著的相关性。在有丝分裂过程中,有数个组蛋白磷酸化反应,其中大多数由Aurora B激酶催化。特异性组蛋白修饰可在有丝分裂的不同阶段检测到,在细胞核分裂中发挥多种功能
组蛋白修饰于有丝分裂
分裂间期 G2/M 分裂早期 分裂晚期
H3 S10 Phos +/- + +++ ++++
H3 S28 Phos - - ++ +++
CENP-A Ser 7 Phos - - +++ +
H4 K20 Me + ++ +++ +++
组蛋白修饰还参与DNA损伤和凋亡。在凋亡的级联反应中,激酶(包括CHK1和CHK2)的主要底物之一是组蛋白衍生物H2AX ,H2AX的磷酸化是凋亡早期最早标志之一。在凋亡后期,Caspase激活蛋白激酶Mst1, Mst1使组蛋白H2B的14位丝氨酸磷酸化。这一修饰在染色质浓缩步骤中可检测到,是凋亡途径良好的标记物。也有报道称在凋亡过程中发现组蛋白H2B的32位丝氨酸磷酸化。
随着组蛋白密码学说的进一步完善,研究者将能: 1更好地开发新药。研究组蛋白密码对药物开发具有战略意义,多种组蛋白修饰酶已成为相关疾病治疗的靶目标。比如,组蛋白去乙酰酶(HDACs)抑制剂已应用于临床治疗多种肿瘤;2 深入探讨遗传调控和表观遗传调控相互作用的网络与不同生物学表型之间的关系;3 在控制真核基因选择性表达的网络体系内进一步深入理解染色质结构、调控序列以及调控蛋白之间交互作用的内在机制;4 建立基因表达的调控网络数据库及其分析系统。总之,随着越来越多组蛋白核心结构区域和修饰方式的确定,组蛋白密码在基因调控过程中的作用会越来越明确。
反式剪切:--------
内含子定界:内含子是基因内的间隔序列,不出现在成熟的RNA分子中,在转录后通过加工被切除。大多数真核生物的基因都有内含子。
在转录后的加工中,从最初的转录产物除去的内部的核苷酸序列。术语内含子也指编码相应RNA内含子的DNA中的区域。大多数真核结构基因中的间插序列(intervening sequence)或不编码序列。它们可以转录,但在基因转录后,由这些间插序列转录的部分(也可用内含子这个术语表示)经加工被从初级转录本中准确除去,才产生有功能的RNA。基因的编码部分称外显子。内含子常比外显子长,且占基因的更大比例。真核基因所含内含子的数目、位置和长度不尽相同,如鸡卵清蛋白基因的外显子被7个内含子隔开,鸡卵伴清蛋白基因有17个内含子,α-珠蛋白基因有2个内含子,卵粘蛋白基因有6个内含子等。
为什么会发生老化?身体的老化就是器官的老化,器官的老化就是细胞的老化,细胞的老化就是DNA损伤,因此从DNA损伤到细胞错误传播,衰老是一个神秘而多样化的过程。
1 DNA损伤:衰老过程可以追溯到基因组水平。DNA修复过程中突变和损伤的累积与衰老症状高度相关。事实上,导致过早衰老的疾病通常是由维持我们DNA的基因突变引起的。随着DNA的复制,参与该过程的细胞机器会出错,导致DNA序列发生变化。活性氧(ROS)或紫外线辐射等诱变剂也会破坏DNA。大多数情况下,DNA修复机制可以修复损伤,但随着生物体的老化,错误会逐渐消失并积累。衰老也与DNA修复机器的恶化有关,使永久性错误在老年生物体中变得更加普遍。一旦DNA过度受损,细胞就会自杀或进入非复制状态,这个过程称为衰老。细胞损失可导致组织萎缩和功能障碍。衰老细胞虽然大部分处于休眠状态,但实际上可能通过分泌被认为有助于动脉粥样硬化和其他衰老相关疾病的炎性细胞因子来加速衰老过程。此外,通常有助于稳定基因组的DNA支架蛋白显示随着年龄的变化,导致细胞分裂受损,衰老增加和其他与衰老相关的过程。
2 表观遗传学变化:人类细胞中DNA甲基化的作图已经表明,基因组的某些区域随着年龄的增长而变得高甲基化,而其他区域显示甲基化减少。组蛋白修饰(另一种类型的表观遗传标记)也显示出在一些人体组织中随年龄而变化。这些变化是通过复制或DNA损伤修复过程中的错误发生的。在复制过程中,DNA甲基化和组蛋白修饰并不总是完美再现。当DNA被破坏时,修复蛋白质必须经常去除表观遗传标记以获取受损的遗传物质并进行修复。然后可以省略或不正确地替换表观遗传标记。已知表观遗传变化会导致癌症,动物模型中有一些有趣的证据表明组蛋白修饰的改变确实会影响衰老。
3 端粒的改变:一种特别有影响的DNA损伤形式发生在端粒上,这种重复序列可以保护染色体并且随着年龄的增长而缩短。虽然胚细胞和干细胞表达一种称为端粒酶的酶来补充端粒,但由于DNA聚合酶不能完全复制染色体末端,大多数细胞的端粒会随着每个分裂而缩小。如果端粒收缩过多或受损,细胞会发生细胞凋亡或进入衰老状态。端粒损伤对衰老有明显影响。具有短端粒的小鼠的寿命缩短并且干细胞和器官功能降低。近年来,研究人员还表明,端粒是应激诱导DNA损伤的靶标。一旦端粒受损,就很难修复。
4 蛋白质折叠:生命取决于适当的蛋白质功能。适当的蛋白质功能就是适当的蛋白质折叠。变形蛋白通常变得无用,并且可以与细胞内其他错误折叠的蛋白质结合在一起。目前尚不清楚蛋白质错误折叠是否会导致衰老,但似乎两者重合是一个几乎不可避免的生理现实。为了增加对损伤的侮辱,年龄的增长也会导致分子伴侣的衰退,这有助于折叠过程和通常有助于从细胞中清除错误折叠的蛋白质的保护途径。一个悬而未决的问题是错误折叠的蛋白质聚集物的积累是否是衰老过程的原因或后果。
5 线粒体衰老:20世纪50年代发展起来的自由基衰老理论提出,活性氧(ROS)会通过造成细胞损伤而导致衰老。作为ROS的主要来源之一,线粒体 – 特别是ROS对这些细胞器及其DNA的损伤 – 被认为也在衰老中发挥作用。从20世纪90年代开始,研究模式生物的科学家观察到了与自由基理论相矛盾的现象。例如,阻断ROS产生的酶不会延长小鼠的寿命; 在蠕虫中,在一定的发育阶段强调线粒体实际上延长了寿命; 并且,正如Shadel的研究小组在2011年所展示的那样,增加线粒体ROS延长了酵母的寿命。ROS信号对正常生理很重要。然而,细胞器可以处理的损伤是有限的,并且线粒体功能障碍可能很有助于衰老。小鼠证据表明,线粒体DNA的突变与缩短的寿命有关。
6 在细胞水平上,细胞水平随着年龄的增长而死亡或进入衰老,干细胞增殖能力的降低,线粒体功能的损伤以及蛋白质错误折叠的倾向都会导致衰老。
延缓衰老的作用关键点不是“生命年龄”,而是“生物年龄”。我们的目的是延长“健康寿命”,缩短“抱病寿命”。让疾病来得更慢一些,让生命活得更精彩一些,这才应该是我们的目的。
在最新一期的《麻省理工科技评论》(MIT Technology Review) 中,科学家提出:人类不但可以远远突破120岁的寿命,更可以让身体停留在不老的状态。
科学家展望,研发防止人类老化的药物,人类将永久远离阿兹海默症和帕金森氏症。
正在研究的项目包括:
• Senolytics 药物:衰老细胞(senescent cell)是导致身体衰老的主要原因。如果能清除体内衰老细胞,理论上就能停止衰老。在一项动物实验中,以senolytic 药物治疗的老鼠(它的年龄相当于人类80岁),结果显示,不但大大改善了小鼠的身体机能,更延长剩余寿命36%。
• TAME实验:从过往的研究中,可以得知 降糖药 metformin (二甲双胍)能增加释放入细胞的氧分子,并有助促进身体健康和延长寿命。 美国食品药品监督管理局(FDA)在2016年批准以 metformin (二甲双胍)开始进行人体实验,将 metformin 用在人类身上,验证能否延长寿命。此实验若成功,也意味着它将能让 70 岁老人的身体变得跟 50 岁的壮年人一样健康。
• RTB101:2014年,诺华公司开始研究如何增强老年人的免疫系统,把研发重点发在雷帕霉素。主要药物RTB101的2b期临床试验结果显示,它能将老年人呼吸道疾病的感染率降低306%。
越来越多的研究证据显示,人类有打破衰老的必然性
以上就是关于单细胞ChIP-seq技术(CoBATCH)全部的内容,包括:单细胞ChIP-seq技术(CoBATCH)、basic region leucine zipper、单细胞综述之整合分析等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)