
人类基因组:指人体dna分子所携带的全部遗传信息。由24条双链的dna分子组成(包括1~22号染色体dna与x、y染色体dna),上边有30亿个碱基对,30多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息。30亿个碱基对,太庞大了,无法精确的告知你序列是什么样的。但可以告诉你:人类基因组计划:
1、概念:是指分析测定人类基因组的核苷酸序列。
2、主要内容:绘制人类基因组的四张图,即遗传图、物理图、序列图和转录图。绘制这四张图好比是建立一个“人体地图”,沿着地图中一个个路标,如“遗传标记”、“物理标记”等,可以一步步地找到每一个基因,搞清楚每一个基因的核苷酸序列。
3、进展:2000年6月26日,6国科学家向世界宣布:“人类基因组草图”的绘制工作已经全部完成。预计到2003年,“人类基因组精图”的绘制工作也将全部完成。
4、意义:(1)对于各种疾病,尤其是各种遗传病的诊断、治疗具有划时代的意义;(有利于疾病的诊断和治疗。)(2)对于进一步了解基因表达的调控机制、细胞的生长、分化和个体发育的机制,以及生物的进化等也具有重要的意义;(有利于研究基因的表达和调控机制);
(有利于研究生物的进化。)(3)将推动生物高新技术的发展,并产生巨大的经济效益。(有利于培育优良的动植物品种)。另外,美国奎格•文特研究所和多伦多儿童医院以及加州大学的研究者日前公布了奎格•文特本人的基因组序列,这是世界上第一次公布单个个体二倍体的基因组序列,初步分析报告发表在最新一期的《plos生物学》上。
根据《国家医疗保障局办公室关于贯彻执行15项医疗保障信息业务编码标准的通知》,为加快形成全国统一的医疗保障信息业务编码标准,现就做好国家医保编码的对码贯标工作紧急通知如下:
一、贯标产品
所有在省医药采购服务平台挂网采购的药品医用耗材(不含检测试剂),都需要开展对码贯标工作。
二、工作内容
对比国家医疗保障局编制的药品医用耗材信息表,查找与挂网药品、医用耗材相同的产品信息,选填对应的国家医保编码。
三、 *** 作方法
(一)药品贯标
1已挂网药品的贯标。药品生产企业登录“药品议价采购系统”,进入“基础数据库管理”-“产品信息维护”,勾选挂网药品后,点击“编辑医保代码”按钮,选择对应的药品关联医保药品代码,如未查询到相同的药品,勾选“暂未取得国家医保编码”,点击确定。
2申请挂网的新上市药品的贯标。药品生产企业登录“药品议价采购系统”,在“基础数据库管理”-“产品信息注册”,点击“新增”按钮,在“医保药品代码”中选择对应医保代码。
(二)医用耗材贯标
1已挂网医用耗材的贯标。耗材生产企业登录“医用耗材挂网交易系统”,进入“基础管理”-“国家医保代码贯标”菜单,选择单件进行关联或通过Excel导入方式进行关联。如未取得国家医保编码的,勾选“暂未取得国家医保编码” ,点击确定。
2申请挂网的新上市医用耗材的贯标。耗材生产企业登录“医用耗材挂网交易系统”,进入“基础管理”-“企业耗材信息上报”菜单,点击“新建”按钮,在“医保耗材分类代码”中选择对应医保代码。
(三)注意事项
如未查找到本企业挂网产品的医保编码,请登录国家医疗保障局官网,进入“医保业务编码标准动态维护”栏目进行维护,待取得医保编码后,后期再进入省医药采购服务平台进行贯标。
人类基因组这个研究,第一次在生命科学里面实现了整体上的遗传信息的解析,基因组功能的研究。基因组就是一个生命体的遗传信息的总和。
生命信息的储存单位,实际上就是我们说的基因,载体是脱氧核糖核酸 DNA。在多细胞的生物里,不同的细胞之间,由不同的 细胞所组成的组织之间,由不同的组织所形成的器官之间都在发生信息的流动。这个就是我们所说的:遗传学的中心法则。基因组就是一个生命体的遗传信息的总和。DNA双螺旋的发现大概是20世纪生命科学最最伟大的突破。ATCG四种不同的碱基构成了纷繁复杂的遗传学语言。
实际上绝大多数的人类疾病都是多基因控制的。人类基因组计划正式启动是1990年,就是要用15年的时间,到2005年完成人类基因组DNA全序列的测定。到今天为止我们也还没有这样的技术,说拿来一条染色体,我们就能直接测序。所以整个人类基因组计划实际上就是由复杂到简单,再由简单又回归复杂的一个过程。在人类基因组测序起步的时候,当时用的DNA序列的分析方法是凝胶电泳为主的方法,基本上还是手工运作的。但是在20世纪90年代以后,新的一个测序技术产生了就是毛细管电泳仪技术。使得测序的速度大大加快。一天就可以有100万个碱基对的的序列被测出。中国也加入这一个测序计划,我们承担了1%的任务。2000年4月份,21号染色体全序列测序草图完成了。
现在我们已经可以做到在指甲盖大小的生物芯片上点上人类的基因组,所有的基因都点在上面。将来要去看病,不光要带病卡,还要带一个自己的芯片。医生用药诊断之前,用芯片看看你可能得什么病。通过对进化不同阶段的生物体基因组学的比较,就可以发现基因组结构组成的功能调节的规律。实际上人类疾病相关的基因,也恰恰是人类基因组结构和功能完整性至关重要的信息。实际上在过去几年当中,对疾病的研究早已成为人类基因组研究
一个重要计划的组成部分。1997年提出了两个计划:一个是肿瘤基因组的解剖计划,还有一个叫环境基因组计划。实际上都是和健康相关的。人类基因组计划对医学的贡献,一个是在诊断方面,另外是在基因治疗方面。对于我们这样发展中国家来说,更应该注重预防。
我们国家的基因组计划,是1994年开始启动的,从功能基因组的角度进行切入。采取结构与功能并重,多学科交叉建立关键技术,进行基因组多样性和疾病基因研究。这是我们一开始的时候一个策略。我们可以很自豪的说:现在除了Y染色体,所有的染色体上面都遍布着中国科学家发现和命名的基因。最近我们启动了一个中华民族基因组-SNP的大规模的研究。这个工作从群体遗传学转向了,我们中国人群特点的、疾病发生发展的遗传学信息的研究。所以,如果现在我们能够把中华民族生命元素变异的系统目录和数据库做出来的话,就能够获得我国生物医学界和制药工业界技术创新的知识产权来造福子孙后代来贡献于全人类。
全文
当然清华是我们国家最高等的学府之一了。所以,今天到这里来,也有点诚惶诚恐。那么主要是来求教的。现在我要给大家介绍的人类基因组这个研究,可以说是第一次,在生命科学里面,实现了某种大科学的概念。也就是说来一个整体上的遗传信息的解析,基因组功能的研究。所以我说现在生物学的特点,已经从70年代、80年代,主要是以分析为主,学科的精细化,分工的细化,这样一个趋势到了一个新的平台上面。这个平台就是大综合,其实我们中国的科学,一开始就是讲究大综合。你看我们的艺术也是这样,我们的写意画就是一种大综合。这个东西方的融合非常重要,把西方严谨的分析,和中国早在几千年前的大综合的思路结合在一起的话,我想有可能带来一些新的突破的机遇。那么这张图我想,恐怕不光是搞生命科学的,就是我们非生命科学的同学们,也都是非常熟悉的,遗传学中心法则。
我们都知道,生命活动它的本质,它是一个信息的流动。有人一直说,我们都是搞生命科学的。但是突然有一个冒出一句话:“什么是生命”?这个倒可以让人思索一番。我个人体会,生命信息它的储存单位,生命的重要特点之一,它有记忆功能。那么它的储存的单位,实际上就是我们说的基因,在绝大部分的生命体我们知道,它的载体是脱氧核糖核酸DNA。但是它的执行单位,主要来说是蛋白质。这里面它用信息的语言,不是一样的,一个是核酸的语言,一个是氨基酸的语言。所以在这个空间信息的流动,需要有一些调控的机制。这个调控大家知道,第一步就是转录。这个时候生命信息的语言,没有发生变化,都是核酸的语言。只是从DNA到了MRNA上面,这个过程我们称为转录。然后语言要发生变化,发生转换,要求来进行翻译了。所以从MRNA上面的生命语言,变成蛋白质的生命语言。当然我们知道这个蛋白质,很多的蛋白质它都具有代谢的活动。生命体和非生命体的重要差别之一就是有代谢和新陈代谢,然后蛋白质可以形成高级空间的构型。那么在这个里面,细胞的不同的部分互相之间作用,细胞核和细胞浆互相在作用。然后在多细胞的生物里,不同的细胞之间、由不同的细胞所组成的组织之间、由不同的组织所形成的器官之间都在发生信息的流动。我想这个就是我们所说的“遗传学的中心法则”。那么基因这个概念,大家都很清楚了或者说基本概念很清楚,确切的定义也许今天还不是非常清楚。
那么基因组是什么意思?基因组就是一个生命体的遗传信息的总和。那么在这里我们就不是单个基因,而是所有的基因。它所编码所有的氨基酸相互之间的这个关系,所以感官性是完全不一样的。DNA双螺旋结构的发现大概是20世纪生命科学最最伟大的突破。那么A、T、C、G四种不同的碱基,构成了纷繁复杂的遗传学语言,生命信息的最基本的符号。这个最基本的符号实在是让我们感到非常简单。大自然就用这四种简单的字符,组成了让我们叹为观止的大千世界的无数生命的多样性的现象。那么它的遗传信息,在绝大多数的生命体,我刚才说的是DNA的分子。那么它的排列组合在那里就决定了,或者说在相当大的程度上决定了生命活动在人体,也就是我们讲的:生、老、病、死等等这些活动。那么我们在讲双螺旋结构的时候,我们都知道,碱基对、DNA是生物的大分子。一般来说我们不是用一个质量单位来表示它的体量,而是用它的长度。那么一个bp,中文叫一个碱基对。但是在基因来说,一个基因常常是要成千上万个碱基对。所以我们引入了“千碱基对”这样的尺度。然后再做到基因组的时候,我们都知道基因组它是非常大的尺度,所以又发明了一些新的尺度单位,像Mb指的是百万碱基对。
这个是基因组计划之前的,我们对人类基因组的一些了解。我们知道人类基因组的长度,一个单倍体的基因组的长度大概是30亿个碱基对。一般的教科书上都说,序列当中编码序列,也就是说我们刚才说的,发生转录表达的,可以被称之为基因的序列。大概实际上是指成熟的MRNA,发生加工以后的MRNA当中的序列,大概小于5%。也就是说,非编码序列占了绝大多数。在人体细胞核里面,遗传信息它是以染色体的方式进行组织的,分布于22个常染色体和2条性染色体。我们都知道以前的生物科学的特点,基本上是师傅带徒弟、作坊式的 *** 作。那么到了80年代中期的时候,我想一个是生命科学的这个科学思维的大大扩展,第二个是技术的这个进步。比方说当时遗传工程已经非常成熟了,当时DNA测序也相对成熟,然后PCR的技术在那里开始产生了。因此使得科学家们,生命科学家们的雄心壮志,在那里萌发了,决心要冲破原来的这种作坊式的被物理学界甚至化学界不太看得起的那种运作方式,搞一点可以称为是大科学的东西。
当然我想科学研究的条件,思维这是一个方面。但是实际上回顾一下科学史的话,很多重大的事件它还是需求在那里拉动的。我们有的科学家批评这样的做法,意思是说我们要注意把基础研究和社会重大需求结合在一起。我觉得实际上这有点失之偏颇的,就是说有各种各样类型的研究:有的是一种自由的探索,那么这个可以非常小心,一个人的脑瓜里都可以产生诺贝尔奖的构思。但是也有一些研究的确是希望能够造福人类的。但是这样的研究提出的挑战,实际上又可以孕育着不知道多少人的诺贝尔奖的思想在里面。那么人类基因组计划,就是这样一个典型。
我们看第一份,可以认为是正式的标书。我们做这个课题,一般来说首先要有标书。那么人类基因组计划的第一个标书,可以被认为是诺贝尔奖获得者Dulbecco 1986年发表在《科学》杂志的一篇短文。它的这个短文的题目是什么呢?《肿瘤研究的转折点——人类基因组研究》。事实上我们知道美国有一位雄心勃勃的年轻总统肯尼迪上台以后,当时他在科学上有两大计划:一个是实现人类登月,还有一个战胜癌症。那么人类登月随着阿波罗计划的比较顺利地实施,1969年人类实现了登月。但是攻克肿瘤的计划是一个失败的。为什么?原来科学家把问题想得太简单了,以为肿瘤就是一两个基因的问题。但实际上绝大多数的肿瘤,都是多基因的问题。它涉及的面是整个基因组的问题,是遗传信息的整体上面紊乱的这样一些问题。就是刚才讲的,我们不要以为好像一个融合基因打到小鼠里面去,就足以引起一个白血病,不是那么简单的。因为如果那样的话,你一打进去就要产生白血病,事实上我们PML罗拉白血病,在受精卵里面注射进这个融合基因以后,需要等待一年的时间才会出现白血病而且不是每一个小时都会发生白血病。所以就提示有其他的决定因素在里面。我们现在知道有时候几个基因一起传染的时候,它发生白血病的速率就会大大加快。
Dulbecco这个文章它就说,如果我们想更多地了解肿瘤,我们从现在开始必须关注细胞的基因组。从哪那个物种着手努力?如果我们想理解人类肿瘤,那就应该从人类开始。人类肿瘤研究将因对DNA的详细知识而得到巨大的推动。实际上绝大多数的人类疾病都是多基因的。人类基因组计划正式起动,现在一般的说法是1990年。那么1990年因为是美国国会通过了正式启动这样一个计划。这个计划雄心勃勃就是要用15年的时间,到2005年完成DNA的全序列的测定。这个投资量是多少呢?30亿美元。当时计算的依据是测一个碱基对大概需要一美元。整个计划在这个地方实际上是一个比较狭义的一个计划,这个计划实际上就是一个测序计划。实际上我们讲测序,读出天书只是理解人类自身的第一步,最重要的是读懂天书。但是即使是这样读出天书一个计划的话,它也要经历很多的磨难,很多的困难。也就是说,到今天为止,我们还没有这样的技术说,拿来一条染色体,我们就能够直接测序,从一头测到另外一头我们没有办法这样做。所以整个人类基因组计划,实际上可以简单地说就是由复杂到简单再由简单又回归复杂,最后大概还是回归到简单。也就是说把不能直接测序的一条染色体拿来给它进行分解,分解成比较小的可以 *** 作的这样的单位。那么怎么分解呢?那就是作图,你可以用遗传学的方法去作图,也可以用物理学的方法来作图。我们知道遗传学作图,就是利用遗传学的标志来确定DNA标志间相对的距离。另外一个概念就是说要构成一些所谓的DNA连续的克隆系,那么这些片断,它互相之间重叠,它可以覆盖整个的染色体,从一端覆盖到另外一端。这样就把一个不能直接拿来测序的单位,就给它解析成比较小的、可以 *** 作的这样一个单位。最后给它重新组合成忠实于原来染色体里面生命信息这个排列的,这样一个状况在这里面,识别全部的人类基因。所以人类基因组就是作图,或者狭义的人类基因组计划,就是作图的计划,遗传图、物理图、序列图,然后基因图。
在人类基因组计划进行大规模测序的策略有两种,一种就是我刚才说的那种思路,实际上叫逐个克隆。我刚才说了,你把DNA克隆的连续克隆系建起来了,覆盖整条染色体了,然后你就把一个一个的克隆,用得最多的就是叫BAC--细菌的人工染色体,大概100多个KB这样的长度。那么把这个克隆一个一个挑出来,挑出来以后再进行亚克隆。这种亚克隆就是这样的,就可以测序了,测序以后再给它组装起来、还原起来。这样一个策略,是国际上公共领域的测序计划所采取的策略。实际上它是历史的沿革,就是说从作图,遗传、物理作图演化过来的。我们都知道美国的瑟拉尔公司,也知道奎克曼特。那么它搞了一个叫全基因组鸟q法,在一定作图信息基础上,绕过大片段连续克隆系统的构建而直接将基因组分解成小片段随机测序,然后利用超级计算机来进行组装。能够使得人类基因组,在初步完成作图以后,很快地迈入到测序,尤其是大规模测序。并且使得整个进度朝向人们的预期。这里面有两个重大因素的贡献,不得不承认这里面,工业界的贡献是非常大的。比如说在人类基因组起步的时候,当时用的这个DNA序列的分析方法,还是凝胶电泳仪为主的方法,基本上还是手工运作的。但是在20世纪90年代上半段的时间里面,新的一个测序技术出现了,毛细管电泳仪。另外把自动化的运作和包括工业界的管理这种系统,都引进来。所以使得测序的速度大大加快。你像这样一个测试仪,它的名字就叫做Megabace。什么意思?就是毛细管电泳,它差不多两小时就可以进行读出一个序列,大概能够读到几百个碱基,那么它一天可以做十班,那么它是96道,所以一天可以做960道。每一道按照他们的宣传,都可以达到一个KB的话,实际上是很难做到的,这是最理想的状态下。所以一天就可以有100万个碱基对的产出。但是曾经使学术界感觉比较困惑的另外一个问题,就是说如果我们现在处于一个知识爆炸的这样一个时代,可以说生物信息的爆炸,是最最给人印象深刻的。
我们看在基因组计划起步之前,在公共数据库里边DNA序列增长非常缓慢。然后1990年以后,就是指数增长期。而且这个东西我是统计到去年、2000年两家世界的公共领域,测序计划和瑟拉尔分别宣布完成了所谓的工作草图。这个时候是这样一个情况,现在大概是这样的情况。1999年当时面对着瑟拉尔的强行挑战,它是1998年成立的,号称三年要拿下人类基因组,国际人类基因组计划决定迎接挑战。就由国际上16个组,分担了人类基因组测序的任务,中国也加入这样一个测序计划。当然我们承担的是1%的任务,1%还是很重要的。因为对于一个发展中的国家来说,能够挤入到这种属于发达国家的俱乐部里面,应该说还是很不容易的。有些事情我们想挤也不一定挤得进去的,像空间站的计划,人家还防范你。
在这里我想介绍一下什么叫工作框架图?因为都在说工作框架图,什么叫工作框架图?其实就是一个工作草图。那么它的意思呢?就是说通过对染色体位置明确的BAC(细菌人工染色体)连续克隆系4—5倍覆盖率的测序,获得基因组90%以上的基因序列,其错误率应该低于1%。也就是说你的覆盖面要达到基因组的90%以上。第二个呢,错误率应该低于1%。100个碱基对立面允许你有一个以下的碱基对的错误。虽然这只是一张草图,但是它已经有用途,就是对基因组结构的基本认识,基因的识别和解析、疾病基因的定位克隆、单个核苷酸的多态性的发现等。
那么讲到草图就一定有一个最终完成图了,所以这张图的定义,要求测序所用的克隆能忠实地代表常染色质的基因组结构,覆盖率要达到999%以上,然后序列的错误率应该低于万分之一。与工作框架图的关系呢,实际上就是在工作框架图的基础上再加大测序的覆盖率,填补空隙,使得序列的精度增加,能够达到这样一个标准。也就是说,它是草图的下一步。2000年6月25号,当时的测序的情况是怎么样的呢?我们看当时在公共领域就是说各国政府支持的六各国家,美国、英国、德国、日本、法国、中国,六国政府支持的公共领域的计划,当时是覆盖了大概人类基因组的868%。其中包含一部分已经完成,就是我们刚才说的最终序列图这样标准的序列大概是20%多一点点,然后66%左右的序列处于所谓的工作草图这样的阶段。那么也可以说,还没有完成。因为我们说要达到90%以上,但是同时瑟拉尔他号称他的覆盖率已经超过了95%。当然他的覆盖率其实包括了所有的公共领域的这个贡献,再加上他的贡献,所以两者相加起来。我想我们应该相信大概90%以上的序列,都是被工作草图以上的这样一个序列的质量所覆盖着。我们看看公共领域测序计划当时的情况,在24条染色体上分布的情况。我们知道,实际上1999年12月份,22号染色体作为人类最小的染色体之一,它的全序列被测定,或者说是它的常染色体,指部分的全序列。我们注意到它的短臂这个地方,就是易染色体区域,实际上非常难测。因为都是大量的空序列,又没有多少基因。2000年4月份21号染色体全序列完成了,也是同样的定义,就是说常染色体的这个部分。我们看这里是用深红的颜色来表示,差不多就是最终完成的。而这种黄颜色表示的是我们刚才说的工作草图,在大部分染色体区域,是工作草图部分。实际上现在我们讲的,完成人类基因组全序列的测定,都是指的常染色体部分,所以有的人说也许人类基因组序列永远也不能被结束。
2001年2月15日,我们知道公共领域在《自然》上,都是有一种分庭抗礼的,兵对兵、将对将的感觉。2月16号就登了瑟拉尔序列,显然,经过新的一轮角逐,比2000年6月份的时候,完成序列的质量又要高得很多。所以这样的话,应该认为,两家加在一起的信息,应该说比我刚才说的一般的定义又要进一步了。所以就产生了一个在工作草图和最终完成图之间的一个中间状态,这个中间状态就叫做高质量的草图。但是就是这样一个高质量的草图,让我们已经基本上知道我人体生命信息的家当到底有多大。弄到最后我们发现我们的家当好像还是比较可怜的,比我们原来的想像,因为我们的基因数量大概只有线虫,只有900多个细胞的一个生命体的大概一倍左右,我们就比那么一个小虫多一倍。从低等生物到高等生物它的基因组的复杂度,与其说是由基因的数量来决定的,还不如说更主要的是由基因的长度来决定的。我们最近完成了一个细菌的测序,叫钩端螺旋体,可以引起传染病的。它平均一个KB就有一个基因,这么小的一个东西,500万个碱基对的一个基因组,有5000个基因。我们人30亿个碱基对,我们不过就3万个,顶多接近4万个这样一个数字。但是你看到了酵母,到了真核细胞的话,那它就是平均大概5到10个KB一个基因。然后到了果蝇的话,虽然它的基因数量好像还没有线虫的多。但是它的基因长度已经达到10个KB以上,然后到了哺乳类一个基因,大概像人类现在是100多个KB才有一个基因。所以替换、剪接这种可能性就大大增加了。另外跟时间和空间,也就是发育阶段和组织特异性表达的调控相关这些序列复杂大大增加了。虽然基因在高等生物可以达到十的五次方数量级,几万到十万个这样的比较高等的生物。但是实际上它的蛋白质的结构域,实际上如果把基因组比成一个大厦的话,组成这个大厦的预制件,这个数量实际上是比较有限的。那么另外有一些高级生物中有更为丰富的结构域组合,神经功能、组织特异发育、调控、止血和免疫系统的基因,在脊椎动物大量扩展。数以百计的人类基因源于脊椎动物进化过程中某个时间点上,细菌基因的横向转移。基因组在不同个体之间差异很大——单核苷酸多态性,单倍体的基因差异为1/1250,能够导致蛋白质变异的不到1%。
这本遗传天书,已经放在我们面前了,接下来就是要读懂它。要读懂它,一定要从大的系统的概念来考虑怎么样读懂。一个这个基因组的信息,和外界的环境,是在那里相互作用。另外这个基因组的信息不是从天上掉下来的,它是通过一个漫长的几十亿年进化的过程发展过来的,所以要用比较的方法去读它。另外要考虑到在个体之间和群体之间又是有变异的,这种变异也受到外界环境的一些调节。所以功能基因组学的研究内容,虽然现在没有一个严格的定义,但是我个人认为,至少包括这几个方面:人类基因组DNA序列变异性研究,其核心的内容是SNP,因为这是最常见的变异类型,当然还有很多其他的变异。然后基因组表达调控的研究,这个是发育阶段组织器官的变异,然后模式生物体的研究,这个里面包括进化的意思,和利用模式生物进行功能研究。当然从事所有这些研究,就像我们进行测序研究一样。生物信息学,它既是一个基本的工具,又是一个新兴的学科。因为最后要把这些信息整合起来,搞成一个我们所说的,系统生物学的话,你一定要用理论的手段,和大规模信息处理的手段。
生物信息学方法可以用来寻找新基因
1,序列比对(Sequence Alignment)
序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的
2, 蛋白质结构比对和预测
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等氨基酸的序列内在的决定了蛋白质的3维结构一般认为,蛋白质有四级不同的结构研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构同源建模(homology modeling)和指认(Threading)方法属于这一范畴同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构然而,蛋白结构预测研究现状还远远不能满足实际需要
3, 基因识别,非编码区分析研究
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中分析非编码区DNA序列目前没有一般性的指导方法在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等
4, 分子进化和比较基因组学
分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现
5, 序列重叠群(Contigs)装配
根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短q(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配从算法层次来看,序列的重叠群是一个NP-完全问题
6, 遗传密码的起源
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材
7, 基于结构的药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物这一领域目的是发现新的基因药物,有着巨大的经济效益
8生物系统的建模和仿真
随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。
9生物信息学技术方法的研究
生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10, 生物图像
没有血缘关系的人,为什么长得那么像呢?
外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合?
有什么生物学基础?基因是不是相似?我不知道,希望专家解答。
11, 其他
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法从现在的发展不难看出,基因工程已经进入了后基因组时代我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识
人类疾病贡献
人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿氏舞蹈症、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是疾病基因研究的重点。健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”。
对医学的贡献
基因诊断、基因治疗和基于基因组知识的治疗、基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。
生物技术贡献
⑴基因工程药物
分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体。
⑵诊断和研究试剂产业
基因和抗体试剂盒、诊断和研究用生物芯片、疾病和筛药模型。
推动细胞工程
胚胎和成年期干细胞、克隆技术、器官再造。
对制药的贡献
筛选药物的靶点:与组合化学和天然化合物分离技术结合,建立高通量的受体、酶结合试验以知识为基础的药物设计:基因蛋白产物的高级结构分析、预测、模拟—药物作用“口袋”。
个体化的药物治疗:药物基因组学。
社会经济影响
生物产业与信息产业是一个国家的两大经济支柱;发现新功能基因的社会和经济效益;转基因食品;转基因药物(如减肥药,增高药)
生物进化影响
生物的进化史,都刻写在各基因组的“天书”上;草履虫是人的亲戚——13亿年;人是由300~400万年前的一种猴子进化来的;人类第一次“走出非洲”——200万年的古猿;人类的“夏娃”来自于非洲,距今20万年——第二次“走出非洲”?
负面作用
侏罗纪公园不只是科幻故事;种族选择性灭绝性生物武器;基因专利战;基因资源的掠夺战;基因与个人隐私。
破译人类遗传信息,将对生物学,医学,乃至整个生命科学产生无法估量的深远影响。目前基因组信息的注释工作仍然处于初级阶段。随着将来对基因组的理解更加深入,新的知识会使医学和生物技术领域发展更为迅速。基于DNA载有的信息在细胞生命活动中的指导作用,在分子生物学水平上深入了解疾病的产生过程将大力推动新的疗法和新药的开发研究。对于癌症、老年痴呆症等疾病的病因研究也将会受益于基因组遗传信息的破解。事实上,在人类基因组计划完成之前,它的潜在使用价值就已经表现出来。大量的企业,例如巨数遗传公司开始提供价格合宜,而且容易使用的基因检测,其声称可以预测包括乳腺癌、凝血、纤维性囊肿、肝脏疾病在内的很多种疾病。
人类基因组计划对许多生物学研究领域有切实的帮助。例如,当科研人员研究一种癌症时,通过人类基因组计划所提供的信息,可能会找到某个,或某些相关基因。如果在互联网上访问由人类基因组信息而建立的各种数据库,可以查询到其他科学家相关的文章,包括基因的DNA,cDNA碱基顺序,蛋白质立体结构、功能,多态性,以及和人类其他基因之间的关系。也可找到和小鼠、酵母、果蝇等对应基因的进化关系,可能存在的突变及相关的信号传到机制。人类基因组计划对与肿瘤相关的癌基因,肿瘤抑制基因的研究工作,起到了重要的推动作用。
分析不同物种的DNA序列的相似性会给生物进化和演变的研究提供更广阔的路径。事实上,人类基因组计划提供的数据揭示了许多重要的生物进化史上的里程碑事件。如核糖体的出现,器官的产生,胚胎的发育,脊柱和免疫系统等都和DNA载有的遗传信息有密切关系。
人类基因组计划(human genome project, HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。按照这个计划的设想,在2005年,要把人体内约20,000--25,000个基因的密码全部解开,同时绘制出人类基因的谱图。换句话说,就是要揭开组成人20,000--25,000个基因的30亿个碱基对的秘密。人类基因组计划与曼哈顿原子d计划和阿波罗计划并称为三大科学计划。被誉为生命科学的"登月计划"。
人类基因组计划(英语:Human Genome Project, HGP)是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。基因组计划是人类为了探索自身的奥秘所迈出的重要一步,是继曼哈顿计划和阿波罗登月计划之后,人类科学史上的又一个伟大工程。截止到2005年,人类基因组计划的测序工作已经完成。其中,2001年人类基因组工作草图的发表(由公共基金资助的国际人类基因组计划和私人企业塞雷拉基因组公司各自独立完成,并分别公开发表)被认为是人类基因组计划成功的里程碑。
基因图谱的意义
在于它能有效地反应在正常或受控条件中表达的全基因的时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。
人类基因组是一个国际合作项目:表征人类基因组,选择的模式生物的DNA测序和作图,发展基因组研究的新技术,完善人类基因组研究涉及的伦理、法律和社会问题,培训能利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进人类健康。
折叠编辑本段其他资料
折叠对人类疾病基因研究的贡献
人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿氏舞蹈症、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”。
折叠对医学的贡献
基因诊断、基因治疗和基于基因组知识的治疗、基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。
折叠对生物技术的贡献
基因工程药物
分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体。
⑵诊断和研究试剂产业
基因和抗体试剂盒、诊断和研究用生物芯片、疾病和筛药模型。
对细胞、胚胎、组织工程的推动
胚胎和成年期干细胞、克隆技术、器官再造。
折叠对制药工业的贡献
筛选药物的靶点:与组合化学和天然化合物分离技术结合,建立高通量的受体、酶结合试验以知识为基础的药物设计:基因蛋白产物的高级结构分析、预测、模拟—药物作用“口袋”。
个体化的药物治疗:药物基因组学。
折叠对社会经济的重要影响
生物产业与信息产业是一个国家的两大经济支柱;发现新功能基因的社会和经济效益;转基因食品;转基因药物(如减肥药,增高药)
折叠对生物进化研究的影响
生物的进化史,都刻写在各基因组的“天书”上;草履虫是人的亲戚——13亿年;人是由300~400万年前的一种猴子进化来的;人类第一次“走出非洲”——200万年的古猿;人类的“夏娃”来自于非洲,距今20万年——第二次“走出非洲”?
折叠带来的负面作用
侏罗纪公园不只是科幻故事;种族选择性灭绝性生物武器;基因专利战;基因资源的掠夺战;基因与个人隐私。
折叠编辑本段应用实例
折叠疾病基因
人类基因组研究的一个关键应用是通过位置克隆寻找未知生物化学功能的疾病基因。这个方法包括通过患病家族连锁分析来绘制包含这些基因的染色体区域图,然后检查该区域来寻找基因。
位置克隆是很有用的,但是也是非常乏味的。当在1980s早期该方法第一次提出时,希望实现位置克隆的研究者们不得不产生遗传标记来跟踪遗传,进行染色体行走得到覆盖该区域的基因组DNA,通过直接测序或间接基因识别方法分析大约1Mb大小的区域。最早的两个障碍在1990s中期在人类基因组项目的支持下随着人类染色体的遗传和物理图谱的发展而清除。然而,剩余的障碍仍然是艰难的。
所有这些将随着人类基因组序列草图的实用性而改变。在公共数据库中的人类基因组序列使得候选基因的计算机快速识别成为可能,随之进行相关候选基因的突变检测,需要在基因结构信息的帮助。
现在,对于孟德尔遗传疾病,一个基因的搜索在一个适当大小的研究小组经常在几个月实现。至少30个疾病基因直接依赖公共提供的基因组序列已经定位克隆到。因为大多数人类序列只是在过去的12个月内得到,可能许多类似的发现还没有出版。
另外,有许多案例中,基因组序列发挥着支持作用,例如提供候选微卫星标识用于很好的遗传连锁分析。(2001年中国上海和北京科学家发现遗传性乳光牙本质Ⅱ型基因)
基因组序列对于揭示导致许多普通的染色体删除综合症的机制同样有帮助。在几个实例中,再发生的删除被发现,由同源体重组合在大的几乎同一的染色体内复制的不等交叉产生。例子包括在第22条染色体上的DiGeorge/ velocardiofacial综合症区和在第7条染色体上的Williams-Beuren综合症的重复删除。
基因组序列的可用性同样允许疾病基因的旁系同源性的快速识别,对于两个理由是有价值的。首先,旁系同源基因的突变可以引起相关遗传疾病。通过基因组序列使用发现的一个很好的例子是色盲(完全色盲)。
CNGA3基因,编码视锥体光感受器环GMP门控通道的a亚单位,显示在一些色盲家系中存在突变体。基因组序列的计算机检索揭示了旁系同源基因编码相应的b亚单位,CNGB3(在EST数据库中没有出现)。CNGB3基因被快速认定为是其他家系的色盲的原因。另一个例子是由早衰1和早衰2基因提供的,它们的突变可能导致Alzheimer疾病的的早期发生。
第二个理由是旁系同源体可以提供治疗敢于的机会,例子是在镰刀状细胞疾病或β地中海贫血的个体中试图再次激活胚胎表达的血红蛋白基因,它是由于β-球蛋白基因突变引起的。
我们在在线人类孟德尔遗传数据库(OMIM)和SwissProt 或TrEMBL蛋白质数据库中进行了971个已知的人类疾病基因的旁系同源体的系统检索。我们识别了286个潜在的旁系同源体(要求是至少50个氨基酸的匹配,在相同的染色体上一致性大于70%但小于90%,在不同的染色体上小于95%)。尽管这种分析也许识别一些假基因,89%的匹配显示在新靶序列一个外显子以上的同源性,意味着许多是有功能的。这种分析显示了在计算机中快速识别疾病基因的潜能。
折叠药物靶
在过去的世纪里,制药产业很大程度上依赖于有限的药物靶来开发新的治疗手段。最近的纲要列举了483个药物靶被看作是解决了市场上的所有药物。知道了人类的全部基因和蛋白质将极大的扩展合适药物靶的寻找。虽然,仅仅人类的小部分基因可以作为药物靶,可以预测这个数目将在几千之上,这个前景将导致基因组研究在药物研究和开发中的大规模开展。一些例子可以说明这一点:
⑴神经递质(5-HT)通过化学门控通道介导快速兴奋响应。以前识别的5-HT3A受体基因产生功能受体,但是比在活体内有小得多的电导。交叉杂交实验和EST分析在揭示已知受体的其他同源体上都失败了。
然而,最近,通过对人类基因组序列草图的低要求检索,一个推定的同源体被识别,在一个PAC克隆中第11号染色体长臂上。同源体显示在纹状体、尾状核、海马中表达,全长cDNA随后得到。这个编码胺受体地基因,被命名为5-HT3B。当与5-HT3A组合成异二聚体中,它显示负责大电导神经胺通道。假定胺途径在精神疾病和精神分裂症的中心作用,一个主要的新的治疗靶的发现是相当有兴趣的。
⑵半胱氨酰基白三烯的收缩和炎症作用,先前认为是过敏反应的慢反映物质(SRS-A),通过特定的受体介导。第二个类似的受体,CysLT2,使用老鼠EST和人类基因组序列的重组得到识别。这导致了与先前识别的唯一的其它受体有38%氨基酸一致性的基因的克隆。这个新的受体,显示高的亲和力和几个白三烯的结合,映射在与过敏性哮喘有关的第13号染色体区域上。这个基因在气道平滑肌和心脏中表达。作为白三烯途径中抗哮喘药物开发中一个重要的靶,新受体的发现有明显的重要的作用。
⑶ Alzheimer疾病在老年斑中有丰富的β-淀粉样物沉积。β-淀粉样物由前体蛋白(APP)蛋白水解生成。有一个酶是β位 APP裂开酶,是跨膜天冬氨酸蛋白酶。公共的人类基因组草图序列计算机搜索最近识别了BACE的一个新的同源序列,编码一个蛋白,命名为BACE2,它与BACE有52%的氨基酸序列一致性。包含两个激活蛋白酶位点和象APP一样,映射到第21条染色体的必须Down综合症区域。它提出了问题,BACE2和APP过多的拷贝是否有功于加速Down综合症病人的脑部β-淀粉样物沉积。
给出了这些例子,我们在基因组序列中进行系统的识别传统药靶蛋白质的旁系同源体。使用的靶列表在SwissPrott数据库中识别了603个入口,有唯一的访问码。
基础生物学
一个例子是:解决了困扰研究者几十年的一个神秘课题:苦味的分子学基础。人类和其他动物对于某一种苦味有不同的响应(响应的多态性)。最近,研究者将这个特征映射到人类和老鼠中,然后检索了G蛋白偶合受体的人类基因组序列草图上的相关区域。这些研究很快导致了该类蛋白的新家族的发现,证明了它们几乎都在味蕾表达,实验证实了在培养细胞中的受体响应特定的苦基质。
人体基因组图谱是全人类的财产,这一研究成果理应为全人类所分享、造福全人类,这是参与人类基因组工程计划的各国科学家的共识。值得关注的是,目前在人类基因组研究领域,出现了一些私营公司争相为其成果申请专利的现象。美国塞莱拉基因公司曾表示,想把一部分研究成果申请专利,有偿提供给制药公司。
找到了一批主宰人体疾病的重要基因
如:肥胖基因、支气管哮喘基因。这类基因的新发现每年都有新报道。这些基因的发现,增进了人们对许多重要疾病机理的理解,并且推动整个医学思想更快的从重治疗转向重预防。例如:湖南医科大学夏家辉教授组于1998528发表克隆了人类神经性高频性耳聋的致病基因(GJB3),这是第一次在中国克隆的基因。
在人类基因组计划的推动下,涌现了几门崭新的学科。如:基因组学(genomics)和生物信息学(bioinformatics)
生物技术的产业化。一批世界级的大公司纷纷把它们的重心转向生命科学研究和生物技术产品。这种趋势或潮流也不能不说和人类基因组计划密切相关。
进展与未来
2000年6月26日,参加人类基因组工程项目的美国、英国、法兰西共和国、德意志联邦共和国、日本和中国的6国科学家共同宣布,人类基因组草图的绘制工作已经完成。最终完成图要求测序所用的克隆能忠实地代表常染色体的基因组结构,序列错误率低于万分之一。95%常染色质区域被测序,每个Gap小于150kb。完成图将于2003年完成,比预计提前2年。
完成人类基因组序列完成图
⑴ 从当前物理图谱生成的克隆产生完成的序列,覆盖基因组的常染色质区域大于96%。大约1Gb的完成序列已经实现。剩下的也已经形成草图,所有的克隆期望达到8~10倍的覆盖率,大约2001年中期(9999%的正确率),使用已经建立的和日益自动化的协议。
⑵ 检测另外的库来关闭gaps。使用FISH技术或其他方法来分析没有闭合的Gaps大小。22,21条染色体用这种方式。2003年已经完成。
⑶ 开发新的技术来关闭难度较大的gaps,大约几百个。
基因组序列工作框架图(Working draft):通过对染色体位置明确的BAC连续克隆系4-5倍覆盖率的测序(在BAC克隆水平的覆盖率不应低于3倍),获得基因组90%以上的序列,其错误率应低于1%。工作框架图可用于基因组结构的认识、基因的识别和解析、疾病基因的定位克隆,SNP的发现等。
草图的作用
1、草图,许多疾病相关的基因被识别
2、SNP(人与人之间的区别),草图提供了一个理解遗传基础和人类特征进化的框架。
3、草图后,研究人员有了新的工具来研究调节区和基因网络。
4、比较其它基因组可以揭示共同的调控元件,和其他物种共享的基因的环境也许提供在个体水平之上的关于功能和调节的信息。
5、草图同样是研究基因组三维压缩到细胞核中的一个起点。这样的压缩可能影响到基因调控
6、在应用上,草图信息可以开发新的技术,如DNA芯片、蛋白质芯片,作为传统方法的补充,目前,这样的芯片可以包含蛋白质家族中所有的成员,从而在特定的疾病组织中可以找到那些是活跃的。
2001年2月12日,美国Celera公司与人类基因组计划分别在《科学》和《自然》杂志上公布了人类基因组精细图谱及其初步分析结果。其中,政府资助的人类基因组计划采取基因图策略,而Celera公司采取了“鸟q策略”。至此,两个不同的组织使用不同的方法都实现了他们共同的目标:完成对整个人类基因组的测序的工作;并且,两者的结果惊人的相似。整个人类基因组测序工作的基本完成,为人类生命科学开辟了一个新纪元,它对生命本质、人类进化、生物遗传、个体差异、发病机制、疾病防治、新药开发、健康长寿等领域,以及对整个生物学都具有深远的影响和重大意义,标志着人类生命科学一个新时代的来临。
众多的发现
1、分析得知:全部人类基因组约有291Gbp,约有39000多个基因;平均的基因大小有27kbp;其中G+C含量偏低,仅占38%,而2号染色体中G+C的含量最多;到目前仍有9%的碱基对序列未被确定,19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少等等(具体信息可参见cmbi 特别报道:生命科学的重大进展)。
2、目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能,在已知基因中酶占1028%,核酸酶占75%,信号传导占122%,转录因子占60%,信号分子占12%,受体分子占53%,选择性调节分子占32%,等。发现并了解这些功能基因的作用对于基因功能和新药的筛选都具有重要的意义。
3、基因数量少得惊人:一些研究人员曾经预测人类约有14万个基因,但Celera公司将人类基因总数定在26383万到39114万个之间,不超过40,000,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。如此少的基因数目,而能产生如此复杂的功能,说明基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义,也说明人类的基因较其他生物体更'有效',人类某些基因的功能和控制蛋白质产生的能力与其他生物的不同。这将对我们目前的许多观念产生重大的挑战,它为后基因组时代中生物医学的发展提供新的非凡的机遇。但由于基因剪切,EST数据库的重复以及一些技术和方法上的误差,将来亦可能人类的基因数会多于4万。
4、人类单核苷酸多态性的比例约为1/1250bp,不同人群仅有140万个核苷酸差异,人与人之间9999%的基因密码是相同的。并且发现,来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。
5、人类基因组中存在“热点”和大片"荒漠"。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” ——不包含或含有极少基因的成分。基因组上大约有1/4的区域没有基因的片段。在所有的DNA中,只有1%-15%DNA能编码蛋白,在人类基因组中98%以上序列都是所谓的“无用DNA”,分布着300多万个长片断重复序列。这些重复的“无用”序列,决不是无用的,它一定蕴含着人类基因的新功能和奥秘,包含着人类演化和差异的信息。经典分子生物学认为一个基因只能表达一种蛋白质,而人体中存在着非常复杂繁多的蛋白质,提示一个基因可以编码多种蛋白质,蛋白质比基因具有更为重要的意义
6、男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在Y染色体上进行的。所以,可能男性在人类的遗传中起着更重要的作用。
7、人类基因组中大约有200多个基因是来自于插入人类祖先基因组的细菌基因。这种插入基因在无脊椎动物是很罕见的,说明是在人类进化晚期才插入我们基因组的。可能是在我们人类的免疫防御系统建立起来前,寄生于机体中的细菌在共生过程中发生了与人类基因组的基因交换。
8、发现了大约一百四十万个单核苷酸多态性,并进行了精确的定位,初步确定了30多种致病基因。随着进一步分析,我们不仅可以确定遗传病、肿瘤、心血管病、糖尿病等危害人类生命健康最严重疾病的致病基因,寻找出个体化的防治药物和方法,同时对进一步了解人类的进化产生重大的作用。
9、人类基因组编码的全套蛋白质(蛋白质组)比无脊椎动物编码的蛋白质组更复杂。人类和其他脊椎动物重排了已有蛋白质的结构域,形成了新的结构。也就是说人类的进化和特征不仅靠产生全新的蛋白质,更重要的是要靠重排和扩展已有的蛋白质,以实现蛋白质种类和功能的多样性。有人推测一个基因平均可以编码2-10种蛋白质,以适应人类复杂的功能。
模式生物:酵母(yeast)、大肠杆菌(Escherichia coli)、果蝇(Drosophila melanogaster)、线虫(Caenorhabditis elegans)、小鼠(Mus musculus)、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。
目前基因组学的研究出现了几个重心的转移:一是将已知基因的序列与功能联系在一起的功能基因组学研究;二是从作图为基础的基因分离转向以序列为基础的基因分离;三是从研究疾病的起因转向探索发病机理;四是从疾病诊断转向疾病易感性研究。
在后基因组时代,如果在已完成基因组测序的物种之间进行整体的比较、分析,希望在整个基因组的规模上了解基因组和蛋白质组的功能意义,包括基因组的表达与调控、基因组的多样化和进化规律以及基因及其产物在生物体生长、发育、分化、行为、老化和治病过程中的作用机制都必须发展新的算法以充分利用超级计算机的超级计算能力。
美国和英国科学家2006年5月18日在英国《自然》杂志网络版上发表了人类最后一个染色体——1号染色体的基因测序。
在人体全部22对常染色体中,1号染色体包含基因数量最多,达3141个,是平均水平的两倍,共有超过223亿个碱基对,破译难度也最大。一个由150名英国和美国科学家组成的团队历时10年,才完成了1号染色体的测序工作。
科学家不止一次宣布人类基因组计划完工,但推出的均不是全本,这一次杀青的“生命之书”更为精确,覆盖了人类基因组的99.99%。解读人体基因密码的“生命之书”宣告完成,历时16年的人类基因组计划书写完了最后一个章节。
2、疾病基因的定位克隆
人类基因组计划的直接动因是要解决包括肿瘤在内的人类疾病的分子遗传学问题。6000多个单基因遗传病和多种大面积危害人类健康的多基因遗传病的致病基因及相关基因,代表了对人类基因中结构和功能完整性至关重要的组成部分。所以,疾病基因的克隆在HGP中占据着核心位置,也是计划实施以来成果最显著的部分。
在遗传和物理作图工作的带动下,疾病基因的定位、克隆和鉴定研究已形成了,从表位→蛋白质→基因的传统途径转向“反求遗传学”或“定位克隆法”的全新思路。随着人类基因图的构成,3000多个人类基因已被精确地定位于染色体的各个区域。今后,一旦某个疾病位点被定位,就可以从局部的基因图中遴选出相关基因进行分析。这种被称为“定位候选克隆”的策略,将大大提高发现疾病基因的效率。
3、多基因病的研究
目前,人类疾病的基因组学研究已进入到多基因疾病这一难点。由于多基因疾病不遵循孟德尔遗传规律,难以从一般的家系遗传连锁分析取得突破。这方面的研究需要在人群和遗传标记的选择、数学模型的建立、统计方法的 改进等方面进行艰苦的努力。近来也有学者提出,用比较基因表达谱的方法来识别疾病状态下基因的激活或受抑。实际上,“癌肿基因组解剖学计划(Cancer Genome Anatomy Project,CGAP”就代表了在这方面的尝试。
展望
1、生命科学工业的形成
由于基因组研究与制药、生物技术、农业、食品、化学、化妆品、环境、能源和计算机等工业部门密切相关,更重要的是基因组的研究可以转化为巨大的生产力,国际上一批大型制药公司和化学工业公司大规模纷纷投巨资进军基因组研究领域,形成了一个新的产业部门,即生命科学工业。
2、功能基因组学
人类基因组计划当前的整体发展趋势是什么?一方面,在顺利实现遗传图和物理图的制作后,结构基因组学正在向完成染色体的完整核酸序列图的目标奋进。另一方面,功能基因组学已提上议事日程。人类基因组计划已开始进入由结构基因组学向功能基因组学过渡、转化的过程。在功能基因组学研究中,可能的核心问题有:基因组的表达及其调控、基因组的多样性、模式生物体基因组研究等。
2)蛋白质组学研究
蛋白质组学研究是要从整体水平上研究蛋白质的水平和修饰状态。目前正在发展标准化和自动化的二维蛋白质凝胶电泳的工作体系。首先用一个自动系统来提取人类细胞的蛋白质,继而用色谱仪进行部分分离,将每区段中的蛋白质裂解,再用质谱仪分析,并在蛋白质数据库中通过特征分析来认识产生的多肽。
蛋白质组研究的另一个重要内容是建立蛋白质相互关系的目录。生物大分子之间的相互作用构成了生命活动的基础。组装基因组各成分间的详尽作图已在T7噬菌体(55个基因)获得成功。如何在模式生物(如酵母)和人类基因组的研究中建立自动方法,认识不同的生化通路,是值得探讨的问题。
3)生物信息学的应用
目前,生物信息学已大量应用于基因的发现和预测。然而,利用生物信息学去发现基因的蛋白质产物的功能更为重要。模式生物体中越来越多的蛋白质构建编码单位被识别,无疑为基因和蛋白质同源关系的搜寻和家族的分类提供了极其宝贵的信息。同时,生物信息学的算法、程序也在不断改善,使得不仅能够从一级结构,也能从估计结构上发现同源关系。但是,利用计算机模拟所获得的理论数据,还需要经过实验经过的验证和修正。
⑵基因组多样性的研究
人类是一个具有多态性的群体。不同群体和个体在生物学性状以及在对疾病的易感性与抗性上的差别,反映了进化过程中基因组与内、外部环境相互作用的结果。开展人类基因组多样性的系统研究,无论对于了解人类的起源和进化,还是对于生物医学均会产生重大的影响。
1)对人类DNA的再测序
可以预测,在完成第一个人类基因组测序后,必然会出现对各人种、群体进行再测序和精细基因分型的热潮。这些资料与人类学、语言学的资料项结合,将有可能建立一个全人类的数据库资源,从而更好地了解人类的历史和自身特征。另外,基因组多样性的研究将成为疾病基因组学的主要内容之一,而群体遗传学将日益成为生物医药研究中的主流工具。需要对各种常见多因素疾病(如高血压、糖尿病和精神分裂症等)的相关基因及癌肿相关基因在基因组水平进行大规模的再测序,以识别其变异序列。
总之,模式生物体的基因组计划为人类基因组的研究提供了大量的信息。今后,模式生物体的研究方向是将人类基因组8~10万个编码基因的大部分转化为已知生化功能的多成分核心机制。而要获得酶一种人类进化保守性核心机制的精细途径,以及它们的紊乱导致疾病的各种途径的知识,将只能来自对人类自身的研究。
通过功能基因组学的研究,人类最终将将能够了解哪些进化机制已经确实发生,并考虑进化过程还能够有哪些新的潜能。一种新的解答发育问题的方法可能是,将蛋白质功能域和调控顺序进行重新的组合,建立新的基因网络和形态发生通路。也就是说,未来的生物科学不仅能够认识生物体是如何构成和进化的,而且更为诱人的是产生构建新的生物体的可能潜力。该计划在人类科学史上又竖起了一座新的里程碑!这是一项改变世界,影响人类生活的壮举,随着时间的推移,它的伟大意义将愈显昭彰。
叠编辑本
虽然人类已经经过多年的努力,但解开生命之谜的愿望还未实现。以往的失败使大家认识到,单靠一门学科的独自努力太局限了,难以完成人类对自身的认识和保护。美国投巨资的肿瘤十年计划基本上以失败告终就说明这个问题。现在,人们认识到先认识全局再研究局部也许会讯捷和方便的多
完成测序后意味着结构基因组学的结束。所以,人们在从事人类基因组计划的同时,又同时盯上了人类基因组计划以后的领域,也就是所谓"后基因组计划"。使用"功能基因组学"一词也许能更好的表达这一设想的实质。在阅读了人类基因组全序列后,我们还想知道这些序列起到的作用是什么?具有那一类的功能?生命的整体现象是如何形成的?等等,这一定将成为功能基因组学的主流。
功能基因组学延伸的内容有:人类基因组多样性计划、环境基因组学、肿瘤基因组解剖学计划及药物基因组学等。其核心问题一般包括:基因组多样性、遗传疾病产生的起因、基因的表达调控的协调作用以及蛋白质产物的功能等。模式生物体在研究功能基因组学中将起到重要的工具作用。此外,HGP及其延伸内容决定性的成功取决于生物信息学和计算机生物学的发展和应用,主要体现在数据库对数据的储存能力和分析工具的开发。这些都将成为人类基因组计划延伸篇中的主要内容
以上就是关于什么是后基因组时代全部的内容,包括:什么是后基因组时代、数据库医生查询表的信息代码怎么填、基因组计划的内容及研究进展等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)