北京那个医院治疗白癜风最好 https://baike.baidu.com/item/%E5%8C%97%E4%BA%AC%E4%B8%AD%E7%A7%91%E7%99%BD%E7%99%9C%E9%A3%8E%E5%8C%BB%E9%99%A2/9728824?fr=aladdin人类基因组计划(HumanGenomeProject,HGP)的完成标志着科学家们已将人类的一个完整的遗传密码握在手中。而与这些密码相关的其他内容同时也在静静地参与导演着生命的全过程。于是,一场更加盛大的探究基因组中功能元件的活动拉开了帷幕,DNA元件百科全书(theEncyclopediaofDNAElement,ENCODE)计划应运而生。ENCODE项目的目标是建立人类基因组中全部具有功能性的元件清单,包括在蛋白质和RNA水平上起作用的元件,以及活跃细胞与协同环境的调控元件。
背景资料
ENCODE计划自年9月正式启动(ENCODEProjectConsortium,),吸引了来自美国、英国、西班牙、日本和新加坡等5个国家的32个研究机构、多名科学家共同参与。迄今为止,该计划研究了个组织类型,进行了8次实验,获得并分析了超过15万亿字节的原始数据,确定了万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异,甚至证明我们之前认为的“垃圾DNA”(junkDNA)很可能是十分有用的基因成分,担任着基因调控重任。
人类对生物遗传信息的探索,可以追溯到大约19世纪中叶奥地利帝国的遗传学家格雷戈尔·孟德尔种下那些豌豆起,人类开启了对“遗传”这件事孜孜不倦的探索。一直到20世纪50年代,沃森和克里克第一次解锁脱氧核糖核酸(DNA)的双螺旋结构,才正式拉开人类探索生命密码单位的序幕,也将DNA与遗传密码联系起来。总体来看,人们对生命物质的认识大概分为四个阶段:
第一阶段为细胞学遗传基础——染色质;第二阶段为分子学遗传基础——DNA双螺旋结构;第三阶段为信息学遗传基础,即发现基因读取的生物学机制,并能够通过DNA重组技术进行生物克隆;第四个阶段则是从20世纪80年代一直持续到21世纪初的人类基因组计划。
科学家们用20多年的时间,破译了数百个病*和质粒的序列、细胞器及94%左右的人类基因组序列。然而,跨越一个多世纪的遗传研究表明,仅仅知道序列是不够的。
科学家们怎么做的
要搞清ENCODE计划究竟做了些什么,我们要先看看ENCODE计划是怎么做的。这就不得不提一系列先进的生物测序技术(详细介绍略)。
▲ENCODE计划主要使用的技术方法(引自ENCODE计划官方网站)
3C、5C、Hi-C及ChIA-PET技术DNase-Seq、FAIRE-Seq、ATAC-Seq、ChIP-Seq和MNase-Seq技术WGBS和RRBS技术计算机生物学预测技术RNA-Seq技术
▲DNase-Seq、FAIRE-Seq、ATAC-Seq、ChIP-Seq和MNase-Seq技术的作用方式(MayerLiu,)
在ENCODE计划中,科学家得到什么
▋80%的基因组与生化有关
最初,科学家们曾经认为生物体内的基因组中,只有部分基因发挥着生物学功能;也就是说,存在着众多的所谓“垃圾基因”(junkDNA)。但随着ENCODE计划的展开,这些曾经的“垃圾基因”似乎同样在生命的形成过程中发挥着不可替代的重要作用。在DNA与DNA之间,充满了增强子、启动子和无数之前忽视的能够编码RNA转录但不翻译成蛋白质的区域(非蛋白质编码区)。科学家们研究发现基因组中80%的区域可能承担着生化功能(ENCODEProjectConsortium,),这些调控元件在空间上密切联系,同时调控着蛋白编码区基因的表达,关系着与DNA突变相关的疾病的发生。
▋建立转录因子网络:基因调控存在远程干预
除了要寻找蛋白X与DNA元件Y的简单关系外,ENCODE计划的科学家还在寻找转录因子之间的优先关系和相互关系。除了染色体上基因和转录本的线性组织外,还有一个更复杂(而且仍然很难理解)的染色体环和扭曲网络。通过这个网络,启动子和更多的远端元件,如增强子,相互传递它们的调控信息。Sanyal等()在每种细胞类型中绘制了多个类似的远程信号。他们的发现推翻了长期以来科学家对基因表达调控的假说,即一个基因的调控是由它最邻近的调控元件所主导的。
▋作为人类基因组计划的延续
一旦科学家们完成了基因组测序,就需要进一步对染色质进行全面的、百科全书式的认知。而在ENCODE计划执行至今,突出了转录因子在塑造染色质方面的关键作用。
Thurman团队发现(Thurmanetal.,),开放的染色体能够被酶切是由于DNA结合蛋白(DNA-bindingprotein)使核小体移位并对其进行置换造成的。它们是远离启动子位置的、细胞特异性增强子的标志,这种现象称之为DHS。相继有大量论文揭示了DHS的存在——每种细胞类型超过个位点。这个数量相当惊人,已经远远超过启动子的数量,以及它们在细胞类型之间的异质性。通过同时存在于同一细胞类型的DHS和附近的活性启动子研究,研究人员将50万个增强子与其可能的目标基因进行配对,使得多万种可能的增强子没有了已知的目标靶点。那么它们从哪里来,准备到哪里去呢?无疑,这些研究结果提示了调控基因组的一种全新的未知格局。染色体构象捕捉法应运而生,用以检测远距离DNA区域之间的桥梁联系。
▲染色体开放区中的DHS(DNaseI超敏结合位点)(Eckeretal.,)
▋生物计算时代的来临
人类基因组计划及ENCODE计划产生了海量的数据,对有效甚至高效的计算和数据分析提出了挑战。ENCODE计划中,产生的每个碱基对的可及性、甲基化、转录状态、染色质结构和结合分子的初步数据,都需要对原始数据进行有效的处理。
对于上文中谈到的每一种分析方法,ENCODE研究人员设计了新的处理算法,从而消除异常值和偏倚,并确保导出的功能信息的可靠性。在此基础上,这些研究数据的处理流程和质控措施,被规范成相关分析数据的标准。
除了运算方法外,ENCODE计划中对结合DNA甲基化、DNA可及性和转录因子表达的综合情况,进行数据分析,也是这次研究计划的重要部分。Thurman等()对DNA甲基化在基因沉默中的因果作用进行了研究。他们发现,在表达这些转录因子的细胞类型中,转录因子结合位点的甲基化频率较低。这说明结合位点的甲基化通常是由一种不受转录因子约束的位点甲基化的被动机制造成的。
▋演化生物学壮大的蓝图
演化生物学面临的重大挑战之一是了解物种间DNA序列的差异如何决定其表型的差异。演化的变化可能是通过改变蛋白质编码序列和改变调节基因序列来实现的。随着研究的不断展开,人们越来越认识到这种调控演变的重要性。有人认为,蛋白质编码序列的潜在适应性变化可能被自然选择所阻止,因为即使它们在一种细胞类型或组织中是有益的,它们在生物体的其他地方也可能是有害的。相反,由于基因调控序列经常与特定时间和空间上特定的基因表达模式相关联,这些区域的变化可能只在特定时间改变某些细胞类型的功能,从而使它们更有可能具有演化优势。
然而,到目前为止,几乎没有关于哪些基因组区域具有调控活性的信息。ENCODE项目提供了这些调控元素的第一份蓝图,并使我们更接近基因组学的一个重要目标——了解人类基因组中每一个位置的功能作用。
ENCODE计划的野心与未来
ENCODE(以及类似的项目)未来的主要挑战之一将是捕捉基因调控的动态变化。从前面的描述中可以看出,ENCODE的已有研究中,大多数分析只是提供了细胞调节事件的瞬时快照,而捕捉这些过程如何变化的时间序列显得更加重要。此外,按照目前的分析要求,对大量细胞的检查可能会过于简化对潜在复杂性的研究,例如,成批的单个细胞(尽管在基因上是相同的)有时会表现出不同的行为方式。开发旨在同时捕获多种数据类型的新技术及其在单细胞中的动态监控,将有助于解决这些问题。
截止到成稿阶段,ENCODE已经完成了ENCODEPilotProject、ENCODE2、ENCODE3三个阶段。前三个计划从