中国基因网您的位置:首页 >基因科普 >

解读人类基因组中的功能

从揭示DNA的双螺旋到编码构成人类完整基因蓝图的大约30亿个代码的序列,我们的内在发现之旅充满了历史性的里程碑。实现对人类基因组的理解 - 例如,人类基因组中编码的信息,以及它如何发挥作用以及如何与环境相互作用 - 是一项令人兴奋的科学事业,因为它有可能揭示我们的DNA如何产生所有人的关键见解构建人类所需的蛋白质。这些知识将对生物学和医学领域的众多前沿问题产生广泛的影响,包括基因调控,个体间的自然差异,疾病易感性和人类进化。

解读人类基因组中的功能

然而,阅读和解释人类基因组序列已被证明是非常具有挑战性的。科学家已经能够识别大约21,000个蛋白质编码基因,这在很大程度上是通过使用很久以前建立的遗传密码。但是这些蛋白质编码区仅构成人类基因组的约1%,并且基因组的其他功能部分不存在类似的代码。多年来积累的证据表明,至少有一部分剩余的99%的基因组对于调节基因表达至关重要,但我们缺乏全球观点,即基因组的功能有多大,这些其他功能区域位于何处,以及他们活跃的细胞类型。

为了解决这方面的差距,DNA元素百科全书(ENCODE)于2003年启动,作为理解如何解释锁定在基因组中的信息的下一步骤之一。ENCODE项目由国家人类基因组研究所(NHGRI)资助,旨在系统地识别和编目所有功能元素 - 遗传蓝图的一部分,这些元素可能对指导我们的细胞功能至关重要 - 存在于我们的DNA中。最初建立的重点是人类基因组1%的试点项目,ENCODE在2007年被扩展到全基因组分析; 同年,一个名为modENCODE的相关项目被启动,以绘制蠕虫(C. elegans)和苍蝇(D. melanogaster)中的所有功能区域。)基因组。在其扩大规模阶段,ENCODE项目是由32个研究小组组成的联盟的大规模合作,该小组由400多名科学家组成。

这项雄心勃勃的努力的主要成果现已在2012年9月6日发表的30篇协调论文中报道,自然,基因组研究和基因组生物学问题,以及ENCODE资助的其他科学,细胞和核酸研究论文。它们共同突出了对15万亿字节原始数据的初步分析,这些原始数据来自涉及147种细胞类型的1640个数据集。

在这些宝库数据中,研究人员发现超过80%的人类基因组至少有一种生物化学活性。虽然目前还不知道所有这些DNA是否都有助于细胞功能,但大多数DNA都可以转录成RNA。此外,近20%的基因组与DNase超敏反应或转录因子结合有关,这两种常见特征用于鉴定调节区。这些测量值都比先前估计的要高得多,即5-10%的基因组是功能性的。

值得注意的是,确定了超过400万个似乎是监管区域或“交换机”的区域。这些开关很重要,因为它们可以以不同的组合使用,以控制打开和关闭哪些基因,以及它们的表达时间,地点和程度。实际上,这提供了用于确定身体中不同细胞类型的特征和功能的精确指令。这些监管开关的变化,特别是那些调节关键生物过程的变化,可以因此影响疾病的发展。人类基因组中发现的惊人的基因调控活性是惊人的,因为更多的基因组编码监管指令而不是蛋白质,并提出了关于基因组如何参与健康和疾病的各种复杂问题。

作为生物医学研究的基础信息资源,ENCODE项目提供的数据可通过ENCODE门户网站公开访问。现在已生成这些分析中使用的数据量的两倍以上,并通过此门户提供。

除了单独的论文之外,还根据探索特定科学主题的“线程”组织了结果。这种在不同期刊中合并,组织和呈现来自不同论文的相关部分的数据的新方法有助于通过生成的大量数据和分析来促进更好的用户导航。

ENCODE结果已经影响了科学家们对新数据和现有数据的思考方式。例如,自然界中的线程#12ENCODE网站侧重于功能信息对理解人类基因组内遗传变异的影响。全基因组关联研究(GWAS)先前已用于梳理与特定人类疾病或其他特征相关的区域的基因组。通过比较数百到数千人的DNA序列,无论是否存在特定疾病,研究人员已经能够识别含有与疾病相关的变体的区域。有趣的是,在非编码区域中发现了超过90%的这些变体。然而,由于给定区域内的遗传变异可能与同一区域内的许多其他变异相关,因此难以确定哪些变体对增加的疾病风险具有因果贡献。

但是,当研究人员将ENCODE鉴定的非编码功能元件的位置与GWAS先前确定的疾病相关遗传变异进行比较时,他们发现两者之间存在惊人的相关性:与疾病或其他特征相关的遗传变异在基因组。这是令人兴奋的,因为它提供了一个总体框架,用于查看许多不同的疾病(包括阿尔茨海默氏症,糖尿病,心脏病和癌症) - 并确定导致它们的众多遗传变异 - 超出了编码蛋白质的DNA背景。

即使在其非凡的科学贡献之外,ENCODE项目的结构模型也从根本上改变了大规模科学项目的实施方式。诸如ENCODE分析虚拟机等资源提供对各种分析阶段的访问,包括输入数据集,分析方法和代码包。ENCODE软件工具,数据标准,实验指南和质量指标均可在ENCODE门户网站免费获取。这使得其他研究人员能够独立评估和复制数据和分析 - 重点是科学访问,透明度和可重复性 - 或者使用类似的方法来分析他们自己的数据。

迄今为止,来自ENCODE之外的实验室的170份出版物在人类疾病,基础生物学和方法开发方面的工作中使用了ENCODE数据。通过建立基础参考数据集以及相应的分析资源,科学家们预计未来几年将会有进一步的突破。

然而,这只是一个开始,在我们能够从基因组序列中提取所有功能和疾病相关的读数之前还有许多工作要做。瞥一眼各种线索将表明未来的挑战很多,从计算和分析挑战到揭示基因调控的复杂机制。了解DNA代码的线性2D序列如何与折叠DNA的复杂3D分形模式相关联,这对于塑造调节网络相互作用非常重要,这也是必不可少的。

ENCODE制定的基础对于帮助我们弄清楚遗传变异如何影响基因调控,人类健康和疾病将是非常宝贵的。为了扩大和建立对人类基因组的更全面的了解,NHGRI再次资助ENCODE项目四年,通过研究其他细胞类型和因素来深化功能元素目录; 这个扩建阶段还将关注新的数据分析方法。通过在正常和疾病条件下更好地理解遗传学,我们最终将能够实现将个性化基因组测序和个性化基因组医学带入临床的全部潜力。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容