中国基因网您的位置:首页 >基因科普 >

寻找具有宏基因组序列的结构

对于蛋白质,外观很重要。这些重要分子主要形成细胞结构并发挥其功能:蛋白质控制生长并影响迁移,作为催化剂,运输或储存其他分子。由长氨基酸链组成,一维氨基酸序列在纸上可能看起来毫无意义。然而,从三个维度来看,研究人员可以看到蛋白质的结构是什么,蛋白质的结构,特别是它的折叠方式,决定了它的功能。

寻找具有宏基因组序列的结构

在数据库Pfam中有近15,000个蛋白质家族 - 共享进化起源的家族群体。对于近三分之一(4,752)的这些蛋白质家族,每个家族中至少有一种蛋白质已经具有实验确定的结构。对于另外三分之一(4,886)的蛋白质家族,可以建立具有一定程度信心的比较模型。然而,对于数据库中最后的第三个(5,211)蛋白质家族,不存在结构信息。

在2017年1月20日的“ 科学”杂志上,华盛顿大学的David Baker与美国能源部联合基因组研究所(DOE JGI)的研究人员合作,该组织是美国能源部科学用户设施办公室,他们报告说,结构模型有已经生成614%或12%的蛋白质家族,这些家族以前没有结构信息。“这可以通过计算建模方法完成,但在5年前并不明显,”该团队在他们的论文中指出。通过合作,Baker实验室的蛋白质结构预测服务器Rosetta分析了综合微生物基因组(IMG)上公开的宏基因组序列,从而实现了这一成就。 系统由DOE JGI运行。

“大量的蛋白质家族(在Pfam中)具有较少的序列,”研究第一作者谢尔盖·奥夫琴尼科夫说,他是贝克实验室的研究生。“这导致了两个后果:1)没有人关心这些家庭(因为他们很小); 并且,2)共同进化方法不能用于研究它们。使用宏基因组学,我们发现,到目前为止,只有少数序列的一些被忽视的家族,当考虑到宏基因组学数据时,现在可以变得像一些研究最多的家族一样大!此外,我们可以提供来自家庭的代表性序列的3D模型。我们希望这会引起一些家庭的兴趣。“

有了基因组序列,像Baker这样的研究人员已经能够识别出同时进化的氨基酸组,即使它们在展开链上彼此不相邻。这些事件表明这些氨基酸是折叠蛋白质中的邻居,为研究人员提供了关于蛋白质结构的暗示。结构接近可以表明功能关系,因此作用于功能的自然选择不仅有利于一种氨基酸,而且有利于该组中的所有氨基酸。

DOE JGI原核生物超级计划主管Nikos Kyrpides表示,Baker实验室与DOE JGI之间的合作使该团队能够提出一种预测结构和结构对齐的强大方法。“此类努力以前仅限于在分离基因组上发现的序列产生的蛋白质家族。这些基因组包含约2亿个序列。正如预期的那样,当我们添加我们的宏基因组数据时,利用我们的IMG / M数据库中可用的50亿个组装的宏基因组序列,我们能够显着增加许多已知蛋白质家族的覆盖率。像这样的努力在很大程度上取决于组装的宏基因组序列的可用性,这是DOE JGI用我们的高质量组件带来的优势。“

Kyrpides补充说,这项工作,也涉及DOE JGI研究人员Neha Varghese和George Pavlopoulos,体现了他希望看到鼓励的另一种合作。“人们来找我们是因为我们正在维持最大的组装宏基因组整合。这些工具在我们的数据上的应用提供了一个很好的例子,说明更大的社区如何利用JGI资源进行发现。我们非常希望通过JGI与国家能源研究科学计算中心(NERSC)之间的新数据科学电话会议,看到更多这样的成功案例。“

该JGI-NERSC微生物组数据科学调用将使用户能够执行国家的最先进的计算基因组学和环境基因组学研究,并帮助他们翻译序列信息,由DOE JGI或其他地方产生,到生物的发现。该提案呼吁建立在“用户科学合作设施”(FICUS)倡议的成功基础之上,该倡议旨在鼓励并使研究人员能够更轻松地将多个国家用户设施的专业知识和能力整合到他们的研究中。JGI-NERSC协作科学电话的申请目前正在接受,直到2017年3月1日。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容