中国基因网您的位置:首页 >行业资讯 >

如何利用大数据捕获鱼类基因组

如果你在美国吃鱼,很可能曾经在另一个国家游过鱼。据联合国估计,这是因为美国进口的海鲜超过80%。新的基因研究可以帮助养殖鱼类更加美味,并将美国的野生鱼类带到餐桌上。科学家利用大数据和超级计算机捕获鱼类基因组,这是其可持续水产养殖收获的第一步。

如何利用大数据捕获鱼类基因组

研究人员首次汇集并注释了基因组 - 鱼类物种Seriola dorsalis的总遗传物质。也被称为加利福尼亚黄尾鱼,它是生鱼片或生海鲜产业的高价值的鱼。该科学团队由美国国家海洋渔业局西南渔业科学中心,爱荷华州立大学和墨西哥国家政治研究所组成。他们于2018年1月在BMC Genomics期刊上发表了他们的研究结果。

该研究的共同作者,基因组信息学科学家和设施经理Andrew Severin说:“该出版物的主要发现是对Seriola dorsalis基因组及其注释进行描述,同时更好地了解这种鱼类的性别决定。”爱荷华州立大学的设施。

“我们现在可以自信地说,”Severin补充说,“Seriola dorsalis有一个ZW性别决定系统,我们知道它所包含的染色体以及实际决定这种鱼性别的区域。”ZW是指性染色体,取决于雄性或雌性是否是杂合的(XX,XY或ZZ,ZW)。另一种思考方式是,在ZW性别测定中,鱼卵的DNA分子决定了后代的性别。相比之下,在XY性别决定系统中,这种情况在人类中发现,精子决定了后代的性别。

很难区分雄性和雌性黄尾鱼,因为它们没有任何明显的表型或外在物理特征。“能够确定鱼类的性别非常重要,因为我们可以开发出一种标记物,可以用来确定幼鱼的性别,而这种标记是你无法用表型确定的,”Severin解释道。“这可以用来改善水产养殖实践。”性别鉴定可以让养殖渔民储备适当比例的雄性和雌性,并获得更好的产量。

组装和注释基因组就像构建一个巨大的三维拼图游戏。Seriola dorsalis基因组有6.85亿个片段 - 它们的DNA碱基对 - 组合在一起。“基因注释是基因组上编码转录成蛋白质的转录本的位置,”Severin解释道。“蛋白质是从食物消化到免疫系统激活到指甲生长的全身生物化学运作的分子机制。即使这是对所有规则的过度简化。”

Severin和他的团队汇集了来自数千个较小片段的685兆碱基(MB)对的基因组,每个片段都提供信息以形成完整的图像。研究报告的共同作者Arun Seetharam说:“为了构建完整的685 MB基因组,我们必须对它们进行相当深度的测序。”“这相当于大量的数据,”爱荷华州立大学基因组信息学设施的副科学家Seetharam补充说。

原始DNA序列数据为Seriola dorsalis基因组的500千兆字节,来自圣地亚哥Hubbs海洋世界研究所收集的幼鱼的组织样本。“为了将它们组合在一起,”Seetharam说,“我们需要一台具有更多RAM的计算机将其全部放入计算机的内存中,然后将它们组合在一起构建685 MB的基因组。我们需要非常强大的机器。”

当Seetharam意识到当时爱荷华州立大学的计算资源不足以及时完成工作时,他转向XSEDE,这是由美国国家科学基金会资助的极限科学和工程发现环境。XSEDE是一个单一的虚拟系统,科学家可以使用它来交互式共享计算资源,数据和专业知识。

“当我们第一次开始使用XSEDE资源时,”Seetharam解释道,“我们可以选择ECSS,即扩展协作支持服务。我们认为如果有来自XSEDE的人帮助我们,这将是一个很大的帮助。我们选择了ECSS。我们与匹兹堡超级计算中心的Phillip Blood的互动对于让我们在XSEDE资源上快速启动和运行组件非常重要,“Seetharam说。

该基因组组装在匹兹堡超级计算中心(PSC)的Blacklight系统上计算了工作量,该系统曾经是世界上最大的连贯共享内存计算系统。此后,Blacklight已被PSC的以数据为中心的Bridges系统取代,该系统包括类似的大型内存节点,最高可达12TB,是典型个人计算机的千兆倍。“当时我们最终使用了Blacklight,因为它有很多RAM,”Andrew Severin回忆道。那是因为他们需要将所有原始数据放入计算机的随机存取存储器(RAM)中,以便它可以使用Maryland Super-Read Celera Assembler基因组装配软件的算法。“你必须能够将每一个序列数据与每个其他部分进行比较,以确定哪些部分需要连接在一起,

“我们还使用了Stampede,”Severin继续说道,“第一个Stampede,它是另一个拥有大量计算节点的XSEDE计算资源。每个计算节点都可以看作是一台独立的计算机。”Texas Advanced的Stampede1系统计算中心拥有超过6,400个戴尔PowerEdge服务器节点,后来又添加了508个英特尔Knights Landing(KNL)节点,为其目前的继任者Stampede2准备了4,200个KNL节点。

“我们使用Stampede对我们在基因组中发现的这些基因模型进行了注释,试图弄清楚它们的功能是什么,”Severin说。“这要求我们执行称为基本局部对齐搜索工具(BLAST)的分析,并且它要求我们使用许多CPU,超过一年的计算时间,我们最终在几周的实际时间内完成,因为在Stampede上有很多节点。“

“这项实验始于与NOAA西南渔业科学中心的合作,”Severin解释道。他说,该项目最初计划完成一个大型的RNA-seq项目,结果发现有足够的资金来进行基因组装配。“这导致了与西南渔业科学中心的长期合作,”Severin说。“随着高通量DNA测序的最新进展,我们现在能够生成数TB的测序数据。这往往很短,100-150碱基对读数,我们必须将它们放在一起,就像一个非常大的谜题并弄清楚所有的作品都去了,“他补充道。

Severin和Seetharam的团队完成了Seriola dorsalis基因组的基本图片,但是他们说还有改进的空间。“我们组装的基因组并不完美,因为它仍然存在许多碎片。我们无法完全拼凑整个染色体,”Seetharam解释道。“我们有许多代表每条染色体的支架,我们缺少填补空白所需的大量信息。”Seetharam说,测序技术的进步可以解决这些差距,通过可以产生更长DNA读取的测序技术的进步。

“我们也在论文中假设,”Severin说,“这种缺失位于将雌酮转化为雌激素的基因的上游,这是性决定途径的一部分。这可能是性别决定的原因。但由于它只是一个假设基于计算方法,这需要在实验室进一步研究。我们当然可以通过类似CRISPR的实验来测试这种突变。“

Severin还提到了用于更大的全基因组关联研究实验的数据收集,以找到与颌畸形相关的基因组中的位置和变体。“我们目前正在收集这些样本,”Severin说,“但我们将能够利用该基因组为农民提供标记,以选择对抗下颌畸形这些倾向的鱼类。”

Severin和Seetharam都坚信大数据可以解决可持续粮食生产中的问题。“我相信公众将会看到更多这种大数据的利用,并了解为什么科学对我们的未来如此重要,”Severin说。他认为,基因注释只是冰山一角。“我们将开始比较基因组装配,开始了解基因组是什么以及它是如何工作的;以及特定基因组如何确定基因的存在与否或其三维结构的背景,这是如何成为一个物种,“塞弗林说。

“大数据不断变大,我们正在寻找真正有趣问题的答案。”塞弗林总结道。Seetharam补充说:“将有更多的研究使用对公众具有重大影响的大数据。这一级别的研究将在未来促进更大规模的研究。”

这项研究“对Seriola dorsalis基因组装配的硬骨鱼性别测定的见解”于2018年1月发表在BMC Genomics期刊上。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容