中国基因网您的位置:首页 >行业资讯 >

基准计算宏基因组的方法

它们无处不在,但肉眼看不见。微生物是碳循环等关键环境过程监管背后看不见的有影响力的力量,但其中大部分仍然未知。十多年来,美国能源部联合基因组研究所(DOE JGI),DOE科学用户设施办公室,一直致力于研究人员使用最先进的技术研究无法在实验室中生长的未培养微生物。诸如环境群落的高通量基因组测序(“宏基因组学”)和开发计算工具以发现和表征环境中的微生物群落等方法。要解决将宏基因组聚集成一组重叠的DNA片段,这些片段一起代表DNA或重叠群的共有区域,然后将这些重叠群合并到基因组区域中,

基准计算宏基因组的方法

2017年10月2日发表在Nature Methods上的一个团队,包括DOE JGI研究人员描述了宏基因组解释关键评估(CAMI)挑战的结果,这是有史以来第一次,社区组织的宏基因组计算工具基准评估。CAMI挑战赛由比勒费尔德大学计算宏基因组学团队负责人Alexander Sczyrba领导,前任DOE JGI博士后研究员,以及Helmholtz感染研究中心感染研究实验室计算生物学负责人Alice McHardy领导。

“研究人员很难根据方法论文的结果找出用于特定数据集和分析的程序,”McHardy说。“评估中使用的数据集和评估指标差别很大。另一个问题是开发人员在评估新型软件的性能时,通常会花费大量时间对最新技术进行基准测试.CAMI希望改变这些事情。让社区参与确定评估的标准和最佳实践,并将这些原则应用于基准挑战。“

2015年,CAMI挑战赛进行了三个多月。为了评估计算工具,组织者开发了3个模拟的宏基因组数据集,使用了由DOE JGI测序和组装的300多个细菌和古菌分离株的基因组,这些基因组是基因组百科全书的一部分。最近在Nature Biotechnology上发表的细菌和古菌项目。这些基因组与CAMI Challenges联盟共享,然后向公众发布,以促进不同工具的客观基准测试。数据集还包括来自德国科隆马克斯普朗克研究所的相同数量的基因组,以及圆形元素和病毒。模拟数据集是150亿个碱基(Gb)的单个样本数据集,40个基因组和20个圆形元素的40 Gb数据集,以及包含数百个基因组和圆形元素的75个Gb时间序列数据集。

“JGI对工具和技术的基准测试非常感兴趣,这些工具和技术将推动宏基因组的分析,并提高我们为用户提供的数据质量。发表了关于使用模拟数据集进行宏基因组工具基准测试的第一项研究。 JGI,很高兴看到这种方法多年来如何扩展,现在通过这项研究,演变成该领域标准化社区工作的模型,“能源部JGI原核计划超级项目负责人Nikos Kyrpides说。

DOE JGI微生物基因组学负责人Tanja Woyke补充说:“JGI不仅在实验室协议的基准测试中,而且还在计算工作流程中。” “这使我们参与像CAMI这样重要的社区工作非常重要。”

有超过40个团队报名参加挑战赛,CAMI组织者收到了来自全球25个项目的215个提交,尽管只有17个团队愿意发布他们的软件实施。CAMI组织者评估了3个类别的计算工具。在装配基因组时评估了六个装配工和装配管道短读序列技术产生的序列。在分箱挑战中,根据标准评估了五个基因组结合物和4个分类学结合物,包括工具在恢复个体基因组方面的功效。最后,评估了10个具有不同参数设置的分类学分析器,以评估它们如何预测微生物和环状元素的身份和相对丰度。基准测试结果可在https://data.cami-challenge.org/results上找到。

CAMI组织者已经在计划未来的基准测试挑战,例如评估和帮助长读取测序技术的方法开发。“CAMI是一项持续的举措,”Sczyrba指出。“我们目前正在进一步自动化基准测试和比较结果可视化。我们邀请所有有兴趣的人加入并与CAMI合作,提供计算宏基因组学工具包的综合性能概述,以告知开发人员当前计算宏基因组学和应用科学家的挑战适合他们研究问题的软件。“

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。

推荐内容