研究发现基因组数据库的增长会影响物种的准确性
有许多方法可以切割和切割基因组数据以识别一种细菌,或者至少找到它的近亲。但莱斯大学的一位计算机科学家表示,对基因组进行测序的快速技术已经充斥着公共数据库并且以一种偏见的方式,包含了许多关于某些物种的基因组数据,而对其他物种则不够。
Todd Treangen及其同事测试了分类学分类方法,这些方法将目标细菌的基因组序列与大型数据库中记录的基因组序列进行匹配,以识别物种。在此过程中,他们制定了提高准确性和灵敏度的途径。
Treangen是本月发表在Genome Biology上的一项研究的资深作者,该研究表明,在一个广泛使用的联邦数据库 -国家生物技术信息中心的RefSeq中,随时间的变化如何影响了宏基因组分类方法的准确性。
宏基因组学专家Treangen(环境样品遗传物质研究)的主要关注点是保持快速鉴定对公众健康构成威胁的细菌的能力。
大数据具有独特的优势,可以做到这一点 - 但它有很多。他说,目前,低成本,高通量的DNA鸟枪测序机从微生物集合中读取短DNA序列,每两到三年就会使RefSeq 的基因组数据翻倍。
“我最初认为这些方法的数据总是更好,”Treangen说,他今年从马里兰大学高级计算机研究所加入赖斯。“你会期望没有惩罚,因为数据库的增长是好的。” 然而,研究人员发现,RefSeq中的细菌数据在分类层次的物种水平上具有巨大的影响,并且以惊人的速度增长。
对于将两种常用技术结合起来以确定其发现的研究人员而言,这是一个问题。一种称为基于k聚体的分类,其通过精确匹配鉴定来自细菌样品中所有生物的短DNA序列。
“大多数使问题在计算上可行的方法依赖于k-mers,它们与长度'k'完全匹配,或者是数据库中包含的微生物的关键,”他说。“如果顺序读取与数据库中的某些内容完全匹配,那么直觉就是你能够以更高的精度说明这是什么,并且更快捷的计算方法。”
他说,一种常用的基于k-mer分类的技术是最低共同祖先(LCA)分配。LCA将样本与共享匹配的序列进行比较,如果需要,将它们分配到分类中的更高级别,例如属而不是物种。但他说,对于试图确定病原体的研究人员来说,这可能不够具体。
事实上,该研究发现了一种名为Bracken的基于k-mer的分类工具,该工具使用贝叶斯统计来推断序列的最佳匹配,有助于缓解不平衡。即便如此,它仍难以在数据库中识别与近亲相关的基因组,但不能完美匹配。
Treangen说,对特定病原体的资金充足的研究是必要的,并且极大地帮助了快速爆发检测和跟踪,但它最终偏向像RefSeq这样的公共数据库。
“例如,对食源性病原体存在巨大偏见,”他说。“社会希望对沙门氏菌有很多了解,这是理所当然的。美国食品和药物管理局,特别是GenomeTrakr,已经帮助对数千种相关病原体进行测序,并将它们直接添加到参考数据库中。”
然而,他说,将参考数据库偏向特定属和微生物家族的方式会影响使用k-mer和LCA方法的快速分类学分类工具(如Kraken)的准确性和灵敏度。
Treangen说最近最好的假阳性鉴定实例是一项最初报告纽约市地铁炭疽细菌证据的研究。该研究基于来自样本的测序基因组,后来进行了修订,以反映错误识别序列为炭疽芽孢杆菌的错配。
虽然对公共卫生的关注是一个关键的优先事项,但Treangen说,需要能够应对数据库增长和噪声的新技术,以及增加序列基因组的广度,以便在该领域持续改进。“例如,来自土壤和海洋的微生物严重欠采样,”他说。“我们需要继续排序以更好地填充公共数据库,这将最终有助于我们从复杂样本中准确分类微生物的能力。”
推荐内容
-
小而且极具弹性 黑色真菌的秘密
黑色真菌具有很强的抗压能力,是微生物中的真正冠军。在奥地利科学基金FWF的支持下,维也纳的一个研究小组发现,真菌在细胞水平上具有迄今
-
BMI较高的儿童大脑皮层往往较薄
已发表的研究早已发现儿童肥胖与执行功能下降之间的相关性。美国医学杂志《儿科》上发表的一项新研究基于一项大规模的全国性研究得出的...
-
计算机模型将基因位点转变为疾病机制
虽然全基因组关联研究(GWAS)已被证明在揭示与疾病相关的基因位点方面具有无可估量的价值,但确定这些基因座内确切的致病变体以及变体如何引
-
蜜蜂可以在开发新抗生素方面发挥作用
根据伊利诺伊大学芝加哥分校的最新研究,蜜蜂制造的抗菌化合物可能成为新抗生素的基础。30多年来没有发现新的抗生素,一些细菌对用于治...
-
对一种抗生素有抗性的大肠杆菌菌株可以保护附近生长的其他细菌
麻省理工学院的一项新研究发现,在一种含有两种药物的环境中,两种对一种抗生素具有抗性的细菌可以相互保护。研究结果表明,共生是一种...
-
阿拉伯羚羊基因组序列草案
卡塔尔的研究人员绘制了脆弱的阿拉伯羚羊的基因组图谱。这种羚羊的角矛类似,它在动物园和自然保护区中幸存下来,在20世纪70年代被列为灭绝
-
大蒜可以对抗慢性感染
哥本哈根大学的一项新研究表明,大蒜中的活性硫化合物可用于对抗慢性感染患者的健壮细菌。在这里,研究人员表明,大蒜化合物能够破坏细...
-
细胞内病原体如何与宿主相互作用 还包括它们如何隐藏和存活
来自沙特阿拉伯国王阿卜杜拉科技大学(KAUST)和新加坡国立大学的研究人员开发了一种名为Hi-Jack的新方法,该方法可识别病原体如何劫持宿主的
-
科学家在“一次性”DNA中发现了未知病毒
机会发现开辟了一种寻找未知病毒的新方法。在发表在病毒进化杂志上的研究中,牛津大学动物学系的科学家们发现,新一代测序及其相关的在...
-
科学家解决DNA组织的长期生物学谜团
伸展开来,我们体内所有细胞的DNA都会到达冥王星。那么,每个微小细胞如何将一个两米长的DNA包装到其细胞核中,这只是千分之一毫米?这个令