定义未培养微生物的基因组标准
在工业革命期间,工厂开始依靠机器而不是人来进行大规模生产。在社会变革的过程中,标准化从确保螺母和螺栓的生产质量完全相同,成为大西洋两岸使用的标准铁路轨距。标准的重要性在它们不存在或不被普遍接受时得到了极大的体现,例如,Macs,PC,甚至是磅与公斤。
工业革命后一个多世纪以来,DNA测序技术的进步已经在科学研究中引起了类似的巨大变化,其中一个方面是研究地球的生物多样性。微生物在调节涉及碳,氮和磷的全球循环中发挥着至关重要的作用,但其中许多仍未被培养和未知。更多地了解这种所谓的“微生物暗物质”涉及从单个细胞和宏基因组的扩增DNA中提取微生物基因组。随着基因组数据生产在过去二十年中不断增加并且正在世界各地的各种平台上生成,科学家们共同努力建立诸如“草案集”和全面适用的数据收集标准等术语的定义。元数据,“简单地定义为”关于其他数据的数据。“在序列数据的情况下,元数据可以包含什么生物体或细胞被测序,它来自哪里,它在做什么,质量指标,以及一系列其他特征,通过为序列数据提供上下文并使序列数据的重要性得到更好的生物学理解,为序列数据增加价值。
2017年8月8日在Nature Biotechnology上发表由美国能源部联合基因组研究所(DOE JGI)的研究人员领导的国际团队,DOE办公室的科学用户设施,已经开发了标准,用于提供单个扩增基因组(SAG)和宏基因组装配的最小元数据。基因组(MAGs)提交给公共数据库。“在过去几年中,单细胞基因组学已成为补充宏基因组学的流行工具,”DOE JGI微生物基因组学项目负责人Tanja Woyke研究表示。“从2007年开始,来自环境细胞的第一个单细胞基因组出现在公共数据库中,它们是数据质量波动的草案集.Magagenome组装的基因组具有相似的质量挑战。对于想要进行比较分析的研究人员来说,它'知道进入分析的内容非常重要。强大的比较基因组学依赖于广泛而正确的元数据。“
基因组质量的分类
在他们的论文中,Woyke和她的同事提出了四类基因组质量。低质量草案的完成率不到50%,对组装片段的审查很少,而非目标序列污染不到10%。中等质量草案将至少完成50%,对组装的碎片进行最少的审查,污染不到10%。由于存在23S,16S和5S rRNA基因,以及至少18种tRNA,污染低于5%,高质量草案将完成90%以上。完成质量类别保留用于没有间隙的单个连续序列,并且每100,000个碱基对少于1个错误。
DOE JGI已经产生了大约80%的超过2,800个SAG和超过4,500个MAG,目前可通过DOE JGI的基因组在线数据库(GOLD)访问。DOE JGI科学家和研究第一作者鲍勃鲍尔斯说,许多已经在GOLD中的SAG将被视为低质量或中等质量草案。这些是非常有价值的数据集,但出于某些目的,研究人员可能更喜欢使用高质量或完成的数据集。“单细胞和宏基因组数据集的整体质量差别很大。但是,如果低质量,碎片化的基因组是生命树上新分支的唯一代表,那么一些数据优于无数据,”他补充道。“提出建议的类别将迫使科学家在提交给公共数据库之前仔细考虑基因组质量。”
从提案到社区实施
从印刷提案转向实施需要社区支持。Woyke和Bowers构想了SAG和MAGs的最低元数据要求,作为序列数据的现有元数据标准的扩展,称为“MIxS”,由基因组标准联盟(GSC)于2011年开发和实施.GSC是一个开放的成员工作机构,确保研究界参与标准制定过程,包括国家生物技术信息中心(NCBI)和欧洲生物信息学研究所(EBI)的代表。这很重要,因为这些是实现最低元数据要求的主要数据存储库。通过直接与数据提供者合作,
“其他主要的公共微生物组数据管理系统,如MG-RAST,IMG和GOLD也已经采用了MIxS标准,”DOE JGI原核生物超级计划和GSC理事会成员Nikos Kyrpides表示。他指出,作为DOE JGI核心使命的一部分,该研究所一直参与组织社区以开发基因组标准。“全球服务中心在帮助社区共同制定和实施越来越多的相关标准方面发挥了重要作用。事实上,最近在美国能源部JGI举行的GSC会议上确定了将MIxS扩展到未开垦的生物体的必要性。”
“这些扩展通过定义与描述宏基因组单细胞基因组和基因组的采样和测序相关的关键数据元素,补充了MIxS元数据标准套件,”GSC总裁兼研究共同作者,基因组科学研究所的Lynn Schriml说。在马里兰大学医学院。“这些标准开辟了一个全新的元数据数据探索领域,因为绝大多数微生物,被称为微生物暗物质,目前尚未在MIxS标准中进行描述。”
她将该团体及其使命描述为社区驱动。她说:“我认为制定标准的人是进行研究的人是有帮助的。”“我们对数据有既得利益。研究正在发展和扩展,我们必须严格捕获这些数据。开发这些新颖的元数据标准使研究人员能够持续报告最关键的元数据进行分析。使用受控数据捕获数据词汇表有助于数据的一致性,从而使数据库更加丰富和可重用。“最后,希望是序列数据伴随着商定的元数据标准对每个想要使用它的人来说意味着同样的事情。
推荐内容
-
连云港海州区疫情源头找到了吗在哪里?连云港疫情风险等级划分是
众所周知,最近一段时间国内多地出现疫情,其中连云港市海州区新增7名核酸检测阳性人员引入关注。那么,目前连云港海州区疫情是什么情况...
-
检测胚胎发育过程中细胞分化和迁移的变化
A * STAR的研究人员设计了一种高灵敏度,无动物的方法来测试药物对发育中胚胎的毒性。该技术可以鉴定破坏分化的化合物,并且首次发现人类
-
CRISPR基因激活指南
CRISPR-Cas9系统已成为众所周知的工具,它允许研究人员编辑许多生物和细胞类型的DNA序列。然而,科学家们也越来越认识到它可以用来激活基因
-
南非乡镇的实验室从呼吸空气中取样结核病
我是 Masiphumelele,一个非正式的锡棚,蹲砖建筑,以及开普敦以南的狭窄小巷,有23,000人上学,经营企业,睡觉,并且面颊四处交往。因此
-
以色列飞顿新科技仪器全球首度亮相 就在莎蔓莉莎15周年盛典
哪个女人不想30岁的时候,人人都夸你皮肤好的像玉美人!40岁的时候,肤质还是透亮嫩白!50岁的时候,皮肤依然细软白皙?最懂女人的还是莎蔓莉
-
研究表明 人类从人类的摇篮向北迁移
对目前生活在埃及和埃塞俄比亚的人们进行的一项新的基因组分析表明,欧亚人起源于早期非洲人向北迁移(穿过现在的埃及地区)并扩展到世界...
-
新型抗代谢复方药Lonsurf获FDA批准
日本大鹏药品工业株式会社(Taiho Pharmaceutical)美国子公司Taiho Oncology近日宣布,美国食品和药物管理局(FDA)已批准Lonsurf(triflurid
-
从胆量到荣耀肠道防御的演变
由于冲绳科学技术研究生院的一个团队已经绘制了动物肠道如何进化以保护自己免受微生物攻击的进化历程,因此新的自然通讯论文已经进入了...
-
恒昌旗下恒易融平台完成与央行征信系统对接
近日,创立于北京的金融科技公司恒昌正式宣布,旗下恒易融平台已全面接入中国人民银行金融信用信息基础数据库(即央行征信系统),所有借款人借
-
研究发现肾结石具有不同的地质历史
地质学家,显微镜医生和医生走进实验室,与来自全国各地的同事一起,发现了几个世纪以来对肾结石性质和成分的思考。在科学报告杂志上报...