建立模型以比以往更准确地重建进化变化

还记得我们在中学生物学中学到的领域，王国，门，阶级，秩序，家庭，属，物种和达尔文的生命树隐喻吗?这种描述生命事物谱系的方式，是科学界对基因如何随着时间发生突变和分裂以将事物改变为如今的状态所做的最好猜测。

随着科学越来越擅长识别蛋白质和基因的变化，将生物重新分类为另一个属并不少见。例如，最近，各种细菌，植物和珊瑚的分类法发生了变化。

如果您可以建立一个更好的进化变化模型，尽管它可能不是100%准确(考虑到复杂的生物体已经进化了数十亿年)，却能为您提供比以往更清晰的图景?

克里斯汀·纳格勒(Kristen Naegle)是弗吉尼亚大学工程学院的生物医学工程和计算机科学副教授，也是UVA公共卫生基因组学中心的常任理事，并曾担任博士学位。当时的学生罗曼·斯洛特斯基(Roman Sloutsky)现在是麻省大学阿默斯特分校的博士后研究员。他们的工作展示了如何构建模型来比以往任何时候都更准确地重建进化变化，这为了解疾病在人体中的工作方式带来了突破。

他们的论文“ ASPEN，一种使用整体模型重建蛋白质进化的方法，”在10月17日星期四发表在eLife杂志上。ASPEN代表“通过蛋白质进化子采样的准确性”。他们的研究突出了UVA在生物医学数据科学中的优势。

当今使用的大多数蛋白质进化模型可能是错误的。现在，我们有一种方法可以探究这些模型，并询问如何使用正确的模型来构建更好的模型。这是重要的一步。

为了更好地理解他们在建模演化变化方面工作的复杂性，Naegle提供了一个类比：“如果我要求您预测某人在旧金山和纽约之间走的路线，那将是一个模型。但是如果我要求1,000个人给我一个人走哪条路线的预测，那么这条路线在1000人中共享最多的部分就很可能是真实的，这是因为大多数人可能都认为，两个城市之间的特定高速公路是最有效的要走的路，这样高速公路的那部分就会有很大的分量或概率。

“如果我发现在这1000条路线中没有人达成任何协议，那将告诉我，我对任何一种模型的准确性都没有信心。相反，如果每个人都对路线的绝大部分或大部分达成共识，我非常有信心在这两个点之间必须有一种最佳的旅行方式，我可以想出一条新路线，而不是这1000个人中的任何一条，而是捕捉所有这1000个人之间共享最多的路线建议，该模型可能比提供给我的任何单个模型都更接近真实路线。最后，它可能仍然不完全准确-我永远无法知道真实路线，除非我询问实际执行此操作的人旅行-但这可能比单独的任何一条路线建议要好得多。

进化就是这样，只是就像在猜测通过时间而不是空间的路线。”

重建进化分支是棘手的，特别是当许多物种共享相似类型的蛋白质时，这种蛋白质可能已经进化为执行某些不同的功能。从数学上讲，问题很快就变得非常严重，但是发现这种蛋白质进化的含义可能会导致人们更好地了解我们的身体如何应对癌症和其他疾病。

这个问题的解决方法是Sloutsky在研究许多不同物种共有的细胞信号传导中的重要蛋白质时提出的。他想知道这种蛋白质是如何随着时间演变而在不同物种中具有不同功能的。这个问题是如此之大，他决定只对几个序列进行抽样，以重建进化的分歧。

他说，尽管进行了1000次尝试，但重建工作彼此不同。“这本身并不是一个大问题-我没想到他们都会同意。但是我希望一个模型在大多数时间或至少很多时间可以重复。”

惊讶的是，他决定看看所有不同意见的模型有什么共同点。他说：“我知道我将不得不想出一种方法来合并所有这些模型中的信息，因为我不能只使用最常见的模型。” “这是一个意外的挑战，导致了这项工作。”

在几个月的时间里，Naegle和Sloutsky改进了软件并测试了越来越多的针对蛋白质的重构问题，Naegle和Sloutsky能够创建开源软件，该软件可以结合多个模型来非常准确地重构进化变化。

斯劳茨基说：“我们身体所做的一切都是由蛋白质完成的。” “这是了解分子生物学如何工作，蛋白质如何工作以及何时出错，出错的强大工具。”

Naegle和Sloutsky的原始数据和代码包含在eLife出版物中，因此其他研究人员可以将其用于更精确的建模。

专注于生命和生物医学的eLife杂志在科学杂志中是独一无二的。同行审稿人评估文章的研究和质量，审稿人的问题和作者的答案也包含在出版物中。该杂志的哲学是知识应该是开放的和可访问的。

例如，研究人员将能够使用Naegle和Sloutsky的新工具来了解相似蛋白质的进化程度，然后设计更好的药物以更特异性地靶向蛋白质。内格勒还想象着一个医生试图利用医学成像来识别隐藏在患者体内深处的肿块的确切位置和形状。这种更精确的建模工具可以帮助医生更好地了解肿块，而无需将患者割开。

内格勒说：“乔治·埃弗·博克斯(George EP Box)关于模型的引用哲学在这里很重要：'本质上，所有模型都是错误的，但有些模型是有用的。” “我们现在有了一种量化的方法来询问一个模型有多好，通过在许多模型中使用最有用的部分，我们可以构建更好的模型。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

建立模型以比以往更准确地重建进化变化

研究塑造人类行为的基因但这也可能引发自闭症

与脂质水平相关的基因分数

研究人员正在利用机器学习来了解微生物关系

团队揭示了生态系统中携带基因mcr-1的细菌的高流行率

研究可能有助于科学家更多地了解慢性疼痛的原因

10月19日四川全省疫情最新数据公布四川昨日新增境外输入无症

肠道微生物群的健康和平衡在细菌感染的进展中是重要的

哪些基因对古细菌的能量代谢至关重要

遗传学家对缅甸蟒蛇眼镜王蛇的基因组进行测序

10月21日昆明张掖疫情最新数据公布甘肃新增6例本土确诊病例详