模型学习单个氨基酸如何决定蛋白质功能
来自麻省理工学院研究人员的机器学习模型计算地分解了氨基酸链段如何决定蛋白质的功能,这可以帮助研究人员设计和测试用于药物开发或生物研究的新蛋白质。
蛋白质是氨基酸的线性链,通过肽键连接,折叠成极其复杂的三维结构,这取决于链内的序列和物理相互作用。反过来,这种结构决定了蛋白质的生物学功能。因此,了解蛋白质的三维结构对于预测蛋白质如何对某些药物产生反应是有价值的。
然而,尽管经过数十年的研究和多种成像技术的发展,我们只知道很少一部分可能的蛋白质结构 - 数以万计的成千上万。研究人员开始使用机器学习模型根据氨基酸序列预测蛋白质结构,这可以发现新的蛋白质结构。但是,这是具有挑战性的,因为不同的氨基酸序列可以形成非常相似的结构。并且没有很多结构可以训练模型。
在5月份的国际学习代表会议上发表的一篇论文中,麻省理工学院的研究人员开发了一种方法,用于“学习”蛋白质序列中每个氨基酸位置的易于计算的表示,最初使用3-D 蛋白质结构作为培训指南。然后,研究人员可以使用这些表示作为输入,帮助机器学习模型预测单个氨基酸片段的功能 - 而无需再次需要蛋白质结构的任何数据。
将来,该模型可用于改进蛋白质工程,为研究人员提供更好地归零和修饰特定氨基酸片段的机会。该模型甚至可能引导研究人员完全脱离蛋白质结构预测。
“我希望将结构边缘化,”第一作者Tristan Bepler说,他是计算机科学与人工智能实验室(CSAIL)计算与生物学研究组的研究生。“我们想知道蛋白质的作用,知道结构对此非常重要。但是,我们能预测蛋白质的功能只能给出它的氨基酸序列吗?动机是远离专门预测结构,转向[发现]氨基酸序列如何与功能相关。“
加入Bepler的是共同作者Bonnie Berger,麻省理工学院Simons数学教授,电气工程和计算机科学系的联合教员,以及计算和生物学组的负责人。
从结构中学习
研究人员将预测的蛋白质结构信息直接编码为表示,而不是像传统模型那样直接预测结构。为此,他们使用已知的蛋白质结构相似性来监督他们的模型,因为该模型学习了特定氨基酸的功能。
他们根据蛋白质结构分类(SCOP)数据库对大约22,000种蛋白质进行了模型训练,该数据库包含数千种蛋白质,这些蛋白质通过结构和氨基酸序列的相似性组织成类别。对于每对蛋白质,他们计算了一个真实的相似性得分,这意味着它们在结构上与它们的SCOP类别有多接近。
然后研究人员给他们的模型随机配对的蛋白质结构及其氨基酸序列,它们被编码器转换成称为嵌入的数字表示。在自然语言处理中,嵌入基本上是以对应于句子中的字母或单词的方式组合的数百个数字的表。两个嵌入越相似,字母或单词在句子中出现的可能性就越大。
在研究人员的工作中,每对嵌入包含有关每个氨基酸序列与另一个氨基酸序列有多相似的信息。该模型对齐两个嵌入并计算相似性得分,然后预测其三维结构的相似程度。然后,模型将其预测的相似性得分与其结构的实际SCOP相似性得分进行比较,并将反馈信号发送给编码器。
同时,该模型预测每个嵌入的“接触图”,其基本上表示每个氨基酸与蛋白质预测的3-D结构中的所有其他氨基酸相距多远 - 基本上,它们是否接触?该模型还将其预测的接触图与来自SCOP的已知接触图进行比较,并将反馈信号发送到编码器。这有助于模型更好地了解氨基酸在蛋白质结构中的确切位置,从而进一步更新每种氨基酸的功能。
基本上,研究人员通过要求它预测配对序列嵌入是否将共享相似的SCOP蛋白结构来训练他们的模型。如果模型的预测分数接近真实分数,它就知道它在正确的轨道上; 如果没有,它会调整。
蛋白质设计
最后,对于一个输入的氨基酸链,该模型将为3-D结构中的每个氨基酸位置产生一个数值表示或嵌入。机器学习模型然后可以使用这些序列嵌入来基于其预测的3-D结构“背景” - 位置和与其他氨基酸的接触来准确地预测每个氨基酸的功能。
例如,研究人员使用该模型预测哪些片段(如果有的话)通过细胞膜。鉴于只有一个氨基酸序列,研究人员的模型比最先进的模型更准确地预测所有跨膜和非跨膜片段。
“Bepler和Berger的工作在代表蛋白质序列的局部结构特性方面取得了重大进展,”斯坦福大学计算机科学教授Serafim Batzoglou说。“使用最先进的深度学习方法学习表示,这些方法在RaptorX和AlphaFold等系统中的蛋白质结构预测方面取得了重大进展。这项工作最终应用于人类健康和药物基因组学,因为它有助于检测破坏蛋白质结构的有害突变。“
接下来,研究人员的目标是将该模型应用于更多预测任务,例如确定哪些序列片段与小分子结合,这对于药物开发至关重要。他们还致力于将该模型用于蛋白质设计。使用它们的序列嵌入,它们可以预测蛋白质会发出什么颜色的波长。
“我们的模型允许我们将信息从已知的蛋白质结构转移到具有未知结构的序列。使用我们的嵌入作为特征,我们可以更好地预测功能并实现更有效的数据驱动蛋白质设计,”Bepler说。“在很高的层面上,这种类型的蛋白质工程是目标。”
Berger补充说:“我们的机器学习模型因此使我们能够从相对较少的已知结构中学习蛋白质折叠的'语言' - 原始'圣杯'问题之一。”
推荐内容
-
偷运引发瑞丽疫情者被刑拘 因为这2个人封城大半个月
【偷运引发瑞丽疫情者被刑拘,云南瑞丽警方通报:两名偷越国边境人员组织偷渡引发瑞丽疫情,已被刑拘,这必须重判因为你两个人封城大半个月
-
科普久对电脑4大食物要多吃及带皮吃黑豆明显改善贫血症状
说胡萝卜则蕴含了维他命A及多种类胡萝卜素,乃维持眼睛健康之必需要素;在不少蔬果中都含有对眼睛有益的成分,长期坐在电脑旁边的你,不...
-
物理防晒霜比化学防晒霜效果好?真相? 真实情况是这样
物理防晒霜比化学防晒霜效果好?真相? 真实情况是这样全民自媒体时代,信息被大众获取的途径多种多样,但也出现了很多不实消息被误传的情
-
中融新大集团现状最新消息怎么样了?中融新大集团董事长是谁资料
【导读】你知道中融新大集团有限公司吗?据消息显示,中融新大集团有限公司,创立于2003年,是以能源化工、玻璃建材、矿产资源、物流清洁能
-
独特的蛋白质部分归咎于蠕虫的消化窘迫
与其他蛋白质不同的蛋白质似乎是造成地球上最常见动物胃部紊乱的部分原因。莱斯大学对线虫特有的奥赛病毒的研究结果表明,这种蠕虫构成...
-
孩子胖≠养得好别让肥胖毁了孩子? 请檫亮眼睛
孩子胖≠养得好别让肥胖毁了孩子? 请檫亮眼睛全民自媒体时代,讯息传播效率飞速提高,但也出现了很多不实消息被误传的情况。所以在获取信
-
申花终结亚冠16场不胜 上海申花的对手是谁
申花终结亚冠16场不胜 上海申花的对手是谁?想必大家对于申花这场比赛都是很关注的,毕竟已经连续16场亚冠赛场没有胜利了,这次终于终结了。
-
植物细胞壁的拉伸但不破裂的生长比以前想象的更复杂
植物细胞壁生长通常被描述为一个简单的过程,但研究人员使用能够分辨纳米尺度图像的显微镜观察到更复杂的东西。研究人员在最近的一项研...