蛋白质对于细胞生命,执行复杂任务和催化化学反应至关重要。长期以来,科学家和工程师一直在寻求通过设计可以执行新任务(例如治疗疾病,捕获碳或收集能量)的人造蛋白质来利用这种力量的方法,但是许多设计此类蛋白质的过程缓慢而复杂,且失败率很高。率。
这项可能对医疗,农业和能源领域产生重大影响的突破是由芝加哥大学普利兹克分子工程学院(PME)的研究人员领导的一个团队开发的一种以人工智能为主导的流程,该流程利用大数据来设计新的蛋白质。
通过开发可以回顾从基因组数据库中选出的蛋白质信息的机器学习模型,研究人员发现了用于构建人工蛋白质的相对简单的设计规则。当团队在实验室中构建这些人造蛋白质时,他们发现它们的化学反应非常出色,可以与自然界中的蛋白质媲美。
普利兹克分子工程学院生物化学与分子生物学系的Joseph Regenstein教授Rama Ranganathan说:“我们都想知道像进化这样的简单过程如何才能产生出像蛋白质这样的高性能材料。” “我们发现基因组数据包含有关蛋白质结构和功能基本规则的大量信息,现在我们已经能够利用自然界的规则来自己创造蛋白质。”
结果发表在7月24日的“ 科学 ”杂志上。
使用人工智能学习设计规则
蛋白质由成百上千个氨基酸组成,这些氨基酸序列决定了蛋白质的结构和功能。但是,仅了解如何构建这些序列以创建新蛋白的方法一直是一项挑战。过去的工作导致了可以指定结构的方法,但是功能却更加难以捉摸。
Ranganathan及其合作者在过去15年中意识到,基因组数据库(呈指数增长)包含有关蛋白质结构和功能基本规则的大量信息。他的小组基于这些数据开发了数学模型,然后开始使用机器学习方法来揭示有关蛋白质基本设计规则的新信息。
在这项研究中,他们研究了新陈代谢的分支酸突变酶家族,这是一种对许多细菌,真菌和植物的生命至关重要的蛋白质。使用机器学习模型,研究人员能够揭示这些蛋白质背后的简单设计规则。
该模型显示,仅氨基酸位置的保守性和氨基酸对进化中的相关性就足以预测具有蛋白质家族特性的新人工序列。
Ranganathan说:“我们通常认为要构建某种东西,您首先必须深刻理解它的工作原理。” “但是,如果您有足够的数据示例,则可以使用深度学习方法来学习设计规则,即使您正在了解其工作原理或以这种方式构建的原因也是如此。”
然后,他和他的合作者创建了合成基因来编码蛋白质,将它们克隆到细菌中,然后观察细菌如何使用其正常的细胞机制来合成蛋白质。他们发现,人造蛋白具有与天然分支酸突变酶蛋白相同的催化功能。
一个了解其他复杂系统的平台
因为设计规则相对简单,所以研究人员可能用它们创造的人工蛋白质数量非常多。
兰加纳森说:“这些限制比我们想象的要小得多。” “大自然的设计规则很简单,我们相信类似的方法可以帮助我们在生物的其他复杂系统(例如生态系统或大脑)中搜索设计模型。”
尽管人工智能揭示了设计规则,但Ranganathan和他的合作者仍不完全了解模型为何起作用。接下来,他们将努力了解模型如何得出此结论。他说:“还有很多工作要做。”
同时,他们还希望使用该平台开发可以解决紧迫的社会问题(例如气候变化)的蛋白质。Ranganathan和Assoc。安德鲁·弗格森(Andrew Ferguson)教授成立了一家名为Evozyne的公司,该公司将通过在能源,环境,催化和农业领域的应用将该技术商业化。Ranganathan与UChicago的Polsky创业与创新中心合作,申请了专利并向该公司授予了IP许可。
他说:“该系统为我们提供了一个以我们梦dream以求的方式合理地工程化蛋白质分子的平台。” “它不仅可以教会我们有关蛋白质如何工作以及如何进化的物理学,它还可以帮助我们找到诸如碳捕获和能量收集等问题的解决方案。更广泛地讲,蛋白质研究甚至可以帮助我们了解深层神经现代机器学习背后的网络确实有效。”