作为识别和确定蛋白质结构的一种手段,人工智能 (AI) 越来越强大。例如,它不再局限于蛋白质单体的研究。它开始采用蛋白质复合物。然而,与真核生物相比,人工智能更擅长模拟原核生物中的蛋白质复合物。为什么?因为当人工智能试图识别可能相互作用的蛋白质对时,如果进化信息可用,它会表现得更好,而且很多。原核生物当然就是这种情况。
原核物种的数量远远超过真核物种。因此,对于原核物种,有更多的机会来检测共同进化的蛋白质。考虑两个蛋白质复合物的情况。据推测,这种复合体中的每个蛋白质都必须有一个相互作用域来补充另一个蛋白质中的相互作用域——任何影响一个蛋白质相互作用域的突变都必须伴随着影响另一个蛋白质相互作用域的突变。否则,蛋白质最终将停止相互作用。
除了原核物种的绝对数量之外,还有其他因素可以简化原核蛋白质复合物的分析。例如,在原核生物中,蛋白质较少,可变剪接和基因组复制轮次是非典型的。这些因素减少了科学家在尝试以计算方式模拟原核蛋白质复合物时必须处理的“噪音”。
尽管真核蛋白质复合物的计算分析更具挑战性,但华盛顿大学蛋白质设计研究所和德克萨斯大学西南医学中心的研究人员并没有气馁。他们决定使用两种基于深度学习的结构预测方法 RoseTTAFold 和 AlphaFold 来应对计算挑战。华盛顿大学发明的 RoseTTAFold 用于计算蛋白质对的接触概率。AlphaFold 由 Alphabet 子公司 DeepMind 发明,用于重新评估交互概率和建模复杂结构。
通过利用蛋白质组范围的氨基酸协同进化分析和基于深度学习的结构建模,科学家们系统地识别并构建了酿酒酵母蛋白质组中核心真核蛋白质复合物的准确模型。科学家们在11 月 11 日发表在《科学》杂志上的一篇文章(“核心真核蛋白质复合物的计算结构”)中详细介绍了这项工作。
“[我们筛选]了 830 万对酵母蛋白的配对多重序列比对,”该文章的作者写道。“[我们确定] 1,505 个可能相互作用并为 106 个以前未识别的组件和 806 个尚未进行结构表征的组件[构建]结构模型。这些复合体具有多达五个亚基,几乎在真核细胞的所有关键过程中都发挥作用,并为生物学功能提供了广泛的见解。”