该公司今天宣布,Alphabet 的 DeepMind 已使用其人工智能系统解开了一个长达 50 年的生物学谜团,该公司使用 AlphaFold 帮助理解蛋白质行为。该公司因其神经网络的发展而臭名昭著,这证明了他们在下棋、围棋和将棋方面的人类最佳能力。
谷歌在 2014年收购了 DeepMind——一路上不乏争议——它在 2015 年成为 Alphabet 的子公司。 AlphaGo,它的围棋 AI,在第二年击败了人类世界冠军选手,而 AlphaZero 继续展示了强化学习如何可用于通过与自身对战来有效地训练 AI。
不过,AlphaFold 解决了一个非常不同的挑战。“蛋白质折叠问题”是试图了解蛋白质中的氨基酸序列如何塑造其 3D 原子结构的简写。该形式由考虑热力学和原子间力的底层折叠代码主导;试图从氨基酸序列了解蛋白质天然结构的蛋白质结构预测;以及折叠本身如何发生的动力学。
虽然听起来很深奥,但了解氨基酸的运作方式被认为是解决生物学中许多挑战的关键。这包括从解决人类疾病到更广泛的应用,例如分解塑料或其他废物的酶。
目标是想出一种计算方法来预测折叠,而不是实验方法,它可以更快、更有效。“然而,一个主要的挑战是,蛋白质在形成最终 3D 结构之前理论上可以折叠的方式数量是天文数字,” DeepMind指出。
1994 年,CASP 发起了一项挑战,在寻找计算解决方案的过程中,将预测方法相互竞争。其成功的衡量标准是所谓的全局距离测试,或 GDT,它基于在其正确位置的阈值距离内预测的氨基酸残基的百分比。它的评分范围为 0-100,非官方基准是超过 90 GDT 的任何东西,与实验结果相当。
今天,DeepMind 说,它在第十四次挑战——CASP14——中的尝试获得了 92.4 GDT。“这意味着我们的预测的平均误差 (RMSD) 约为 1.6 埃,”该公司表示,“这与原子的宽度(或 0.1 纳米)相当。”
与 DeepMind 2018 年的条目(最后一个运行的 CASP)相比,这是一个重大飞跃,上一代 AlphaFold 未能达到 60 GDT。
“对于在 CASP14 上使用的最新版本的 AlphaFold,我们创建了一个基于注意力的神经网络系统,经过端到端训练,它试图解释这个图的结构,同时对它正在构建的隐式图进行推理,” DeepMind 解释道。“它使用进化上相关的序列、多序列比对 (MSA) 和氨基酸残基对的表示来完善该图。”
DeepMind 使用谷歌最新一代的TPU 神经处理核心——大约 128 个——拥有来自公共数据库和其他蛋白质序列数据库的约 170,000 个蛋白质结构。该公司表示,它需要“几周”才能完成。接下来,希望让第三方研究人员以可扩展的方式访问该系统,同时应用该技术更好地了解蛋白质结构如何影响特定疾病并可能影响药物开发。