许多最大的零售商和社交网络都看到了扩展 AI 培训能力的道路正在缩小。
正如我们上周所描述的那样,硬件和软件优化并没有提供我们几年前看到的显着改进,这促使 Facebook 等公司深入挖掘其 ML 堆栈的更低级别。即使谷歌的钻研下深处它是如何安排它的模型,以保持训练效率和人们想象的,亚马逊也看到其中的优化可以让AI表现更大的升力。
对于亚马逊的 AI 团队来说,图神经网络 (GNN) 周围的优化限制很明显。这些模型正在成为社交网络、推荐以及在亚马逊以外的药物发现中的最佳选择之一。尽管如此,尽管用例适合,但与现有硬件的网格并不那么清晰,该公司正在寻找在不超出计算(成本)限制的情况下不断增加深度的方法。
与其他大规模推动神经网络的大公司一样,障碍越来越高,越来越难以攀登。
与其他深度学习框架不同,GNN 直到最近才成为优化的主题。它们于 2014 年首次出现在研究中,并且在 2018 年至今引起了人们的兴趣。尽管有这些用例,但让 GNN 在大规模、复杂的图形上很好地扩展仍然是一个挑战,特别是对于像亚马逊这样的公司来说,它们的 AI 部门正试图在对更深层次的图形的需求与昂贵的训练运行之间取得平衡。
GNN 在计算需求方面与其他神经网络有很大不同,例如,许多适用于卷积神经网络 (CNN) 的架构并不完美。他们需要能够处理大量具有不规则访问模式的稀疏数据的分散-聚集操作的设备。但是对于某些用例,图神经网络仍然是最佳选择。
图神经网络 (GNN) 是学习节点、边和图嵌入的一系列神经网络。每个节点周围的“自我网络”用于学习捕获特定任务信息的嵌入。嵌入使用图的结构以及节点和边的特征。这些嵌入是以端到端的方式学习的,预测是目标节点的自我网络的函数。
Da Zheng 和他在 Amazon AI 的团队正试图通过将图网络分成批次并评估哪些内容留在 GPU 上以及哪些内容由于内存限制而必须同时使用 CPU 和 GPU 进行训练,从而对如何最有效地进行训练进行排序。
在上周的 Hot Chips 上,他解释说,他们只能在 GPU 上使用某些模型的完整图,以便在 GPU 内存中使用时加快训练速度。否则,他们必须将图形分成小批量,这最终会更快并在 CPU 和 GPU 上运行。
“对于 GNN,稀疏和密集操作很重要,训练方法很重要,”他解释道。“对于全图训练,稀疏和密集操作都占运行时间的 50%。对于小批量训练,密集操作主导计算。然而,小批量采样会导致显着的开销,尤其是在混合 CPU/GPU 训练的情况下。