随着人工智能在企业环境中蓬勃发展,数据中心的功耗也将随之增长。人工智能是很多东西,但省电并不是其中之一。
对于运行典型企业应用程序的数据中心,机架的平均功耗约为7 kW。然而,据数据中心组织AFCOM称,对于AI应用而言,每个机架使用30 kW以上的功率是很常见的。这是因为AI需要更高的处理器利用率,并且处理器(尤其是GPU)非常耗电。例如,Nvidia GPU的运行速度可能比CPU快几个数量级,但每个芯片的功耗也要翻倍。使问题复杂化的是,许多数据中心已经受到功率限制。
散热也是一个问题:面向AI的服务器需要更高的处理器密度,这意味着会有更多芯片塞满机箱,而且它们都非常热。与典型的后台服务器相比,更高的密度以及更高的利用率增加了对冷却的需求。更高的冷却要求反过来又增加了功率要求。
因此,如果出于竞争原因希望采用AI,但现有设施的电源容量却无法满足AI的高密度基础设施要求,您该怎么办?这里有一些选择。
考虑液体冷却
一旦机架超过15 kW,风扇冷却通常就会失去生存能力。然而,根据企业液体冷却产品制造商CoolIT Systems的说法,水的热容量是空气的3000倍。结果,服务器机柜制造商一直在向机柜添加液体管道,并将水管道连接至散热器,而不是风扇。
“对于高密度负载,液体冷却绝对是一个很好的选择,”数据中心开发商和运营商Sabey数据中心运营高级副总裁John Sasser说。“这消除了混乱的气流问题。水散发的热量比空气散发的热量多得多,您可以通过管道将其引导。许多HPC(高性能计算)都是通过液体冷却来完成的。”
Sasser表示,大多数数据中心都是为空气冷却而设置的,因此液体冷却将需要资本投资,“对于这些工作,这可能是更为明智的解决方案,尤其是如果公司决定朝[AI]的方向发展。”说。
以较低的分辨率运行AI工作负载
Hyperion Research高级研究副总裁史蒂夫·康威(Steve Conway)表示,现有的数据中心也许能够以减少的方式处理AI计算工作量。即使不是大多数,许多工作负载也可以以一半或四分之一的精度而不是64位双精度来运行。
“对于某些问题,半精度是可以的,” Conway说。“以更低的分辨率运行它,减少数据量。或其中的科学更少。”
在科学研究中,主要需要双精度浮点计算,这通常是在分子水平上进行的。在AI训练或深度学习模型推论中通常不使用双精度,因为不需要。甚至Nvidia也提倡在深度神经网络中使用单精度和半精度计算。
建立一个AI收容区
人工智能将成为您业务的一部分,但不是全部,这应该反映在您的数据中心中。“正在建造的新设施正在考虑将其设施的一部分分配给更高的能耗,”建造和运营数据中心的Five 9s Digital的合伙人Doug Hollidge说。“您不会将所有设施置为更高的密度,因为还有其他应用程序具有较低的吸引力。”
Hollidge说,第一件事就是评估建筑物的能源供应。“如果要增加建筑物的能源消耗,必须确保电源供应器可以增加电源。”