可组合的基础架构专家Liqid接受了Nvidia的DGX-2,这是AI计算的2 petaFLOPS超级巨星,而新贵表示,它已经使用现成的技术构建了类似的基于GPU的超级计算机,其价格仅为DGX-2和DGX的一半。在ResNet-50图像识别基准上提供了20%以上的性能提升。
Liqid的新系统LQD8360利用该公司的PCIe可组合结构,Dell Technologies PowerEdge R640服务器和多达20个Nvidia Quadro RTS 8000 GPU的扩展机箱,这些扩展机箱在单独的物理机箱或JBOG中将GPU封装在一起的GPU)。Liqid告诉我们,其Command Center软件与智能,低延迟,基于PCIe的架构相结合,使GPU可以在裸机级别与Dell Technologies R640节点进行动态配置。
结果:根据TensorFlow ResNet-50基准,LQS8360系统实现了每秒超过15,000幅图像的图像训练吞吐量,而DGX-2的则为12,000 /秒。
Liqid首席执行官兼联合创始人Sumit Puri对我们说:“它是世界上最快的单计算机之一。” “而且我们并不是通过构建一堆奇特的硬件来做到这一点的。为此,我们采用了标准的现成硬件,并组成了可产生世界最高性能的配置。现在……我们将在Dell进行SKU处理,客户将可以直接从Dell购买。”
普里拒绝透露具体的美元数据,他说LQD8360的价格将约为DGX-2的一半,后者的标价为399,000美元。
可以肯定的是,Puri并未为其系统申请“ DGX-2杀手”的称号。实际上,他说Nvidia是Liqid's的技术合作伙伴,Nvidia有助于调整LQS8360的性能。相反,他强调说LQS8360特别适合“视觉密集型”工作负载(例如监视视频的实时分析,面部识别,车牌识别,智能城市交通监控),因此使用ResNet基准测试,该指标可每秒可识别的图像,可用于机器学习训练操作和推理。
这两个系统之间的主要区别在于它们各自的GPU:LQS8360使用了较便宜和较旧的Nvidia Quadro RTX 8000,而DGX-2采用了Nvidia的更新的,价格更高的V100 Tensor Core。
“ DGX-2基于V100平台,V100是一种特定类型的GPU,正在推动某些以数据中心为中心的工作负载,” Puri说。“英伟达很可能永远不会基于RT X 8000 GPU来构建DGX-2,因为它不是它们的最高端旗舰产品。我们发现的是采用RTX 8000并将其部署到我们的结构中并以适当的方式对其进行配置,在某些情况下,我们可以达到与DGX-2解决方案竞争的性能水平;在其他情况下,(LQS8360)实际上更适合渲染作业,而DGX-2可能更多机器学习…在某些工作负载下,客户可能希望使用V100,因为对于他们给定的工作负载而言,V100的表现会更好。
行业观察家Moor Insights&Strategy的 HPC和机器学习高级分析师Karl Freund 表示,Liqid出售LQD8360来渲染工作负载而非AI可能会取得更大的成功。他在一封电子邮件中告诉我们:“ Quadro RTX是a)通过较慢的(2X)PCIe与NVLink相连接,b)没有HBM内存,c)没有张量核心,”他在一封电子邮件中告诉我们。“但是他们能够将其中的20个打包到服务器中,这令人印象深刻。”
他还指出,尽管ResNet-50用于小图像,但“许多AI正在解决更大的问题,为此NVLink将提供更好的可伸缩性。” 关于这两个系统之间的价格性能差异,Freund表示,“对于渲染而言,这更重要,恕我直言,它也不需要以对延迟敏感的方式进行扩展。”
在构建LQD8360时,Liqid与电信提供商Orange Silicon Valley(戴尔是跨国电信运营商Orange SA(以前的法国Télécom)的子公司)合作。
LQD8360具有裸机的可组合性和经过优化的Dell BIOS,可以将多达20个RTX 8000 GPU分配给结构上的PowerEdge R640节点,而无需重新设计物理机箱,使其成为业内容量最高的扩展机箱(JBOG)。到Liqid。当配置有20个GPU(每个具有48GB的内存容量)时,系统将提供960GB的VRAM并启用Nvidia GPUDirect对等功能,从而允许在结构上每个GPU的内存区域之间进行高速直接内存访问传输,在两个GPU的内存之间存储和加载数据。此外,Liqid Command Center旨在通过在工作负载完成时将GPU重新分配给各个节点来最大程度地减少空闲计算资源。
该公司表示:“ Liqid的可组合解决方案通过优化GPU与CPU的比例并根据需要动态更改这些比例,从而降低了部署成本,从而显着提高了高密度计算环境的总体拥有成本。” “可组合模型使GPU可以即时集成到计算节点中,以通过软件定义的技术最大程度地利用这些强大的计算加速器。”
该系统因橙色硅谷与Liqid合作而无法使用。
“他们引入了我们的一些设备,并开始针对特定的用例进行测试,这些案例是针对最终用户的……围绕AI和GPU进行……,诸如将智能GPU部署在云中和边缘的事情,” Puri说过。
他说,LQD8360在诞生之初就只是一个“很小的沙箱”,而它却变得越来越大。“他们说的是,他们想要一个非常大的沙箱,以便他们可以调整一些AI算法,以查看可获得的最大性能。我们告诉他们,“嘿,如果您正在寻找可以提供此功能的沙箱,我们将为您组成一个。”
Liqid和Dell致力于调整PowerEdge BIOS以支持多个GPU。
“考虑一下–在1-U披萨盒中,戴尔从来没有理由在该BIOS中支持20个GPU,因为您不能放置多个GPU,对吗?因此,我们与戴尔合作,并获得了能够识别数十个GPU的BIOS。然后,我们回到了Orange……与他们的AI工程师一起对诸如Tensor之类的CUDA之类的东西进行调整,对诸如ResNet之类的应用程序进行调整,以了解我们可以从中获得多少性能。”
调整一直在继续,Puri告诉我们,截止到本周,Orange将系统的性能再降低了5%。