英伟达今天与世界上最快的计算机的最新列表同时发布了其Selene AI超级计算机。Nvidia还介绍了基于Ampere的A100 GPU的PCIe尺寸。
Nvidia的新型内部AI超级计算机Selene加入了第55位Top500的行列,打破了能源效率壁垒。Selene凭借27.5双精度Linpack petaflops,在ISC 2020数字会议的今天公布的最新Top500榜单上排名第七。Selene是榜单上性能最高的第二大行业系统,仅次于Eni的 HPC5计算机,后者以35.5 HPL petaflops(还使用Nvidia GPU)排名第六。
该Top500列表标志着两个行业系统进入前十名,而Selene是第一个这样做的内部IT供应商系统。英伟达内部使用超级计算机来支持芯片设计和模型开发,以及在机器人技术,自动驾驶汽车,医疗保健和其他研究项目中的工作。
Selene是位于加利福尼亚州圣克拉拉的DGX SuperPOD,它由DGX A100尺寸内的Nvidia的A100 GPU和AMD的Epyc Rome CPU驱动,并通过Mellanox HDR InfiniBand集群。Selene总共包含280台DGX A100,总共容纳2,240个A100 GPU和494台Mellanox Quantum 200G InfiniBand交换机,提供56 TB / s的网络结构。该系统包括7 PB的全闪存网络存储。
营销高级副总裁吉拉德·谢纳(Gilad Shainer)说,Selene是使用SHARP通过网络和GPU的垂直集成构建的 ,他是通过收购Mellanox来到英伟达的。他在为媒体举行的简短预告中说:“ SHARP是网络上进行数据缩减的引擎,这在传统的HPC模拟和深度学习中都是至关重要的部分。”
该公司表示,在Nvidia 推出Ampere之后,Selene的建造和投入运营不到一个月。
Nvidia还在其他三台计算机上运行内部工作负载,这些计算机使其跻身Top500排名。有基于V100的DGX Superpod机器,它在最新的Top500上以9.4 Linpack petaflops排名第24;基于P100的DGX Saturn-V,于2016年部署,目前以3.3 petaflops排名第78位;Circe,另一个基于V100的Superpod,它以3.1 Linpack petaflops占据了第91梯级。
Moor Insights and Strategy的HPC和深度学习高级分析师Karl Freund提出了评论, 强调了这种内部超级计算能力对Nvidia竞争地位的整合作用。他对HPCwire表示: “首先是在土星5号,现在是在Selene,现在Nvidia正在使用他们自己的技术来创建更好的产品,硬件和软件,这将为某些人创建具有竞争力的产品 打下坚实的基础。” “您无法想象一家初创公司要花费数千万美元来开发超级计算机,工程师们可以用它来开发他们的下一个芯片。使用AI,尤其是深度学习和强化学习网络来进行后端物理设计,已显示出了巨大的创新。”
Nvidia的最新AI超级计算机Selene在Green500名单上排名第二,提供了20.52吉瓦/瓦的功率,成为仅有的两台突破20吉瓦/瓦的障碍的机器之一。排名最高的绿色机器是MN-3,由Top500新人Preferred Networks制造。MN-3的每瓦运行记录达到了创纪录的21.1 gigaflops,Linpack得分为1.62 petaflops,在Top500中排名第394。
Nvidia GPU为Top500上十个最节能的机器中的六个提供动力,在前20个中的十五个中为15个提供动力。
Nvidia还通过使用新的PCIe A100 GPU卡来扩展其Ampere产品组合。当Nvidia 推出 其Ampere架构时,获得A100 GPU的唯一方法是购买Nvidia的DGX A100系统(可提供四GPU和八GPU配置)或HGX A100构建块,并由合作的云服务提供商和服务器制造商加以利用。现在,数据中心公司宣布服务器合作伙伴将推出基于PCIe的系统,其配置范围从一个GPU到十个或更多GPU。
英伟达表示,具有NVLink的SXM变体仍仅作为HGX平台的一部分提供,它具有NVLink连接性,可提供PCIe Gen4带宽的10倍。
Nvidia出售了SXM尺寸和PCIe尺寸的上一代V100 GPU。SXM不仅限于出售HGX板,这使系统制造商能够从根本上构建自己的DGX克隆,这有可能削弱Nvidia的销售额。现在,英伟达正在加强其销售策略,以便希望基于性能更高,配备NVLink的SXM部件提供服务器的OEM合作伙伴必须使用英伟达的四路或八路HGX板构建基于A100的解决方案。
“这是按渠道划分的模型;直接渠道客户可以并且将购买DGX,其他所有人都通过OEM购买。” Freund说。“这是一个非常干净的模型。OEM注意到他们必须迅速采取行动,否则Nvidia将作为系统供应商来承担所有这些责任,对吗?但是Nvidia并不是真的想要拥有一个足够广泛的销售渠道来专门实现这一目标。因此,他们仍然需要OEM。”
PCIe外形在峰值性能上与SXM相匹配:9.7 teraflops FP64性能(高达19.5 teraflops FP64张量核心性能)和19.6 teraflops FP32性能(高达312 teraflops张量浮点32 [启用结构稀疏性])。但是,与SXM的400瓦相比,其功耗为250瓦,PCIe A100旨在以较低的TDP运行。这意味着尽管最高性能相同,但持续性能会受到影响。Nvidia表示,在实际应用中,当在单个GPU上运行时,A100 PCIe GPU可以提供A100 SXM交付性能的90%左右。但据Nvidia称,当扩大应用程序在四个,八个或更多GPU上运行的位置时,由于NVLink连接,HGX内的SXM配置可将性能提高多达50%。
英伟达表示,PCIe配置非常适合主流加速服务器,这些服务器已进入标准机架,每台服务器的功耗更低。“虽然PCIe用于AI推理和某些可跨一个或两个GPU扩展的HPC应用程序,但A100 SXM配置对于应用程序可扩展到服务器以及服务器中多个GPU的客户来说是理想的选择,” Paresh Kharya说, Nvidia加速计算产品管理总监。
随着Nvidia加快其A100的上市速度,该公司期待着由A100驱动的服务器的扩展生态系统。预计今年夏天将有30个系统,到今年年底将有20多个系统。预计将有众多系统制造商推出这些系统,包括华硕,Atos,思科,戴尔技术,富士通,技嘉科技,惠普企业,浪潮,联想,一站式系统,Quanta / QCT和Supermicro。Nvidia还报告说,它正在建立其经过NGC就绪 认证的系统产品组合 。