在数据方面,人工智能就像吃豆人。硬盘驱动器,NAS,常规数据中心和基于云的存储方案无法满足AI对速度和容量(特别是实时性)的狂热需求。如今玩游戏需要对存储进行根本性的重新思考,以此作为机器学习,深度学习,图像处理和神经网络成功的基础。
“ AI和大数据正在主导决策和运营的各个方面,”全闪存存储和服务提供商Vast Data的产品副总裁兼联合创始人Jeff Denworth说。“对大量快速数据的需求使传统的存储金字塔已过时。将新思想应用于许多最棘手的问题,有助于实时地简化存储和访问大量数据储备的工作,从而获得前所未有的见解。”
人工智能推动存储激增
各种新技术和体系结构正在重塑存储,这些新技术和体系结构可以提供各种类型的AI所需的高带宽,大容量,快速I / O,低延迟和灵活的可伸缩性。其中的关键是固态磁盘(SSD),闪存驱动器和缓存软件,NVMe,DAOS,存储类内存(SCM),以及诸如Intel Optane介质之类的混合设备,它们可以缩小存储与内存之间的差距。
像5G,物联网,流分析以及AI时代其他速度和数据魔鬼一样的进步推动了全球存储需求的激增。
麦肯锡表示,到2025年,全球AI应用程序所需的合并存储将增长十倍,从每年80艾字节增加到845艾字节。(Exabyte = 1,048,576 TB)。这表示细分市场每年增长25-30%。医疗保健,有54%采用AI的预测到2023年,将是一个主要驱动力,因为在许多行业将AI和DL培训。
“优化的AI和ML工作流程需要在计算,内存和存储之间达到适当的平衡,”Moor Insights&Strategy创始人Patrick Moorhead说道。“关于优化的ML计算的讨论很多,但关于存储的讨论却不多。”这种情况正在迅速改变。
“喂我-现在!”容量和带宽是关键原因很简单:人工智能应用程序消耗并生成令人难以置信的数据量-每个项目最多数百PB或更多。
例如,英特尔研究表明:一家智能医院将每天产生3,000 GB自动驾驶汽车每天将产生超过4,000 GB的流量联网飞机每天将产生5,000 GB相连的工厂每天将产生100万GB考虑:识别一个男人或女人的简单面部识别大约需要1亿张图像。所需的8位文件的总存储量最大为4.5 PB。
但这不只是数量庞大。这些海量数据通常依赖实时分析以使其有价值。不幸的是,提供GPU和其他需要大量数据的AI计算节点的能力和经济性远远超过了硬盘驱动器。
通过一个64KB的计算,大约需要5,000个HDD来提供使运行速度为20GB / s的GPU服务器达到饱和所需的随机读取IOP / S。(相比之下,NVMe闪存驱动器可提供高达此工作负载1000倍的性能。)
另一个难题:人工智能工作负载通常起源于边缘或网络分支,而不是集中式数据中心。这给组织带来了额外的架构挑战,组织必须借助临时的云爆发或永久的云基础架构来应对内部容量的建设。不管它们在哪里运行,“ AI工作负载都呈现出波动的访问模式,可变的读/写混合以及不断变化的块大小,这些都需要高吞吐量和极低的延迟,”英特尔存储市场经理Roger Corell说。