您的位置:首页>科技>

TENSOR单元是英特尔新型AI CENTRIC FPGA的关键

在过去的四到五年中,我们已经写了很多有关FPGA在不断扩展的深度学习领域(在训练和推理中)可能发挥的作用的文章。那里的进展比某些人预期的要慢,尤其是在推理方面,考虑到Intel(源自Altera)和Xilinx的设备具有可重新配置性和较低的功耗选项。似乎有一段时间,覆盖将是更广泛采用的解决方案,但是现在看来,新的方向是通过对矩阵元素进行打包(您可能已经猜到了)来进一步对硬件进行微调。

考虑到这一点,英特尔已经发布了新的Stratix 10 NX FPGA的详细信息,该Stratix 10 NX FPGA通过更高密度的设计针对深度学习进行了优化,并支持混合精度,并包括“张量算术模块”,它是对标准的修订版。 Stratix DSP模块,用于矩阵运算。英特尔还在AI优化架构的最新概述中提供了有关网络和HBM集成的详细信息。

代表DSP的“ AI张量模块”由密集矩阵数学单元组成,可以处理混合精度工作负载。较小的单元也可以组合使用较大的精度乘法器。就矩阵单位而言,这并不陌生。我们已经在许多AI芯片初创公司的各种化身中看到了这一点,这些公司在可重新配置性方面可能具有一些类似FPGA的功能,但不一定在高端数据中心FPGA上具有。

如下所示,该体系结构具有三个点积元素,每个块具有10个乘法器和10个累加器,因此使其适用于矩阵/矩阵和矢量矩阵运算,而没有大小限制。它针对Int-8和Int-4进行了调整,还可以处理FP16。这里的关键特征是可以将这些张量块中的几个组合在一起,以处理更大的向量数学。

免责声明:本文由用户上传,如有侵权请联系删除!