从软件角度看AI硬件Groq由一群软件工程师于2016年创立,他们希望从软件方面解决AI问题。当他们在未对AI体系结构看起来有任何先入之见的情况下解决问题时,他们能够创建可以映射到不同AI模型的体系结构。
该公司专注于数据中心和自动驾驶汽车的推理市场,其第一款产品是PCIe插件卡,Groq为此为其设计了ASIC和AI加速器并开发了软件堆栈。
这种硬件的一部分就是他们所谓的TSP或张量流处理器。上个月,Groq宣布他们的TSP架构每秒能够实现1千万亿次运算。
AI半导体设备的独特硅架构
据首席运营官阿德里安·门德斯(Adrian Mendes)称,除了其软件基础以外,Groq的不同还在于其硅架构。Groq的AI半导体设备的核心芯片设计与多核GPU或FPGA中通常使用的流水线工艺非常不同。
它从一开始就被开发出来的方式是从编译器开始的,因此设计人员可以看到不同的机器学习(ML)模型是什么样的,并可以对它们进行优化。从那里,他们可以在高度灵活的体系结构上开发硬件。
Groq声称这种硅架构具有三个明显的优势:
AI模型的灵活性
通过基于软件的优化对即将到来的AI模型进行前瞻性验证
有关编译需求的更多信息
凭借高度灵活的AI架构,设计人员无需将其映射到ResNet-50或长期短期记忆(LSTM)等神经网络。相反,他们可以采用足够通用的这种体系结构,并具有可扩展性以适应研究团体创建的新模型。随后,可以针对这些模型优化具有PetaOp功能的体系结构,而无需在硬件上进行任何更改。
换句话说,它是可以容纳我们还未见过的AI模型的硬件,并且可以在软件堆栈中完成优化。除了灵活性以外,AI芯片还为不同的AI模型提供了高推断吞吐量和极低的延迟。
第三个重要特征是芯片可以确定性地减少周期数。正如Mendes所解释的,这意味着当机器学习工程师采用一个程序并将其推入编译器时,他或她将立即知道该程序将运行多长时间。
因此,工程师可以了解他们的功耗,是否要针对延迟或吞吐量进行优化,以及如何更改这些不同参数中的每个参数的设计。而且他们可以在编译所需的时间(不是很长)内完成此操作。
现在将其与工程师必须运行硬件一千次并查看延迟的方法进行比较。总结了芯片确定性的好处。