tsunAImi加速器卡中使用的run200AI设备取代了旨在移动数据的传统Von Neumann架构,而被设计用于计算。处理元件位于存储器内部以创建分布式处理阵列。
runAI200设备使用整数数据类型和1的批处理模式。存储库具有385kb的SRAM和512个处理元素的2D数组。每个芯片有511个存储区,每个存储区合起来可提供200Mbyte。在“运动”模式下,操作最高可达502 TOPS。在“ eco”模式下配置,它可提供8TOPS。
该公司表示,加速卡的计算能力可以在批次= 1时转换为超过80,000 fps的ResNet-50 v 1.5吞吐量,是其最接近竞争对手的吞吐量的三倍。该公司表示,在另一项基准测试中,对于自然语言处理,加速卡每秒可以处理超过12,000个基于BERT的查询。它说,这比任何宣布的产品快四倍。
runAI200器件使用具有成本效益的16纳米工艺制造。
用于推理的AI将成为数据中心的重要元素,它将在此提高其计算密度,从而加快智能城市以及其他AI和机器学习应用程序的性能。
tsunAImi加速卡是用于云或服务器的标准外形PCI Express卡。它支持用于机器学习的TensorFlow和PyTorch开放软件。