TOPS算力超华为昇腾910近2倍,Groq嵌入式芯片的优势

TOPS算力超华为昇腾910近2倍,Groq嵌入式芯片的优势,第1张

(文章来源:半导体行业观察)

运行 Batch Size 为1(即在推理处理期间对单个图像或样本进行计算)对于许多机器学习工作流来说是一个有价值的选择—特别是那些需要实时响应的工作流。对于安全性至关重要的应用以及通过视觉对象检测,语音识别或其他形式的数据输入创建新的客户体验而言,近乎瞬时的推断至关重要。

例如,在电子商务网站中,当零售客户说出或键入产品名称时自动填充建议的能力就是最佳响应性需要batch size大小为1的一个例子。在无人驾驶汽车中,导航系统可能需要在几毫秒内做出反应,以避免撞上障碍物,因此拥有一个确保每次都能保证最小响应时间的处理体系结构对于安全是至关重要的。然而,小batch size和batch size大小1为机器学习应用程序引入了大量的性能和响应复杂性,特别是在基于GPU的传统推理平台上。

GPU过去是为大规模并行处理而设计的,它建立在多数据或多任务、固定结构的处理引擎上。这些平台最初是为游戏应用程序的实时叁维图形渲染而创建的。GPU基于一组并行进程来渲染图形,这些并行进程同时发生在数百或数千个内核中。并行性依赖于管道架构,每个处理阶段都向正在进行的并行计算添加新数据。由于这种管道架构,GPU每秒可以执行数十亿个与图形相关的几何计算。

TOPS算力超华为昇腾910近2倍,Groq嵌入式芯片的优势,TOPS算力超华为昇腾910近2倍,Groq嵌入式芯片的优势,第2张

在机器学习应用程序中作为处理单元使用时,当以小batch size的数据输入时,GPU的性能会显着下降,因为数据流中的间隙会导致GPU执行的停滞。这种延迟可能会对batch size大小为1的实时推断性能产生显着影响,并对机器学习平台投资的TCO(总拥有成本)产生相关影响。如果应用程序依赖于batch size大小为1的处理来实现实时响应—例如,对于快速响应时间非常重要的应用程序—基于GPU的平台可能无法提供足够快的推断性能。这里将响应能力定义为在最小执行时间(延迟)内为工作负载提供服务的能力。

Groq为机器学习提供了一个替代平台,它不依赖于GPU并行性和长延迟的性能限制,为机器学习工程师提供了一个卓越的推理平台,对小batch size或任何规模的工作负载都没有性能损失。Groq的Tensor流处理器(TSP)架构是专门为机器学习和其他计算密集型应用程序的性能要求而设计的,要求低延迟和高吞吐量。

值得注意的是,Groq架构高度关注batch size大小为1时的低延迟、单线程性能。这个架构在我们的Tensor流处理器(TSP)中实现,是一个单线程、单核架构,可以在任何batch size下提供最大的性能。batch size为1时,Groq的处理器要比基于GPU的平台快17.6倍,大batch size时则要快2.5倍。

Groq编译器在TSP上调度程序执行,为在不受传统GPU体系结构的限制和通信开销的情况下实现灵活性和大规模并行性提供了新的范例。Groq编译器将流 *** 作数编排为在芯片上执行的运算符。因为它了解硬件和每条指令的速度,所以编译器可以准确地告诉硬件效率该做什幺以及什幺时候做。这允许确定性、可重复性和可预测的性能。指令流到硬件完全由编译器编排,使处理高效且可预测。这种性能的可预测性非常有价值,特别是对于安全关键型应用程序来说,实时响应是至关重要的。

实现推理敏捷性(响应能力和性能的结合)的困难,在我们比较一些领先的机器学习平台的已发布基准的性能指标时变得更加明显。

当处理低延迟工作负载时,性能的急剧下降会影响执行实际推理处理所需的机器学习集群的大小。无论有多少推理工作量响应,Groq平台都能支持近20,000 IPS。然而,这两个NVIDIA平台不仅一开始的峰值性能IPS数量较少,而且一旦将任何实时响应工作负载添加到工作流中,IPS就会逐渐减少。如果运行一个100%的推理平台,延迟小于1毫秒,Groq芯片的速度几乎比NVIDIA GPU快18倍。

当将上述结果外推到购买用于计算集群设计的参数时,这种性能和延迟差异变得特别有意义。为了实现少量Groq处理器的推理处理性能,需要在大量的NVIDIA GPU上进行投资。

事实上,在集群中部署了Groq之后,就不需要区分性能和响应能力,因为Groq处理batch size大小为1和大批大小的batch size时具有相同的低延迟和高效率。因此,对于需要响应能力以满足用户期望和满足严格的服务水平协议(sla)的工作负载,只需要25台Groq服务器就可以替代401台NVIDIA服务器。

机器学习推理的性能和响应能力之间的比率对于计算集群的设计和投资具有显着的现实影响。其他机器学习平台需要在延迟和吞吐量之间进行权衡。在非Groq平台中,性能会迅速下降,即使一小部分工作负载需要实时、低延迟响应。Groq革命性的TSP架构提供业界领先的性能和亚毫秒级延迟,为计算密集型应用程序提供高效的软件驱动解决方案。
      (责任编辑:fqj)

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/dianzi/2504555.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-08-05
下一篇2022-08-05

发表评论

登录后才能评论

评论列表(0条)

    保存