在线体育博彩- 合法体育、彩票和赛马- 立即投注OpenAI久违发了篇「正经」论文:线性布局实现高效张量计算

日期: 栏目:体育APP 浏览:

  体育博彩,在线体育博彩,线上体育投注,最佳体育赔率,体育,体育博彩平台推荐,正规博彩平台,体育投注平台,体育投注app,体育博彩平台网址大全,体育博彩平台,体育投注平台推荐,靠谱的体育投注平台,体育投注靠谱吗,线上体育投注平台推荐,线上体育投注平台,体育博彩加密货币网站,体育赛马投注,体育投注平台例如,为了实现高效的矩阵乘法,英伟达在 Ampere、Hopper 和 Blackwell 等不同代际的 GPU 上采用了不同的使用 Tensor Core 的布局,并且每种布局在使用不同数据类型时都有不同的变体。AMD 和英特尔等其它 GPU 供应商在利用其类似 Tensor Core 的技术进行加速时,也使用了不同的布局。因此,硬件架构的快速发展和多样化的深度学习模型需要一种新的张量布局建模方法。

  可以观察到,高效的硬件原语(例如 ldmatrix 和 stmatrix)在这些核中被广泛用于布局转换以及共享内存的加载和存储操作。值得注意的是,layer_norm 实现了从 0.99 倍到 1.57 倍的加速 —— 在不同形状之间表现出了显著差异。对于某些输入形状,Triton-Linear 能够检测「等效」布局之间的转换,从而将转换过程降低为 no-op(无操作)。这种优化在旧版布局系统中无法实现,因为它无法直接比较不同类型的布局(例如,Blocked 布局和 Sliced 布局)。

  在 RTX4090 上,新方法实现了 1.00 倍到 1.51 倍的加速。由于 mma (RTX4090) 和 wgmma (GH200) 指令之间的差异,他们在 template_attention 上实现了更高的加速。在本例中,tt.dot 运算的左操作数在循环外部定义,会重复从同一地址加载数据,因此 ldmatrix 和常规共享内存指令均可实现高吞吐量。虽然右操作数在每次迭代中都会更新,但 wgmma 会直接在共享内存中访问它,只有在 RTX4090 上,经过优化后,它才会被降级到 ldmatrix 中。因此,在 GH200 上实现的加速相对较低。在 MI250 上,新方法实现了 0.98 倍到 1.18 倍的加速。

标签: