在 AMDGPU 上优化 Triton Flash-Attention
最近在 AMDGPU 上优化用 Triton 实现的 Flash-Attention 算子,有一些优化手段值得记录下来。 通过调整 Block 发射顺序减少 SIMD 的 IDLE 时间 FA 的 Triton 实现中,将 Q 在 M 方向切分为了不同的 block。在前向过程中,如果 causal = True,那么 Q 只有左下三角的元素参与计载。即参与计算的元素在 M 方向从上到下逐渐增加。在默认的实现中,block 是从上到下按序发射的,即先发射负载小的块,再发射负载大的块。由于负载较大的块难以被分配到 SIMD 上,因此导致了较大的 SIMD IDLE。通过从倒序从下到上发射块,即先发射负载大的块,再发射负载小的块,由于负载小的块可以被更均衡地分配到各 SIMD 上,因此可以有效减少 SIMD IDLE。 先发射负载小的块,再发射负载大的块,导致较大的 SIMD IDLE 先发射负载大的块,再发射负载小的块,可以减少 SIMD IDLE 通过实现 chain-dot 减少对 LDS 的访存 在我们的硬件规范下,Q 和 K 矩阵乘的结果 QK 的 Layout 跟 Q 是不同的,因此需要先将 QK 的 Layout 转到跟 Q 一样才可以继续与 V 进行矩阵乘(和 Q 一样作为第一个操作数)。可以通过插入一些寄存器指令对线程之间的数据进行交换,以避免通过写入写出 LDS 来进行 Layout 的转换,这些指令(例如 bpermute, swizzle 等)的开销远小于 LDS 访存。 ...