[论文笔记] FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling (2026.03)

发表于 2026-04-22 更新于 2026-04-23 分类于论文笔记阅读次数：本文字数： 251 阅读时长 ≈ 1 分钟

背景：FA3虽然取得了很大的性能突破，但其主要针对 H100 架构的硬件，目前业内主要采用的是 Blackwell 架构，tensor core吞吐量翻倍，而SRAM等其他单元增长不大。因此需要针对这一特性进行新的算法优化。

FA4主要进行了以下几点改进：