[论文笔记] FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision (2024.07)

发表于 2026-04-22 更新于 2026-04-23 分类于论文笔记阅读次数：本文字数： 420 阅读时长 ≈ 1 分钟

在 FA2 中，注意力的计算速度得以大幅提升。但其在新一代GPU上的利用率依然偏低，比如在 Hopper 架构的 H100 上利用率仅有35%，而GEMM内核则可达80-90%。这种现象主要源自以下几个原因：

因此 FA3 中提出了以下三点改进：

GPU内存结构

线程层次结构：从低到高分别为，threads, warps (32 threads), warpgroups (4 warps), threadblocks (CTA), threadblock clusters, grids