背景:FA3虽然取得了很大的性能突破,但其主要针对 H100 架构的硬件,目前业内主要采用的是 Blackwell 架构,tensor core吞吐量翻倍,而SRAM等其他单元增长不大。因此需要针对这一特性进行新的算法优化。

FA4主要进行了以下几点改进:

  1. 重新设计流水线以实现全异步的矩阵乘法以及更大的矩阵尺寸
  2. 通过软件模拟指数运算与softmax以减少 non-matmul op
  3. 使用 tensor memory 与 2-CTA MMA 模式减少反向传播中的 IO 开销
  4. 实现上的改进:使用 CuTe-DSL 实现,编译速度提升 20-30x

在 FA2 中,注意力的计算速度得以大幅提升。但其在新一代GPU上的利用率依然偏低,比如在 Hopper 架构的 H100 上利用率仅有35%,而GEMM内核则可达80-90%。这种现象主要源自以下几个原因:

  1. 实现差异:没有采用Hopper架构的专有指令集进行加速

  2. 先前实现遵循简化的同步模型,没有利用异步性和低精度计算的特性

因此 FA3 中提出了以下三点改进:

阅读全文 »

FlashAttention-2 是基于 FlashAttention 的改进版,运算效率得到了约 2x 提升。下面是本文的阅读笔记。

动机

虽然 FlashAttention 通过减少 IO 搬运,大幅提升了运算速度以及减少显存占用,但并没有完全发挥GEMM运算的理论速度,只达到了理论FLOPs的25-40%。其原因在于GPU上不同 thread blocks 和 warps 分配不够优秀,核心占用率偏低且存在不必要的内存读写。因此 FlashAttn-2 进行了三点优化:

  1. 调整算法,减少非矩阵乘法的运算量。在 GPU 上有专门的 GEMM 计算单元,吞吐量可高达其他算子的 16 倍。
  2. 在序列长度维度上,将注意力计算并行分配到不同 thread block 上;
  3. 在线程块内实现 warps 并行,减少共享内存通信。
阅读全文 »

摘要

Transformer -> 时空复杂度为n^2,长序列的时间和内存占用过大

Appr. Attn -> 牺牲精度,但无法提升 wall-clock time -> 侧重于降低FLOPs,忽视了降低IO开销

FlashAttn -> IO aware,通过分块减少 HBM(显存)和 SRAM(寄存器)之间的读写次数 -> 节省IO成本

扩展:block-sparse attn,速度优于所有近似的注意力方法

阅读全文 »

本文是基于 karpathy/build-nanogpt 项目复现 GPT-2 过程中记录下的笔记。

知识点

  • GPT-2 中的位置编码没有沿用 transformer 论文中的正余弦编码,而是将其视作一种可学习参数进行训练
阅读全文 »

  • 任务:计算机操作Agent

  • 动机:

    • OS集成浅:用不到API、进程状态等

    • 基于截图的交互脆弱:界面改版或遇到非标准界面时容易出错

    • 用户体验差:执行过程容易中断,和用户抢鼠标

阅读全文 »

目前状态:ICLR 2026在投,得分846

方法动机

现有方法受限于两个缺点:

  1. 无法应对无限长的上下文:基于上下文摘要的方法依然受到LLM上下文窗口的限制

  2. 无法构建世界知识:更加侧重于表面的视觉知识,忽略深层次的语义知识

阅读全文 »

目前状态:九月份挂了arxiv,ICLR2026 评分4664

动机

目的:构建一个能有效通过交互与反馈,构建复杂记忆的RL Agent

方法上:以往基于RL的memory agent受限于较为简单的记忆结构(全部重写/维护一个分点列表),无法应对复杂数据

数据上:通常聚焦于LoCoMo的设定,上下文长度较短(max: ~26k tokens);训练和测试在统一分布上,任务较为简单(?)

阅读全文 »

本文是强化学习基础与PPO算法的学习笔记。

首先介绍是强化学习的基本概念(如Agent、State、Action、Reward等,具体见附录)。

RL的基本目标是为了让总体 return 最大,根据对期望回报的数学推导,我们可以导出 policy gredient 的式子:

1Nn=1ntTnR(τ(n))logPθ(an(t)sn(t))\frac1N \sum_{n=1}^n \sum_{t}^{T_n}R(\tau^{(n)})\log P_\theta(a_n^{(t)}|s_n^{(t)})

阅读全文 »

MemAgent (2025.06)

任务:长文档的QA

思路:把文档视作一个“证据流”,通过流式读取文档的方式,动态更新文档对应的记忆;最后通过最终的记忆回答问题;这个流程可以通过强化学习进行优化:当LLM答对问题时,就给予奖励。

阅读全文 »
0%