Glerium's Blog

[论文笔记] FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling (2026.03)

发表于 2026-04-22 更新于 2026-04-23 分类于论文笔记阅读次数：本文字数： 251 阅读时长 ≈ 1 分钟

背景：FA3虽然取得了很大的性能突破，但其主要针对 H100 架构的硬件，目前业内主要采用的是 Blackwell 架构，tensor core吞吐量翻倍，而SRAM等其他单元增长不大。因此需要针对这一特性进行新的算法优化。

FA4主要进行了以下几点改进：

重新设计流水线以实现全异步的矩阵乘法以及更大的矩阵尺寸
通过软件模拟指数运算与softmax以减少 non-matmul op
使用 tensor memory 与 2-CTA MMA 模式减少反向传播中的 IO 开销
实现上的改进：使用 CuTe-DSL 实现，编译速度提升 20-30x

[论文笔记] FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision (2024.07)

发表于 2026-04-22 更新于 2026-04-23 分类于论文笔记阅读次数：本文字数： 420 阅读时长 ≈ 1 分钟

在 FA2 中，注意力的计算速度得以大幅提升。但其在新一代GPU上的利用率依然偏低，比如在 Hopper 架构的 H100 上利用率仅有35%，而GEMM内核则可达80-90%。这种现象主要源自以下几个原因：

实现差异：没有采用Hopper架构的专有指令集进行加速
先前实现遵循简化的同步模型，没有利用异步性和低精度计算的特性

因此 FA3 中提出了以下三点改进：

阅读全文 »

[论文笔记] FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning (2023.07)

发表于 2026-04-13 更新于 2026-04-23 分类于论文笔记阅读次数：本文字数： 1.4k 阅读时长 ≈ 1 分钟

FlashAttention-2 是基于 FlashAttention 的改进版，运算效率得到了约 2x 提升。下面是本文的阅读笔记。

动机

虽然 FlashAttention 通过减少 IO 搬运，大幅提升了运算速度以及减少显存占用，但并没有完全发挥GEMM运算的理论速度，只达到了理论FLOPs的25-40%。其原因在于GPU上不同 thread blocks 和 warps 分配不够优秀，核心占用率偏低且存在不必要的内存读写。因此 FlashAttn-2 进行了三点优化：

调整算法，减少非矩阵乘法的运算量。在 GPU 上有专门的 GEMM 计算单元，吞吐量可高达其他算子的 16 倍。
在序列长度维度上，将注意力计算并行分配到不同 thread block 上；
在线程块内实现 warps 并行，减少共享内存通信。

阅读全文 »

[论文笔记] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022.06)

发表于 2026-04-08 更新于 2026-04-10 分类于论文笔记阅读次数：本文字数： 4k 阅读时长 ≈ 4 分钟

摘要

Transformer -> 时空复杂度为n^2，长序列的时间和内存占用过大

Appr. Attn -> 牺牲精度，但无法提升 wall-clock time -> 侧重于降低FLOPs，忽视了降低IO开销

FlashAttn -> IO aware，通过分块减少 HBM（显存）和 SRAM（寄存器）之间的读写次数 -> 节省IO成本

扩展：block-sparse attn，速度优于所有近似的注意力方法

阅读全文 »

GPT-2 复现笔记

发表于 2026-01-24 更新于 2026-01-29 分类于学习笔记阅读次数：本文字数： 8.9k 阅读时长 ≈ 8 分钟

本文是基于 karpathy/build-nanogpt 项目复现 GPT-2 过程中记录下的笔记。

知识点

GPT-2 中的位置编码没有沿用 transformer 论文中的正余弦编码，而是将其视作一种可学习参数进行训练

阅读全文 »

[论文笔记] UFO^2 The Desktop AgentOS

发表于 2026-01-19 更新于 2026-01-20 分类于论文笔记阅读次数：本文字数： 1.1k 阅读时长 ≈ 1 分钟

任务：计算机操作Agent
动机：
- OS集成浅：用不到API、进程状态等
- 基于截图的交互脆弱：界面改版或遇到非标准界面时容易出错
- 用户体验差：执行过程容易中断，和用户抢鼠标

阅读全文 »

[论文笔记] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

发表于 2026-01-11 更新于 2026-01-20 分类于论文笔记阅读次数：本文字数： 2.8k 阅读时长 ≈ 3 分钟

目前状态：ICLR 2026在投，得分846

方法动机

现有方法受限于两个缺点：

无法应对无限长的上下文：基于上下文摘要的方法依然受到LLM上下文窗口的限制
无法构建世界知识：更加侧重于表面的视觉知识，忽略深层次的语义知识

阅读全文 »

[论文笔记] Mem-α: Learning Memory Construction via Reinforcement Learning

发表于 2026-01-10 更新于 2026-01-20 分类于论文笔记阅读次数：本文字数： 1.4k 阅读时长 ≈ 1 分钟

目前状态：九月份挂了arxiv，ICLR2026 评分4664

动机

目的：构建一个能有效通过交互与反馈，构建复杂记忆的RL Agent

方法上：以往基于RL的memory agent受限于较为简单的记忆结构（全部重写/维护一个分点列表），无法应对复杂数据

数据上：通常聚焦于LoCoMo的设定，上下文长度较短（max: ~26k tokens）；训练和测试在统一分布上，任务较为简单（？）

阅读全文 »

RL & PPO

发表于 2026-01-07 分类于学习笔记阅读次数：本文字数： 3.9k 阅读时长 ≈ 4 分钟

本文是强化学习基础与PPO算法的学习笔记。

首先介绍是强化学习的基本概念（如Agent、State、Action、Reward等，具体见附录）。

RL的基本目标是为了让总体 return 最大，根据对期望回报的数学推导，我们可以导出 policy gredient 的式子：

$\frac1N \sum_{n=1}^n \sum_{t}^{T_n}R(\tau^{(n)})\log P_\theta(a_n^{(t)}|s_n^{(t)})$

阅读全文 »

Agent Memory 相关文献整理

发表于 2026-01-05 更新于 2026-01-06 分类于论文笔记，文献整理阅读次数：本文字数： 1.3k 阅读时长 ≈ 1 分钟

MemAgent (2025.06)

任务：长文档的QA

思路：把文档视作一个“证据流”，通过流式读取文档的方式，动态更新文档对应的记忆；最后通过最终的记忆回答问题；这个流程可以通过强化学习进行优化：当LLM答对问题时，就给予奖励。

阅读全文 »

0%