本文是基于 karpathy/build-nanogpt 项目复现 GPT-2 过程中记录下的笔记。

知识点

  • GPT-2 中的位置编码没有沿用 transformer 论文中的正余弦编码,而是将其视作一种可学习参数进行训练
阅读全文 »

  • 任务:计算机操作Agent

  • 动机:

    • OS集成浅:用不到API、进程状态等

    • 基于截图的交互脆弱:界面改版或遇到非标准界面时容易出错

    • 用户体验差:执行过程容易中断,和用户抢鼠标

阅读全文 »

目前状态:ICLR 2026在投,得分846

方法动机

现有方法受限于两个缺点:

  1. 无法应对无限长的上下文:基于上下文摘要的方法依然受到LLM上下文窗口的限制

  2. 无法构建世界知识:更加侧重于表面的视觉知识,忽略深层次的语义知识

阅读全文 »

目前状态:九月份挂了arxiv,ICLR2026 评分4664

动机

目的:构建一个能有效通过交互与反馈,构建复杂记忆的RL Agent

方法上:以往基于RL的memory agent受限于较为简单的记忆结构(全部重写/维护一个分点列表),无法应对复杂数据

数据上:通常聚焦于LoCoMo的设定,上下文长度较短(max: ~26k tokens);训练和测试在统一分布上,任务较为简单(?)

阅读全文 »

本文是强化学习基础与PPO算法的学习笔记。

首先介绍是强化学习的基本概念(如Agent、State、Action、Reward等,具体见附录)。

RL的基本目标是为了让总体 return 最大,根据对期望回报的数学推导,我们可以导出 policy gredient 的式子:

1Nn=1ntTnR(τ(n))logPθ(an(t)sn(t))\frac1N \sum_{n=1}^n \sum_{t}^{T_n}R(\tau^{(n)})\log P_\theta(a_n^{(t)}|s_n^{(t)})

阅读全文 »

MemAgent (2025.06)

任务:长文档的QA

思路:把文档视作一个“证据流”,通过流式读取文档的方式,动态更新文档对应的记忆;最后通过最终的记忆回答问题;这个流程可以通过强化学习进行优化:当LLM答对问题时,就给予奖励。

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

Scaling Law (Training time)

预训练模型的性能强相关于三个因素:模型参数量N、训练数据量D、训练总计算量C。在其他因素不成为瓶颈,且训练未饱和的情况下,模型性能与N、D、C都呈现出近似的幂律关系,即

PXαP\propto X^{-\alpha}

阅读全文 »

Context engineering 的根本目的,是为了解决“如何让机器更好地理解人类环境和目的”这一问题。

通常我们认为 context engineering 是 prompt engineering 的延伸。但这篇文章揭示了一个新的观点:它认为,上下文的概念已经出现了二十余年,而不仅仅局限于现代 LLM 的提示词这一种形式。自 1990 年代 HCI 框架的出现开始,就已经出现“上下文”的概念,context engineering 作为一种管理上下文的方法也随之诞生。

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

(下面假设输入数据 xxN×C×H×WN\times C\times H\times W 的形状)

BatchNorm

  • 做BN的动机:不同batch的数据分布可能不同,初始时微小的差异可能随着深层网络而逐渐加大,造成参数尺度和方差漂移(internal covariate shift),容易造成梯度爆炸/梯度消失,从而无法训练,这限制人们只能使用较小的学习率来训练模型;为了缓解这一问题需要有一种normalization方法来平衡batch之间的数据分布,以此提升模型训练的稳定性。
阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

Transformer 模型包括 Encoder 和 Decoder 两部分。在设计上,Encoder 在提取一个 token 对应信息的时候可以看到整个序列中的所有 token,而 Decoder 只能看到其前面的所有 token。

现代的大模型主要有以下几种架构:

阅读全文 »
0%