GPT-2 复现笔记
本文是基于 karpathy/build-nanogpt 项目复现 GPT-2 过程中记录下的笔记。
知识点
- GPT-2 中的位置编码没有沿用 transformer 论文中的正余弦编码,而是将其视作一种可学习参数进行训练
本文是基于 karpathy/build-nanogpt 项目复现 GPT-2 过程中记录下的笔记。
任务:计算机操作Agent
动机:
OS集成浅:用不到API、进程状态等
基于截图的交互脆弱:界面改版或遇到非标准界面时容易出错
用户体验差:执行过程容易中断,和用户抢鼠标
目前状态:ICLR 2026在投,得分846
现有方法受限于两个缺点:
无法应对无限长的上下文:基于上下文摘要的方法依然受到LLM上下文窗口的限制
无法构建世界知识:更加侧重于表面的视觉知识,忽略深层次的语义知识
目前状态:九月份挂了arxiv,ICLR2026 评分4664
目的:构建一个能有效通过交互与反馈,构建复杂记忆的RL Agent
方法上:以往基于RL的memory agent受限于较为简单的记忆结构(全部重写/维护一个分点列表),无法应对复杂数据
数据上:通常聚焦于LoCoMo的设定,上下文长度较短(max: ~26k tokens);训练和测试在统一分布上,任务较为简单(?)
本文是强化学习基础与PPO算法的学习笔记。
首先介绍是强化学习的基本概念(如Agent、State、Action、Reward等,具体见附录)。
RL的基本目标是为了让总体 return 最大,根据对期望回报的数学推导,我们可以导出 policy gredient 的式子:
N1n=1∑nt∑TnR(τ(n))logPθ(an(t)∣sn(t))
任务:长文档的QA
思路:把文档视作一个“证据流”,通过流式读取文档的方式,动态更新文档对应的记忆;最后通过最终的记忆回答问题;这个流程可以通过强化学习进行优化:当LLM答对问题时,就给予奖励。
本文为 LLMs Interview Note 的学习笔记。
预训练模型的性能强相关于三个因素:模型参数量N、训练数据量D、训练总计算量C。在其他因素不成为瓶颈,且训练未饱和的情况下,模型性能与N、D、C都呈现出近似的幂律关系,即
P∝X−α
Context engineering 的根本目的,是为了解决“如何让机器更好地理解人类环境和目的”这一问题。
通常我们认为 context engineering 是 prompt engineering 的延伸。但这篇文章揭示了一个新的观点:它认为,上下文的概念已经出现了二十余年,而不仅仅局限于现代 LLM 的提示词这一种形式。自 1990 年代 HCI 框架的出现开始,就已经出现“上下文”的概念,context engineering 作为一种管理上下文的方法也随之诞生。
本文为 LLMs Interview Note 的学习笔记。
(下面假设输入数据 x 是 N×C×H×W 的形状)
本文为 LLMs Interview Note 的学习笔记。
Transformer 模型包括 Encoder 和 Decoder 两部分。在设计上,Encoder 在提取一个 token 对应信息的时候可以看到整个序列中的所有 token,而 Decoder 只能看到其前面的所有 token。
现代的大模型主要有以下几种架构: