Glerium's Blog

GPT-2 复现笔记

发表于 2026-01-24 更新于 2026-01-29 分类于学习笔记阅读次数：本文字数： 8.9k 阅读时长 ≈ 8 分钟

本文是基于 karpathy/build-nanogpt 项目复现 GPT-2 过程中记录下的笔记。

知识点

GPT-2 中的位置编码没有沿用 transformer 论文中的正余弦编码，而是将其视作一种可学习参数进行训练

阅读全文 »

[论文笔记] UFO^2 The Desktop AgentOS

发表于 2026-01-19 更新于 2026-01-20 分类于论文笔记阅读次数：本文字数： 1.1k 阅读时长 ≈ 1 分钟

任务：计算机操作Agent
动机：
- OS集成浅：用不到API、进程状态等
- 基于截图的交互脆弱：界面改版或遇到非标准界面时容易出错
- 用户体验差：执行过程容易中断，和用户抢鼠标

阅读全文 »

[论文笔记] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

发表于 2026-01-11 更新于 2026-01-20 分类于论文笔记阅读次数：本文字数： 2.8k 阅读时长 ≈ 3 分钟

目前状态：ICLR 2026在投，得分846

方法动机

现有方法受限于两个缺点：

无法应对无限长的上下文：基于上下文摘要的方法依然受到LLM上下文窗口的限制
无法构建世界知识：更加侧重于表面的视觉知识，忽略深层次的语义知识

阅读全文 »

[论文笔记] Mem-α: Learning Memory Construction via Reinforcement Learning

发表于 2026-01-10 更新于 2026-01-20 分类于论文笔记阅读次数：本文字数： 1.4k 阅读时长 ≈ 1 分钟

目前状态：九月份挂了arxiv，ICLR2026 评分4664

动机

目的：构建一个能有效通过交互与反馈，构建复杂记忆的RL Agent

方法上：以往基于RL的memory agent受限于较为简单的记忆结构（全部重写/维护一个分点列表），无法应对复杂数据

数据上：通常聚焦于LoCoMo的设定，上下文长度较短（max: ~26k tokens）；训练和测试在统一分布上，任务较为简单（？）

阅读全文 »

RL & PPO

发表于 2026-01-07 分类于学习笔记阅读次数：本文字数： 3.9k 阅读时长 ≈ 4 分钟

本文是强化学习基础与PPO算法的学习笔记。

首先介绍是强化学习的基本概念（如Agent、State、Action、Reward等，具体见附录）。

RL的基本目标是为了让总体 return 最大，根据对期望回报的数学推导，我们可以导出 policy gredient 的式子：

$\frac1N \sum_{n=1}^n \sum_{t}^{T_n}R(\tau^{(n)})\log P_\theta(a_n^{(t)}|s_n^{(t)})$

阅读全文 »

Agent Memory 相关文献整理

发表于 2026-01-05 更新于 2026-01-06 分类于论文笔记，文献整理阅读次数：本文字数： 1.3k 阅读时长 ≈ 1 分钟

MemAgent (2025.06)

任务：长文档的QA

思路：把文档视作一个“证据流”，通过流式读取文档的方式，动态更新文档对应的记忆；最后通过最终的记忆回答问题；这个流程可以通过强化学习进行优化：当LLM答对问题时，就给予奖励。

阅读全文 »

LLMs Interview Note 2.1.5 预训练模型效果的影响因素

发表于 2026-01-02 更新于 2026-01-07 分类于学习笔记阅读次数：本文字数： 918 阅读时长 ≈ 1 分钟

本文为 LLMs Interview Note 的学习笔记。

Scaling Law (Training time)

预训练模型的性能强相关于三个因素：模型参数量N、训练数据量D、训练总计算量C。在其他因素不成为瓶颈，且训练未饱和的情况下，模型性能与N、D、C都呈现出近似的幂律关系，即

$P\propto X^{-\alpha}$

阅读全文 »

[论文笔记] Context Engineering 2.0: The Context of Context Engineering

发表于 2025-12-30 更新于 2026-01-02 分类于论文笔记阅读次数：本文字数： 6.1k 阅读时长 ≈ 6 分钟

Context engineering 的根本目的，是为了解决“如何让机器更好地理解人类环境和目的”这一问题。

通常我们认为 context engineering 是 prompt engineering 的延伸。但这篇文章揭示了一个新的观点：它认为，上下文的概念已经出现了二十余年，而不仅仅局限于现代 LLM 的提示词这一种形式。自 1990 年代 HCI 框架的出现开始，就已经出现“上下文”的概念，context engineering 作为一种管理上下文的方法也随之诞生。

阅读全文 »

LLMs Interview Note 2.1.2 各种Normalization

发表于 2025-12-24 更新于 2026-01-07 分类于学习笔记阅读次数：本文字数： 2.1k 阅读时长 ≈ 2 分钟

本文为 LLMs Interview Note 的学习笔记。

（下面假设输入数据 $x$ 是 $N\times C\times H\times W$ 的形状）

BatchNorm

做BN的动机：不同batch的数据分布可能不同，初始时微小的差异可能随着深层网络而逐渐加大，造成参数尺度和方差漂移（internal covariate shift），容易造成梯度爆炸/梯度消失，从而无法训练，这限制人们只能使用较小的学习率来训练模型；为了缓解这一问题需要有一种normalization方法来平衡batch之间的数据分布，以此提升模型训练的稳定性。

阅读全文 »

LLMs Interview Note 1.3.4 LLM为什么采用Decoder only架构？

发表于 2025-12-23 更新于 2026-01-07 分类于学习笔记阅读次数：本文字数： 874 阅读时长 ≈ 1 分钟

本文为 LLMs Interview Note 的学习笔记。

Transformer 模型包括 Encoder 和 Decoder 两部分。在设计上，Encoder 在提取一个 token 对应信息的时候可以看到整个序列中的所有 token，而 Decoder 只能看到其前面的所有 token。

现代的大模型主要有以下几种架构：

阅读全文 »

0%