[论文笔记] Mem-α: Learning Memory Construction via Reinforcement Learning

发表于 2026-01-10 更新于 2026-01-20 分类于论文笔记阅读次数：本文字数： 1.4k 阅读时长 ≈ 1 分钟

目前状态：九月份挂了arxiv，ICLR2026 评分4664

动机

目的：构建一个能有效通过交互与反馈，构建复杂记忆的RL Agent

方法上：以往基于RL的memory agent受限于较为简单的记忆结构（全部重写/维护一个分点列表），无法应对复杂数据

数据上：通常聚焦于LoCoMo的设定，上下文长度较短（max: ~26k tokens）；训练和测试在统一分布上，任务较为简单（？）

把记忆构建转化为智能体决策问题，根据信息chunk决定执行怎样的记忆操作，并基于下游任务的准确性来设定多种奖励
构造了一个涵盖多种多轮对话记忆的数据集
采用包含核心记忆、情景记忆、语义记忆的综合记忆架构，并与训练流程解耦
1. 发现提出的Mem-alpha方法具有强泛化性：仅在30k数据上训练，却也能在400k的测试集上泛化 → 说明提取出了根本性的记忆管理原则，而不仅仅是记录了特定模式；（也能说明512 token的core memory是完全充足的，足以涵盖400k的上下文）

Core memory：一段固定长度的段落（<512 tokens），一般是关于用户的基本信息，模型每次推理都能访问到，只允许完全重写（理由：保证整体质量）

Semantic memory：事实知识的分点列表，允许增量更新（insert, update, delete）；类似long-term memory的语义相关性

Episodic memory：按照时间顺序排列的情景记忆，xxx在xxx时间做了xxx事；类似short-term memory；不过mem-alpha实现中和语义记忆的检索方式一样

检索方式：core直接放进每次的prompt中，semantic和episodic每次通过embedding或bm-25检索到top-k的memory放入prompt

优点：记忆具有多样性，不局限于只允许完全重写（传统基于RAG的记忆），或是只允许增量更新（ACE）

奖励函数：r1 (accuracy) + r2 (tool-call format) + beta * r3 (compression rate) + gamma * r4 (memory quality)

其中 beta 和 gamma 是超参数

r1 和 r2 都是 [0, 1] 之间的指标

r3 = 1 - len_new / len_old

r4 是用 qwen3-32b 评判的记忆有效指标

训练方法：GRPO，为了鼓励模型探索，移除了 KL 散度惩罚项

训练目标：一个单独的记忆决策模型（Qwen3-4B，没用8B的原因是大模型在指令遵循上出现问题）；QA则采用另外一个 fixed-param LLM。

MemoryAgentBench，一个测试agent记忆能力的benchmark，包含三类数据集：

Accurate retrieval：文档检索、长对话检索
- SQuAD：单文档 QA
- HotpotQA：多文档 QA
- PerLTQA：长上下文 QA
Test-time learning: 测试时文本分类
- TREC Coarse：问题类型粗分类
- NLU：多领域意图分类
- PubMed：医学文献主题分类
Long-Range Understanding：超长文本摘要
- BookSum：长书籍摘要