LLMs Interview Note 2.1.5 预训练模型效果的影响因素

发表于 2026-01-02 更新于 2026-01-07 分类于学习笔记阅读次数：本文字数： 918 阅读时长 ≈ 1 分钟

本文为 LLMs Interview Note 的学习笔记。

Scaling Law (Training time)

预训练模型的性能强相关于三个因素：模型参数量N、训练数据量D、训练总计算量C。在其他因素不成为瓶颈，且训练未饱和的情况下，模型性能与N、D、C都呈现出近似的幂律关系，即

$P\propto X^{-\alpha}$

其中 $P$ 代表模型性能， $X\in \{N,D,C\}$

在给定计算量预算下，模型参数量与训练数据量应同比提升，即 $D \propto N$

在预训练过程中，如果同一批token被模型反复看到（如采用多个epoch），模型的整体性能反而可能会下降，此时模型会对训练数据产生过拟合，而不是学到更有泛化性的表示。

在采用了多个epoch的情况下，扩大数据集规模能在一定程度上抵消它对模型性能的影响，因为这种做法增强了模型的泛化性；如果不扩大规模，而是选择提升数据集质量，则无法挽救这种过拟合。

大规模数据集可以抵消重复训练的影响

这种过拟合现象同时存在于小规模和大规模的模型中，说明不是模型表示能力不足导致的，而是一种训练机制上的普遍问题。

这一现象同时存在于不同规模的模型中

越大规模的模型对重复训练的抵抗能力越强，但依然无法根本解决问题；但相同参数规模不同计算量的模型（MoE、ParamShare等）在性能上趋势相同，这启示我们可以使用较小的计算量来预估趋势。

大模型能抵抗重复训练的影响；扩大计算量则没有效果

采用多样化的训练目标，而无法抵消这种性能下降，反而更加容易受到这种性能损失。

Dropout虽然是一种在LLM中常常被忽视的技术，却可以有效地缓解这种现象。

虽然相对较慢，但可以抵消重复数据带来的影响。而且相比于从一开始直接使用Dropout，在后续迭代中逐渐引入Dropout的效果更好。

Dropout可以缓解这种过拟合

需要注意的是，对于不同规模的模型，Dropout的效果并不完全一致；在规模较大的模型中，效果可能较差