本文为 LLMs Interview Note 的学习笔记。

Scaling Law (Training time)

预训练模型的性能强相关于三个因素:模型参数量N、训练数据量D、训练总计算量C。在其他因素不成为瓶颈,且训练未饱和的情况下,模型性能与N、D、C都呈现出近似的幂律关系,即

PXαP\propto X^{-\alpha}

阅读全文 »

Context engineering 的根本目的,是为了解决“如何让机器更好地理解人类环境和目的”这一问题。

通常我们认为 context engineering 是 prompt engineering 的延伸。但这篇文章揭示了一个新的观点:它认为,上下文的概念已经出现了二十余年,而不仅仅局限于现代 LLM 的提示词这一种形式。自 1990 年代 HCI 框架的出现开始,就已经出现“上下文”的概念,context engineering 作为一种管理上下文的方法也随之诞生。

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

(下面假设输入数据 xxN×C×H×WN\times C\times H\times W 的形状)

BatchNorm

  • 做BN的动机:不同batch的数据分布可能不同,初始时微小的差异可能随着深层网络而逐渐加大,造成参数尺度和方差漂移(internal covariate shift),容易造成梯度爆炸/梯度消失,从而无法训练,这限制人们只能使用较小的学习率来训练模型;为了缓解这一问题需要有一种normalization方法来平衡batch之间的数据分布,以此提升模型训练的稳定性。
阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

Transformer 模型包括 Encoder 和 Decoder 两部分。在设计上,Encoder 在提取一个 token 对应信息的时候可以看到整个序列中的所有 token,而 Decoder 只能看到其前面的所有 token。

现代的大模型主要有以下几种架构:

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

概念

Word2Vec的思路是把单词转化为向量表示,进而便于计算机进行处理。

传统方法包括采用one-hot对单词进行表示,但这一方法存在缺陷:一是单词表可能很大,甚至达到百万级别,将词汇编码成如此大的向量对后续过程的计算造成了很大的挑战;二是one-hot编码的向量都是彼此正交的,无法体现词汇之间的相关性关系。

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

概念

分词是语言模型的基础。分词的质量直接关系着词性标注、句法分析等后续环节,也有语言模型的效果密切相关。英语以空格为天然的分词符,相比之下中文的分词则更加复杂,需要引入专门的分词算法。

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

语言模型

语言模型,最初是在信息理论的背景下研究的。香农在信息论中引入了熵,用于衡量一段文本被压缩后的期望比特数;熵越小,代表文本的结构性越强,也即信息量越少,编码的长度也就越短。

阅读全文 »
0%