LLMs Interview Note 2.1.5 预训练模型效果的影响因素
本文为 LLMs Interview Note 的学习笔记。
Scaling Law (Training time)
预训练模型的性能强相关于三个因素:模型参数量N、训练数据量D、训练总计算量C。在其他因素不成为瓶颈,且训练未饱和的情况下,模型性能与N、D、C都呈现出近似的幂律关系,即
本文为 LLMs Interview Note 的学习笔记。
预训练模型的性能强相关于三个因素:模型参数量N、训练数据量D、训练总计算量C。在其他因素不成为瓶颈,且训练未饱和的情况下,模型性能与N、D、C都呈现出近似的幂律关系,即
P∝X−α
Context engineering 的根本目的,是为了解决“如何让机器更好地理解人类环境和目的”这一问题。
通常我们认为 context engineering 是 prompt engineering 的延伸。但这篇文章揭示了一个新的观点:它认为,上下文的概念已经出现了二十余年,而不仅仅局限于现代 LLM 的提示词这一种形式。自 1990 年代 HCI 框架的出现开始,就已经出现“上下文”的概念,context engineering 作为一种管理上下文的方法也随之诞生。
本文为 LLMs Interview Note 的学习笔记。
(下面假设输入数据 x 是 N×C×H×W 的形状)
本文为 LLMs Interview Note 的学习笔记。
Transformer 模型包括 Encoder 和 Decoder 两部分。在设计上,Encoder 在提取一个 token 对应信息的时候可以看到整个序列中的所有 token,而 Decoder 只能看到其前面的所有 token。
现代的大模型主要有以下几种架构:
本文为 LLMs Interview Note 的学习笔记。
Word2Vec的思路是把单词转化为向量表示,进而便于计算机进行处理。
传统方法包括采用one-hot对单词进行表示,但这一方法存在缺陷:一是单词表可能很大,甚至达到百万级别,将词汇编码成如此大的向量对后续过程的计算造成了很大的挑战;二是one-hot编码的向量都是彼此正交的,无法体现词汇之间的相关性关系。
本文为 LLMs Interview Note 的学习笔记。
分词是语言模型的基础。分词的质量直接关系着词性标注、句法分析等后续环节,也有语言模型的效果密切相关。英语以空格为天然的分词符,相比之下中文的分词则更加复杂,需要引入专门的分词算法。
本文为 LLMs Interview Note 的学习笔记。
语言模型,最初是在信息理论的背景下研究的。香农在信息论中引入了熵,用于衡量一段文本被压缩后的期望比特数;熵越小,代表文本的结构性越强,也即信息量越少,编码的长度也就越短。
self-attention二次方复杂度带来的计算挑战 → 加速推理和减少内存消耗
现有的模型大多基于较小的语料,而且是针对特定任务的
从meta-learning的角度来看,multi-task learning需要相当多的 (task, dataset) 组合作为train sample,这是不现实的