LLMs Interview Note 1.3.1 Word2Vec
本文为 LLMs Interview Note 的学习笔记。
概念
Word2Vec的思路是把单词转化为向量表示,进而便于计算机进行处理。
传统方法包括采用one-hot对单词进行表示,但这一方法存在缺陷:一是单词表可能很大,甚至达到百万级别,将词汇编码成如此大的向量对后续过程的计算造成了很大的挑战;二是one-hot编码的向量都是彼此正交的,无法体现词汇之间的相关性关系。
本文为 LLMs Interview Note 的学习笔记。
Word2Vec的思路是把单词转化为向量表示,进而便于计算机进行处理。
传统方法包括采用one-hot对单词进行表示,但这一方法存在缺陷:一是单词表可能很大,甚至达到百万级别,将词汇编码成如此大的向量对后续过程的计算造成了很大的挑战;二是one-hot编码的向量都是彼此正交的,无法体现词汇之间的相关性关系。
本文为 LLMs Interview Note 的学习笔记。
分词是语言模型的基础。分词的质量直接关系着词性标注、句法分析等后续环节,也有语言模型的效果密切相关。英语以空格为天然的分词符,相比之下中文的分词则更加复杂,需要引入专门的分词算法。
本文为 LLMs Interview Note 的学习笔记。
语言模型,最初是在信息理论的背景下研究的。香农在信息论中引入了熵,用于衡量一段文本被压缩后的期望比特数;熵越小,代表文本的结构性越强,也即信息量越少,编码的长度也就越短。
self-attention二次方复杂度带来的计算挑战 → 加速推理和减少内存消耗
现有的模型大多基于较小的语料,而且是针对特定任务的
从meta-learning的角度来看,multi-task learning需要相当多的 (task, dataset) 组合作为train sample,这是不现实的