本文为 LLMs Interview Note 的学习笔记。

概念

Word2Vec的思路是把单词转化为向量表示,进而便于计算机进行处理。

传统方法包括采用one-hot对单词进行表示,但这一方法存在缺陷:一是单词表可能很大,甚至达到百万级别,将词汇编码成如此大的向量对后续过程的计算造成了很大的挑战;二是one-hot编码的向量都是彼此正交的,无法体现词汇之间的相关性关系。

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

概念

分词是语言模型的基础。分词的质量直接关系着词性标注、句法分析等后续环节,也有语言模型的效果密切相关。英语以空格为天然的分词符,相比之下中文的分词则更加复杂,需要引入专门的分词算法。

阅读全文 »

本文为 LLMs Interview Note 的学习笔记。

语言模型

语言模型,最初是在信息理论的背景下研究的。香农在信息论中引入了熵,用于衡量一段文本被压缩后的期望比特数;熵越小,代表文本的结构性越强,也即信息量越少,编码的长度也就越短。

阅读全文 »

本文是实变函数的课程学习笔记。

第一章

  • 任何无限集必有一个可列子集

    • 对无限集而言,一定存在某个它的真子集,使得该子集与原集合对等
阅读全文 »
0%