Glerium's Blog

LLMs Interview Note 1.3.1 Word2Vec

发表于 2025-12-23 更新于 2026-01-07 分类于学习笔记阅读次数：本文字数： 2.4k 阅读时长 ≈ 2 分钟

本文为 LLMs Interview Note 的学习笔记。

概念

Word2Vec的思路是把单词转化为向量表示，进而便于计算机进行处理。

传统方法包括采用one-hot对单词进行表示，但这一方法存在缺陷：一是单词表可能很大，甚至达到百万级别，将词汇编码成如此大的向量对后续过程的计算造成了很大的挑战；二是one-hot编码的向量都是彼此正交的，无法体现词汇之间的相关性关系。

阅读全文 »

LLMs Interview Note 1.2.1 分词

发表于 2025-12-21 更新于 2026-01-07 分类于学习笔记阅读次数：本文字数： 774 阅读时长 ≈ 1 分钟

本文为 LLMs Interview Note 的学习笔记。

概念

分词是语言模型的基础。分词的质量直接关系着词性标注、句法分析等后续环节，也有语言模型的效果密切相关。英语以空格为天然的分词符，相比之下中文的分词则更加复杂，需要引入专门的分词算法。

阅读全文 »

LLMs Interview Note 1.1.1 语言模型

发表于 2025-12-20 更新于 2026-01-07 分类于学习笔记阅读次数：本文字数： 2.3k 阅读时长 ≈ 2 分钟

本文为 LLMs Interview Note 的学习笔记。

语言模型

语言模型，最初是在信息理论的背景下研究的。香农在信息论中引入了熵，用于衡量一段文本被压缩后的期望比特数；熵越小，代表文本的结构性越强，也即信息量越少，编码的长度也就越短。

阅读全文 »

[论文笔记] When Tokens Talk Too Much: A Survey of Multimodal Long-Context Token Compression across Images, Videos, and Audios

发表于 2025-12-14 更新于 2026-01-02 分类于论文笔记阅读次数：本文字数： 606 阅读时长 ≈ 1 分钟

Token压缩的动机

self-attention二次方复杂度带来的计算挑战 → 加速推理和减少内存消耗
- 在MLLM中更加明显，visual / audio数据的token数量比纯文本高几个数量级

阅读全文 »

[论文笔记] Improving Language Understanding by Generative Pre-Training (GPT-1)

发表于 2025-07-18 更新于 2025-12-30 分类于论文笔记阅读次数：本文字数： 548 阅读时长 ≈ 1 分钟

研究背景

现实生活中无标签的文本数据远多于带标签的数据
- 现有的许多模型依赖于大量任务特定的、带标签的数据进行训练，十分费时费力

阅读全文 »

[论文笔记] Language Models are Unsupervised Multitask Learners (GPT-2)

发表于 2025-07-17 更新于 2025-12-30 分类于论文笔记阅读次数：本文字数： 597 阅读时长 ≈ 1 分钟

背景

现有的模型大多基于较小的语料，而且是针对特定任务的
从meta-learning的角度来看，multi-task learning需要相当多的 (task, dataset) 组合作为train sample，这是不现实的

阅读全文 »

运筹学课程笔记

发表于 2024-12-20 更新于 2025-12-30 分类于课程笔记阅读次数：本文字数： 1.5k 阅读时长 ≈ 1 分钟

本文是运筹学的课程学习笔记。

阅读全文 »

机器学习课程笔记

发表于 2024-06-18 更新于 2025-12-30 分类于课程笔记阅读次数：本文字数： 9.8k 阅读时长 ≈ 9 分钟

本文是机器学习的课程学习笔记。

阅读全文 »

实变函数课程笔记

发表于 2024-06-13 更新于 2025-12-30 分类于课程笔记阅读次数：本文字数： 6.9k 阅读时长 ≈ 6 分钟

本文是实变函数的课程学习笔记。

第一章

任何无限集必有一个可列子集
- 对无限集而言，一定存在某个它的真子集，使得该子集与原集合对等

阅读全文 »

数理统计课程笔记

发表于 2024-05-27 更新于 2025-12-30 分类于课程笔记阅读次数：本文字数： 1.4k 阅读时长 ≈ 1 分钟

本文是数理统计的课程学习笔记。

阅读全文 »