本文根据一篇飞书内部学习材料整理,并结合知识库中的结构化笔记重写。
入门前先看什么
很多人一上来想学“大模型训练”,其实先该学的是“怎么理解这件事”。
很多人第一次说自己想学大模型,脑子里其实装着好几个问题。
一部分人想知道,大模型到底怎么训练出来的。
一部分人想知道,为什么别人总在说 Transformer、注意力机制、Tokenizer。
还有一部分人真正关心的是:我能不能在自己的电脑上先跑起来,再慢慢往训练走。
这些问题放在一起时,最容易出现的结果就是越学越乱。因为你会发现每个名词都像入口,但每个入口后面又牵着另外五个名词。
所以我现在更倾向于把“大模型入门”看成一条学习路径,而不是一份术语清单。
你要先知道整个系统在做什么,再决定先下手哪一块。
先分清训练和推理
先分清训练和推理,很多事情就顺了。
如果只记一个最重要的区分,我会建议先记住这两个词:
- 训练
- 推理
训练是模型在海量数据上不断预测、不断纠错、不断调整参数的过程。
推理则是模型在已经学好的参数基础上,根据你当前输入的上下文,逐个生成下一个 token。
这两个阶段像是同一个学生人生里的两段完全不同的状态。
- 训练像“读书和学习”
- 推理像“考试和工作”
一旦这个区别立住,很多概念的位置就会清楚很多:
- 权重文件是训练留下来的结果
- Tokenizer 是推理的入口
- Transformer 是训练和推理都在用的核心结构
- 微调属于训练侧,但比从零预训练轻得多
也正因为这样,大部分人的入门顺序都不该是“先想怎么训练一个大模型”,而应该是“先看一个大模型怎么跑起来”。
Transformer 如何理解上下文
真正值得先理解的,是 Transformer 为什么能看懂上下文。
很多人会被 Transformer 这个词吓到,以为背后一定是一堆复杂公式。
但如果先把它讲成人话,它其实是在解决一个非常朴素的问题:
当前这个词,应该重点参考前面的哪些词?
这就是注意力机制的意义。
比如一句话里出现了很多词,但当模型要预测“冰水”时,它显然更该注意“天气”和“太热”,而不是“小明”或者“商店”。
注意力机制做的,就是给这些上下文线索打分,再决定该重点看谁。
Tokenizer 则负责更早的一步。它先把文字切成 token,再映射成数字 ID。
所以整个过程其实是这样的:
- 文本先变成 token 和 ID
- token 进入 Transformer
- 模型通过注意力机制理解上下文
- 最后输出下一个 token 的概率分布
很多初学者一开始容易把这几步混在一起。
但如果你把它们拆开,大模型就没那么像黑箱了。
训练主线的三个阶段
训练主线其实可以很简单地记成三段。
当你再往训练那边走时,也不需要一开始就钻进实现细节。
先把主线记成三段,已经够用了:
- 预训练
- 指令微调(SFT)
- 人类反馈对齐(RLHF)
预训练解决的是“让模型学会语言规律和通用知识”。
这一步通常依赖海量文本,核心目标往往就是下一个 token 预测。
但预训练出来的基座模型,通常更像一个很会续写的学生,不一定很会按你的要求回答问题。
所以才有第二步 SFT。它更像老师拿着高质量问答样本去教模型:遇到这种指令,应该这样答。
再往后,模型还是可能答得不够礼貌、不够有帮助、不够符合人类偏好。
这时 RLHF 才会进来,利用人类对不同答案的偏好反馈,进一步把模型拉向“更好用”的方向。
把这三段串起来,你就能理解为什么现在大家讨论大模型时,总会反复提到基座模型、微调、对齐这些词。
为什么要先跑通本地推理
对大多数人来说,真正该先动手的是本地推理。
如果你的目标是“以后能理解训练”,那最好的第一步往往不是训练,而是先把推理跑通。
因为本地推理会逼你真正接触这些东西:
- 模型文件到底是什么
- Tokenizer 怎么把文本变成 ID
transformers这样的框架在帮你做什么- GPU 为什么这么重要
当你第一次把一个小模型下载下来,看见 .safetensors 这种大文件,再用几行 Python 代码把一句话送进模型,得到一串输出时,你对“大模型是什么”会立刻从抽象概念,变成工程直觉。
这一步特别重要。
因为很多人学了很多训练术语,但从来没亲手跑过一次模型,最后对整个系统的理解仍然停留在名词层面。
更实际的入门顺序通常是:
- 先跑通一个小模型的本地推理
- 再观察 Tokenizer、生成参数和显存占用
- 再去理解微调
- 最后再看从零预训练和更重的训练体系
更适合初学者的学习顺序
真正适合初学者的,不是“数学优先”,而是“直觉优先,代码跟上”。
很多人会担心自己数学不够好,所以不敢学大模型。
但现实是,对于有编程基础的工程同学来说,第一阶段最需要的往往不是数学推导能力,而是把系统拆开的能力。
你要先知道:
- 哪些概念在解决什么问题
- 哪些阶段属于训练,哪些属于推理
- 哪些东西是工程门槛,哪些东西是理论门槛
等这些位置关系清楚了,你再往下补线性代数、概率论、优化方法,吸收速度反而更快。
所以如果让我给“大模型训练怎么入门”下一句定义,我会这样说:
先把训练和推理讲明白,再把 Transformer 和注意力看懂,先跑通推理,最后再往训练走。
这条路看起来慢一点,但对大多数人来说,其实更快。