大语言模型训练范式深度解析

2025-12-23

大语言模型（LLM）的卓越能力，源于一套成熟的“预训练+微调”训练范式。这一体系融合了自监督、有监督等多种学习方式，还衍生出PPO、DPO等差异化优化路径。本文从基础概念到具体阶段，再到生态差异，全面拆解大模型训练的底层逻辑，厘清各环节的关联与区别。

一、训练的基础：三大学习方式定义与关联

在进入具体训练阶段前，需先明确各学习方式定义，这是理解后续流程的关键：

无监督学习：使用无标签数据，模型自主探索数据规律，无需人工标注的正确答案，典型场景如聚类分析、异常检测。
有监督学习：依赖带标签（人工标注的正确答案）的数据训练，标签可是情感分类中的“正向/负向”、问答场景中的“标准答案”等，核心是让模型学习“输入→正确输出”的映射关系。
自监督学习：数据自身既作为输入又作为监督信号，无需人工标注。预训练阶段的文本预测任务（给定前n个词预测第n+1个词）就是典型的自监督学习——文本片段既是“问题”，也是“标准答案”。
半监督学习：“预训练（自监督）+ SFT（有监督）”的组合方式，适用于数据充足但标注资源有限的场景，核心是结合无标注数据的通用规律与标注数据的任务导向。

二、训练阶段全解析：从基础构建到质量优化

大模型训练是循序渐进的迭代过程，核心分为四大核心阶段，不同模型在后续优化阶段存在路径差异：

（一）预训练（Pretrain）：自监督学习构建通用知识底座

1. 核心概念

预训练是模型的“启蒙阶段”，采用自监督学习方式，让模型在海量无标注文本中学习人类语言规律与广泛知识，为后续任务适配打下基础。

2. 关键细节

数据特征：使用万亿级（t）纯文本数据，涵盖百科、新闻、知乎等多领域完整段落，避免碎片化内容；Llama 3使用15万亿Tokens，约合37.5亿个4000 Token的段落。
核心任务：逐字学习人类文字使用方式，吸收大量知识，建立基础语言理解能力与文字表达能力。
训练目标：最大化似然函数 $L_{1}(U)=\sum_{i} log P(u_{i} | u_{i-k}, ..., u_{i-1} ; \Theta)$ ，即让模型准确预测下一个Token的概率分布，最终能计算完整段落的联合概率（所有字符概率的乘积）。
段落联合概率的作用：是评估模型学习效果的核心指标，初始随机模型的联合概率极小，训练后逐步提升，可量化模型对语言规律的掌握程度。
算力与周期：成本占整体训练的90%以上，Llama 2用2048张A100显卡训练21天，Llama 3的400亿参数模型需16000张H100显卡训练54天。

3. 能力局限

预训练模型虽能流畅续写文本，但存在“接话茬”现象——仅附和对话而非解决问题，无法完成计算、推理等具体任务。根源在于训练数据仅为连续文本，缺乏问答交互式样本，训练目标单一（仅预测下一个词）。

（二）有监督微调（SFT）：让模型“会做具体任务”

1. 核心概念

SFT是在预训练基础上，通过有监督学习方式，用少量标注问答数据调整模型参数，让模型从“语言模仿”转向“任务执行”。

2. 关键细节

数据特征：数据量级远小于预训练，仅需几十万到100万条问答对（如InstructGPT仅用13k条），格式为“问题+标准答案”，与预训练的连续文本形成鲜明对比。
数据来源：早期由人工撰写（如OpenAI雇佣80名博士撰写），现代采用“AI生成+人工筛选”模式降低成本。
训练机制：仍采用自回归预测方式，通过特殊分隔符连接问答对，在数据末尾添加终止符，让模型学习停止生成的时机。
核心目标：解决预训练模型的“接话茬”问题，让模型理解任务意图，掌握对话、分类、代码生成等具体能力；开源模型常以“instruct”后缀标识完成SFT优化。

3. 局限与衔接

SFT仅能保证模型“会做任务”，但无法确保“做好任务”，回答质量与人类优秀水平仍有差距，需进入后续阶段进一步优化。

（三）奖励模型（Reward Model）

1. 核心概念

奖励模型是独立于主语言模型（如 GPT）的额外训练模型，核心作用是作为评估模型输出的 “教练”，通过学习人类偏好数据建立评分标准，为后续强化学习提供实时反馈，解决 “回答不够好” 而非 “回答错误” 的问题。

2. 完整训练流程

1.前置依赖：需基于完成预训练和 SFT 阶段的模型，依赖其已具备的基本问答能力，为奖励模型生成训练数据打下基础。

2.训练数据生成：

准备数万到几十万条 Prompt（覆盖多领域场景），让 SFT 后的模型为每个 Prompt 生成多个 Response（利用模型概率特性产生差异化输出）。
核心逻辑：同一问题多次生成可降低数据收集成本，同时确保数据具备质量基础，避免无意义输出干扰训练。

3.标注数据处理（构建偏好数据）：

标注策略：优先选择排序法（优于直接打分 / 评级），更符合人类判断习惯；每次标注 4 个答案并排序（如 B>A>C>D），可一次性得到 6 条相对关系（B > A、B > C、B > D、A > C、A > D、C > D），提升标注效率。
分级优化：Meta 的进阶方案将 “优于” 细分为 4 个等级（显著 > 较好 > 稍好 > 略好），同时引入人工编辑环节，优化首选回答（形成 “edited>chosen>rejected” 的质量层级）。
成本控制：采用低成本标注团队（如肯尼亚标注员，日薪约 2 美元），标注 6条数据仅需 2-3 倍单条数据的阅读时间，平衡成本与效率。

4.模型训练执行：

输入输出定义：以 “问题 + 模型回答” 为输入，训练模型输出 0-100 分的质量分数，形成量化评估结果。
训练目标：让模型输出的分数排序与人类标注的偏好关系一致（如人类标注 D>C>A，则模型给出的分数需满足 D 分 > C 分 > A 分），同时能处理等价情况（如 A=B 表示回答质量相当）。
训练本质：模型通过学习标注数据自主寻找评分规律，无预设固定评分模板，通过 “尝试打分方案→验证是否符合人类排序→调整策略” 的迭代过程优化。

3. 核心功能与价值

自动化评估：替代人工评估数百万条模型输出数据，解决人工评估的可行性与效率问题。
实时反馈支撑：为后续强化学习提供逐字指导的评分信号，让强化学习的 “生成 - 评估 - 优化” 闭环得以落地，这也是借鉴 AlphaGo 强化学习技术在对话领域的创新应用。

（四）强化学习优化：让模型“做好任务”，两大路径差异

这是模型从“合格”到“优秀”的关键阶段，核心是根据奖励模型的评分调整参数，主流分为PPO和DPO两条路径：

1. PPO（近端策略优化）：OpenAI的经典方案

算法本质：属于强化学习算法，核心是在“保守策略（稳定收益）”与“探索策略（更高收益）”间权衡，通过限制策略更新幅度，避免训练震荡或崩溃。
工作流程：模型生成回答→奖励模型打分→PPO算法根据分数调整参数→重复迭代，形成“生成-评估-优化”闭环。
迭代机制：当模型进步到奖励模型无法区分优劣时，需重新生成标注数据，训练更强的奖励模型，持续循环优化。

2. DPO（直接偏好优化）：LLaMA的创新方案

核心差异：直接利用偏好数据（一问两答的优劣对比）优化模型，省去PPO的多轮迭代过程，效率更高。
优化目标：同时提升优质答案的联合概率、降低劣质答案的联合概率，类似“奖惩机制”，相比SFT的单方向优化更精细。
配套流程：LLaMA采用“六道轮回”循环，完整执行“生成→标注→SFT→DPO”6次，每次用当前最优模型生成新数据，动态更新标注与模型。

3. 拒绝采样（Rejection Sampling）：LLaMA的辅助优化

每个问题生成10-30个回答，由奖励模型评分后保留Top3优质回答，30万问题可生成90万条高质量问答对，用于补充SFT数据，进一步提升模型性能。

三、核心技术关联与关键区别

1. 各阶段的递进关系

所有训练阶段均是对同一模型的连续优化：预训练（自监督）打基础→SFT（有监督）教任务→奖励模型定标准→PPO/DPO（强化学习）提质量，形成完整闭环。

2. 关键概念区别

自监督vs有监督：自监督的监督信号来自数据本身（如预训练的文本预测），有监督的监督信号来自人工标注（如SFT的问答对）。
半监督的本质：是“预训练（自监督）+ SFT（有监督）”的组合，而非独立阶段。
PPOvsDPO：PPO需通过多轮迭代与奖励模型交互，DPO直接利用偏好数据优化，流程更简洁；两者最终均能实现高质量输出，无代际差距。

四、LLaMA与OpenAI GPT核心差异

从架构设计、训练模式、人类偏好数据收集三大核心维度，拆解两者的底层逻辑差异。

4.1 架构设计

LLaMA与OpenAI（GPT系列）均以Transformer解码器为基础架构，但在“性能-效率-成本”的平衡策略上差异显著，核心差异集中在关键组件优化与开源属性上。

1.架构共性

均采用自回归生成模式，专注文本生成、对话等核心任务；
依赖多头自注意力机制捕捉长距离语义依赖；
通过残差连接解决深层网络梯度消失问题，保障训练稳定性。

2. 核心差异对比

对比维度	OpenAI（GPT系列）	LLaMA系列（LLaMA 2/3）
归一化方式	后置层归一化（LayerNorm在子层输出后）	前置层归一化+RMSNorm（计算量减少50%）
激活函数	GPT-2用ReLU，GPT-3及后续用GELU	统一使用SwiGLU（复杂语义捕捉能力提升10%-15%）
位置编码	GPT-2用正弦余弦编码，后续版本未公开	旋转位置编码（RoPE），支持128k上下文窗口
参数规模策略	大参数导向（GPT-4超1.8万亿参数）	小参数高性能（13B优于GPT-3 175B）
开源属性	闭源，不公开核心代码与权重	开源，公开7B-70B参数权重，支持二次开发
部署适配性	依赖大规模算力，适配云端部署	轻量化设计，可在单张V100 GPU运行

4.2 训练模式

训练模式是两者最核心的差异，OpenAI为“强化学习+多轮循环”，LLaMA为“拒绝采样+直接偏好优化”

4.2.1 OpenAI的“四阶段标准范式”

OpenAI范式: "预训练→PPO"循环（3-4-3-4轮次结构），遵循“基础能力→任务能力→质量评估→迭代优化”的线性流程，核心是PPO与奖励模型的循环强化：

1.预训练（Pretrain）

数据规模：万亿级纯文本（GPT-3超45TB），占整体训练成本90%以上；
核心任务：自监督的“预测下一个token”，最大化段落联合概率（ $L_{1}(U)=\sum_{i} log P(u_{i} | u_{i-k}, ..., u_{i-1} ; \Theta)$
目标：构建通用语言与知识基座，掌握文字规律与广泛知识。

2.有监督微调（SFT）

数据特征：人工撰写的高质量问答对（早期1.3万条，后期扩展至百万级）；
核心目标：解决预训练模型“接话茬”问题，让模型理解任务意图而非单纯续写；
数据格式：通过特殊分隔符拼接“问题+标准答案”，保留自回归预测机制。

3.奖励模型训练（RM）

数据来源：人类标注的“偏好排序数据”（同一问题4-5个回答，人工排序）；
功能定位：独立于主模型的“教练”，输出0-100分质量评分，确保排序与人类一致；
标注成本：早期雇佣80名博士标注，后期引入肯尼亚标注团队（日薪2美元）。

4.强化学习优化（PPO）

核心流程：模型生成回答→RM打分→PPO算法调整参数，强化高分回答；
循环机制：需3-4轮“RM训练→PPO优化”，GPT-4仅PPO阶段消耗超10万张GPU小时；
局限性：依赖RM评分质量，若RM无法区分优劣则进入性能瓶颈。

4.2.2 LLaMA的“六轮循环创新范式”（LLaMA 2/3）

LLaMA范式: "预训练→DPO"循环（2-3-4-5轮次结构），以“偏好数据”为核心，通过“拒绝采样+DPO”简化强化学习：

1.预训练（Pretrain）

数据规模：LLaMA 3使用15万亿Token（约37.5亿个段落），聚焦公开来源数据；
目标与OpenAI一致，但通过“更多公开数据”弥补参数规模劣势，训练成本仅为GPT-3的1/20。

2.奖励模型训练（RM）

差异点：早于SFT介入，基于预训练模型生成回答；
标注维度：人工标注“显著优于/好/较好/略微好”四级排序，比OpenAI更精细。

3.拒绝采样（Rejection Sampling）

核心创新：每个问题生成10-30个回答→RM评分→保留Top 3优质回答；
效果：数据利用率提升3倍，单条数据质量接近人工撰写的90%，LLaMA 3通过该步骤生成90万条优质问答对。

4.有监督微调（SFT）

数据构成：拒绝采样筛选的优质回答（70%）+人工修正数据（30%）；
训练效率：LLaMA 3 SFT阶段仅需1600张H100 GPU运行5天，数据量为预训练的1/5000。

5.直接偏好优化（DPO）

核心创新：替代PPO的轻量优化方式，无需复杂强化学习流程；
原理：提升“好回答”的联合概率，降低“差回答”的概率，类似“奖惩机制”；
优势：计算量比PPO减少60%，代码生成任务性能追平GPT-4。

6.六轮循环迭代

机制：每完成“RM→拒绝采样→SFT→DPO”一次，用优化后的模型生成新数据重复流程；
验证：Meta实验显示6轮后性能达峰值，第7轮提升不足5%，固定为“六道轮回”。

LLM训练流程

4.2.3 训练模式核心差异总结

对比维度	OpenAI（GPT系列）	LLaMA系列
核心优化技术	PPO（近端策略优化，依赖强化学习）	DPO（直接偏好优化，无需强化学习）
数据成本	高（单模型标注成本超1亿美元）	低（AI生成+人工筛选，成本降为1/5）
训练循环机制	“RM→PPO”3-4轮线性循环	“RM→拒绝采样→SFT→DPO”6轮闭环迭代
性能突破方式	增大模型参数规模	优化数据质量（拒绝采样筛选优质样本）
可复现性	闭源，无法复现训练过程	开源，公开数据来源与训练代码，可复现

4.3 人类偏好数据收集

人类偏好数据是模型“对齐人类期望”的核心，两者均遵循“一个问题→多个回答→人类排序”的核心逻辑，但在收集方式、成本控制上存在差异。

1. 通用收集逻辑

核心形式：避免精准打分的主观性，采用“排序标注”（如B>A>C>D）；
数据利用率：4个回答排序可生成6条相对关系，大幅提升训练样本量；
核心目标：捕获人类对回答“全面性、严谨性、深度”的主观评价标准。

2. 具体收集方式差异

对比维度	OpenAI（GPT系列）	LLaMA系列
回答生成数量	每个问题生成4-5个回答（基于SFT模型）	每个问题生成10-30个回答（基于预训练/RM模型）
标注维度	早期二分类（好/差），后期三级排序（好/中/差）	四级细分+人工编辑优化（edited>chosen>rejected）
成本控制策略	高薪博士团队→肯尼亚低薪标注员（日薪2美元）	AI生成→RM初筛→低薪标注→专家抽检（成本为1/10）
数据规模	GPT-4 RM阶段约33万条偏好数据	LLaMA 3 RM阶段约100万条（含6轮循环新增数据）
工具支持	自研标注平台，人工逐句阅读排序	自动化工具（高亮差异），标注效率提升2倍

3. 行业实践案例

MID Journey（文生图工具）：生成4张低清预览图→用户选择偏好图生成高清版→选择行为即为偏好数据，支撑5亿美元年收入；
ChatGPT：通过“哪个回答更好”反馈按钮收集用户偏好，每天产生超10亿条反馈数据；
LLaMA开源社区：通过“用户贡献聊天记录”模式，让用户成为免费标注师，降低数据成本。

五、总结

大模型训练的核心逻辑是“数据驱动+人类反馈”：用万亿级数据通过自监督学习构建预训练底座，用少量标注数据通过有监督学习教会模型做任务，再用人类偏好数据训练奖励模型，最后通过PPO或DPO优化回答质量。

开源生态与OpenAI的路线差异，本质是成本与灵活性的权衡——开源模型通过合成数据、用户贡献数据降低成本，提供高灵活性；OpenAI通过付费标注、闭源优化保证数据质量与性能，提供开箱即用的服务。两者虽路径不同，但均能实现顶尖水平，共同推动大模型技术的落地与迭代。