Baichuan2 技术报告笔记

对Baichuan2技术报告阅读后的笔记

Baichuan2 与其他大模型的对比如下表

在这里插入图片描述

在这里插入图片描述

数据处理：主要关注数据频率和质量。数据频率依赖于聚类和去重。构建了一个支持LSH类特征和稠密向量特征的大规模去重和聚类系统，系统可以在数小时内处理万亿级别的数据。基于聚类，单个文档、段落、句子被去重和评分，这些分数被用于预训练时的数据采样。数据处理不同阶段的训练数据的规模如下图。

Baichuan2采用Transformer架构

tokennizer需要平衡两个因素：

考虑这两个因素后，Baichuan2将词表大小从Baichuan1的64000扩展到了125696。

下表显示对Baichuan2 tokenizer与其他tokenizer的对比

在这里插入图片描述

Baichuan2-7B使用RoPE位置向量，Baichuan2-13B使用AliBi

训练时使用AdamW， $\beta_1=0.9$ ， $\beta_2$ =0.95；使用0.1的weight decay，将梯度裁剪到0.5；使用2000的线性warmup使学习率逐渐增加到最大，在应用cosine decay到最小学习率。模型具体参数如下表

在这里插入图片描述

整个模型训练使用BFloat16混合精度，但是因为BFloats对有些操作如位置向量存在问题，对它们使用全精度。
为了训练的稳定性和提升模型性能，将输出向量进行了归一化（即NormHead)
训练中发现LLM的logits非常大，而大的logis会使Transformers推理时对repetition penalty参数敏感，所以应用了max-z损失来来归一化logits（下式中的z是最大的logit值）:
$\mathcal{L}_{max-z} = 2 e^{-4} * z^2 \ \qquad (1)$
训练了一系列的模型来拟合模型的scaling law，结果如下图，拟合的scaling law以很高的准确率预测了haichuan2的最终损失

Baichuan 2 引入了对齐流程生成了两个chat模型：Baichuan2-7B-Chat和Baichuan2-13B-Chat

prompt的标准与Claude一样被标记为helpful或harmless，为了验证数据质量，使用交叉验证-由一名可信的标注员检验众包标注员的一批抽样样本，如果不符合质量标准则丢弃整批数据。

标注的SFT的样本超过了100k。

RLHF的整个流程如下图

在这里插入图片描述

奖励模型：对所有的prompt划分了三层分类系统，包括6个主要类别，30个第二类别，超过200个第三层类别，保证每个类别里的prompt有足够的多样性。奖励模型的损失函数与 InstructGPT 一致，奖励模型的性能结论与Lamma2有一致的结论：两个响应之间的得分差异越大，奖励模型的判别准确率越高。
PPO：用PPO来训练模型，包括四个模型：actor模型负责生成相应，reference模型用来计算KL惩罚，reward模型对整个响应提供奖励，critic模型用来学习token维度的价值
训练详情：critic模型先进行了20个训练步的warmup，接着critic和actor模型由基本的PPO算法来更新。所有的模型都是用0.5的梯度裁剪， $5 e - 6$ 的学习率， $\epsilon=0.1$ 的PPO裁剪阈值。 KL惩罚的系数为 $\beta=0.2$ ，并随着训练进行衰减到0.005。chat模型一共训练了350个迭代。