LLM大模型训练/推理的显卡内存需求计算

无论你是从头开始训练 LLM、对其进行微调还是部署现有模型，选择合适的 GPU 对成本和效率都至关重要。在这篇博客中，我们将详细介绍使用单个和多个 GPU 以及不同的优化器和批处理大小进行 LLM 训练和推理时 GPU 要求的所有信息。

计算机处理器由多个决定性电路组成，每个电路都可以处于关闭或打开状态。就内存而言，这两种状态由 0 或 1 或位表示。一组八位称为一个字节。1 个字节可以表示零（00000000）和 255（11111111）之间的数字，或 28（等于 256 个不同位置）。通常，在 FP-32（包括符号、指数和尾数）数据类型上训练的神经网络最多占用 4 个字节的内存。

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

模型参数常用的数据类型如下：

float（32 位浮点）：每个参数 4 个字节
half/BF16（16 位浮点）：每个参数 2 个字节
int8（8 位整数）：每个参数 1 个字节
int4（4 位整数）：每个参数 0.5 个字节

1、什么会消耗 GPU 内存？

在模型训练期间，大部分内存被四个东西消耗

11 模型参数

模型参数是神经网络的可学习组件。它们定义网络的结构和行为，并在训练期间更新以最小化损失函数。通常，我们有权重和偏差参数。

正如我们已经知道的那样，存储一个数字需要 4 个字节。假设我们的模型中有 P 个参数。

参数内存（M）= 参数数量（P）x 精度大小（4 字节）
M = Px4
16 位 M = P x 精度大小（2 字节）也类似

我们可以添加一个缩放因子并制定一个标准公式，如下所示：

这里 1.2 表示在 GPU 内存中加载额外内容的 20% 开销，Q 是加载模型应使用的位数。即 16 位、8 位或 4 位。

16 位 Llama 70B 需要 GPU 内存：

这是推理 Llama 70b 模型所需的总体最低 GPU。

1.2 激活

当输入数据通过网络时，激活是每层神经元的中间输出。在前向传递过程中，每层处理输入数据，应用权重、偏差和激活函数（如 ReLU、sigmoid 等）来产生激活。然后，这些激活将作为下一层输入。

需要存储每个层的激活，因为它们在反向传播期间用于计算梯度。

激活内存 = 激活数量 x 批次大小 x 精度大小

注意：“每个参数的激活”取决于模型架构、层数和序列长度。对于大型模型，激活通常需要与参数相当或超过参数的内存。将序列长度加倍也可能使激活内存加倍。

近似值：没有固定的公式来计算激活的 GPU 内存。对于较大的模型，激活所需的内存可能大致与参数的内存相似或略大。

1.3 梯度

梯度是损失函数关于模型参数的偏导数。它们表示应调整每个参数多少以最小化损失函数。

在反向传播期间，损失通过网络向后传播，并计算每个参数（权重和偏差）的梯度。优化器使用这些梯度来更新参数，从而减少整体损失。

存储梯度所需的内存等于参数本身所需的内存。由于每个参数都有相应的梯度，因此它们的内存要求相同。

梯度内存 = 参数内存

1.4 优化器状态

优化器状态是某些优化算法（如 Adam、RMSprop）维护的附加变量，用于提高训练效率。这些状态有助于根据过去的梯度更新模型参数。

不同的优化器维护不同类型的状态。例如：

SGD（随机梯度下降）：没有附加状态；仅使用梯度来更新参数。
Adam：为每个参数维护两个状态：一阶矩（梯度平均值）和二阶矩（梯度平方平均值）。这有助于动态调整每个参数的学习率。对于具有 100 万个参数的模型，Adam 需要为每个参数维护 2 个附加值（一阶矩和二阶矩），从而产生 200 万个附加状态。

优化器状态的内存 = 参数数量 x 精度大小 x 优化器乘数