12.5. 小批量随机梯度下降¶

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 SageMaker Studio Lab 中打开 Notebook

到目前为止，我们遇到的梯度学习方法都存在两个极端：在 12.3节中，我们使用完整数据集来计算梯度并一次性更新参数。相反，在 12.4节中，我们一次只处理一个训练样本来取得进展。这两种方法都有其缺点。当数据非常相似时，梯度下降的*数据效率*并不高。而随机梯度下降的*计算效率*也不高，因为CPU和GPU无法充分利用向量化的全部能力。这表明，可能存在一种介于两者之间的方法，而事实上，这正是我们在之前讨论的示例中一直使用的方法。

12.5.1. 向量化与缓存¶

使用小批量的核心决策在于计算效率。这一点在考虑并行化到多个GPU和多个服务器时最容易理解。在这种情况下，我们需要向每个GPU至少发送一张图像。如果每个服务器有8个GPU，共有16个服务器，我们的小批量大小就已经不小于128了。

当涉及到单个GPU甚至CPU时，情况要微妙一些。这些设备有多种类型的内存，通常有多种类型的计算单元，并且它们之间存在不同的带宽限制。例如，一个CPU有少量的寄存器，然后是L1、L2，有时甚至是L3缓存（在不同处理器核心之间共享）。这些缓存的大小和延迟依次增加（同时带宽依次减小）。可以说，处理器能够执行的操作远多于主内存接口所能提供的数据。

首先，一个2GHz的CPU，拥有16个核心和AVX-512向量化，每秒最多可以处理 \(2 \cdot 10^9 \cdot 16 \cdot 32 = 10^{12}\) 字节。GPU的能力轻易超过这个数字100倍。另一方面，一个中端服务器处理器可能没有超过100 GB/s的带宽，即不到维持处理器满负荷所需带宽的十分之一。更糟糕的是，并非所有的内存访问都是平等的：内存接口通常是64位或更宽（例如，在GPU上高达384位），因此读取单个字节会产生访问更宽内存的成本。

其次，首次访问有显著的开销，而顺序访问相对便宜（这通常被称为突发读取）。还有很多其他需要考虑的事情，比如当我们有多个插槽、小芯片和其他结构时的缓存问题。有关更深入的讨论，请参阅这篇维基百科文章。

缓解这些限制的方法是使用一个CPU缓存层次结构，这个层次结构的速度足够快，可以为处理器提供数据。这是深度学习中批处理的*主要*驱动力。为了简化问题，考虑矩阵-矩阵乘法，比如 \(\mathbf{A} = \mathbf{B}\mathbf{C}\)。我们有多种计算 \(\mathbf{A}\) 的选项。例如，我们可以尝试以下方法：

我们可以计算 \(\mathbf{A}_{ij} = \mathbf{B}_{i,:} \mathbf{C}_{:,j}\)，也就是说，我们可以通过点积逐元素计算。
我们可以计算 \(\mathbf{A}_{:,j} = \mathbf{B} \mathbf{C}_{:,j}\)，也就是说，我们可以一次计算一列。同样，我们也可以一次计算 \(\mathbf{A}\) 的一行 \(\mathbf{A}_{i,:}\)。
我们可以简单地计算 \(\mathbf{A} = \mathbf{B} \mathbf{C}\)。
我们可以将 \(\mathbf{B}\) 和 \(\mathbf{C}\) 分解成更小的块矩阵，然后一次计算 \(\mathbf{A}\) 的一个块。

如果我们采用第一种方案，每次要计算一个元素 \(\mathbf{A}_{ij}\) 时，都需要将一个行向量和一个列向量复制到CPU中。更糟糕的是，由于矩阵元素是顺序排列的，当我们从内存中读取其中一个向量时，需要访问许多不连续的位置。第二种方案要有利得多。在这种方案中，当我们在 \(\mathbf{B}\) 中遍历时，可以将列向量 \(\mathbf{C}_{:,j}\) 保留在CPU缓存中。这使内存带宽需求减半，相应地访问速度也更快。当然，第三种方案是最理想的。不幸的是，大多数矩阵可能无法完全放入缓存（这正是我们正在讨论的问题）。然而，第四种方案提供了一个实践上有用的替代方案：我们可以将矩阵的块移动到缓存中，并在本地进行乘法。优化的库会为我们处理这些事情。让我们看看这些操作在实践中的效率如何。

除了计算效率之外，Python和深度学习框架本身引入的开销也相当可观。回想一下，每次我们执行一个命令，Python解释器都会向MXNet引擎发送一个命令，引擎需要将其插入计算图并在调度期间处理它。这样的开销可能非常有害。简而言之，强烈建议尽可能使用向量化（和矩阵）。

12.5. 小批量随机梯度下降¶ Colab [pytorch]在 Colab 中打开 Notebook Colab [mxnet]在 Colab 中打开 Notebook Colab [jax]在 Colab 中打开 Notebook Colab [tensorflow]在 Colab 中打开 Notebook SageMaker Studio Lab在 SageMaker Studio Lab 中打开 Notebook

12.5.1. 向量化与缓存¶

12.5.2. 小批量¶

12.5.3. 读取数据集¶

12.5.4. 从零开始实现¶

12.5.5. 简洁实现¶

12.5.6. 总结¶

12.5.7. 练习¶

12.5. 小批量随机梯度下降¶

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 Colab 中打开 Notebook

在 SageMaker Studio Lab 中打开 Notebook