PyTorch教程12.5之小批量随机梯度下降-电子发烧友网

到目前为止，我们在基于梯度的学习方法中遇到了两个极端：第 12.3 节使用完整数据集来计算梯度和更新参数，一次一个传递。相反，第 12.4 节一次处理一个训练示例以取得进展。它们中的任何一个都有其自身的缺点。当数据非常相似时，梯度下降并不是特别有效。随机梯度下降在计算上不是特别有效，因为 CPU 和 GPU 无法利用矢量化的全部功能。这表明可能存在介于两者之间的东西，事实上，这就是我们迄今为止在讨论的示例中一直使用的东西。

12.5.1。矢量化和缓存

决定使用小批量的核心是计算效率。在考虑并行化到多个 GPU 和多个服务器时，这一点最容易理解。在这种情况下，我们需要向每个 GPU 发送至少一张图像。每台服务器 8 个 GPU 和 16 个服务器，我们已经达到了不小于 128 的小批量大小。

当涉及到单个 GPU 甚至 CPU 时，事情就有点微妙了。这些设备有多种类型的内存，通常有多种类型的计算单元和它们之间不同的带宽限制。例如，CPU 有少量寄存器，然后是 L1、L2，在某些情况下甚至是 L3 缓存（在不同处理器内核之间共享）。这些缓存的大小和延迟都在增加（同时它们的带宽在减少）。可以说，处理器能够执行的操作比主内存接口能够提供的要多得多。

首先，具有 16 个内核和 AVX-512 矢量化的 2GHz CPU 最多可以处理2⋅109⋅16⋅32=1012每秒字节数。GPU 的能力很容易超过这个数字的 100 倍。另一方面，中端服务器处理器的带宽可能不会超过 100 GB/s，即不到保持处理器所需带宽的十分之一喂。更糟糕的是，并非所有内存访问都是平等的：内存接口通常为 64 位宽或更宽（例如，在 GPU 上高达 384 位），因此读取单个字节会产生更宽访问的成本。

其次，第一次访问的开销很大，而顺序访问相对便宜（这通常称为突发读取）。还有很多事情要记住，比如当我们有多个套接字、小芯片和其他结构时的缓存。有关更深入的讨论，请参阅此维基百科文章。

缓解这些限制的方法是使用 CPU 高速缓存的层次结构，这些高速缓存的速度实际上足以为处理器提供数据。这是深度学习中批处理背后的驱动力。为了简单起见，考虑矩阵-矩阵乘法，比如 A=BC. 我们有多种计算方法A. 例如，我们可以尝试以下操作：

我们可以计算 Aij=Bi,:C:,j，即，我们可以通过点积的方式逐元素计算它。
我们可以计算 A:,j=BC:,j，也就是说，我们可以一次计算一列。同样我们可以计算 A一排Ai,:一次。
我们可以简单地计算A=BC.
我们可以打破B和C分成更小的块矩阵并计算A一次一个块。

如果我们遵循第一个选项，每次我们想要计算一个元素时，我们都需要将一行和一列向量复制到 CPU 中 Aij. 更糟糕的是，由于矩阵元素是顺序对齐的，因此当我们从内存中读取两个向量之一时，我们需要访问许多不相交的位置。第二种选择要有利得多。在其中，我们能够保留列向量C:,j在 CPU 缓存中，同时我们继续遍历B. 这将内存带宽要求减半，访问速度也相应加快。当然，选项 3 是最可取的。不幸的是，大多数矩阵可能无法完全放入缓存（毕竟这是我们正在讨论的内容）。然而，选项 4 提供了一个实用的替代方法：我们可以将矩阵的块移动到缓存中并在本地将它们相乘。优化的库会为我们解决这个问题。让我们看看这些操作在实践中的效率如何。

除了计算效率之外，Python 和深度学习框架本身引入的开销也相当可观。回想一下，每次我们执行命令时，Python 解释器都会向 MXNet 引擎发送命令，而 MXNet 引擎需要将其插入计算图中并在调度期间对其进行处理。这种开销可能非常有害。简而言之，强烈建议尽可能使用矢量化（和矩阵）。

							%matplotlib inline
import time
import numpy as np
import torch
from torch import nn
from d2l import torch as d2l

A = torch.zeros(256, 256)
B = torch.randn(256, 256)
C = torch.randn(256, 256)

							 

							%matplotlib inline
import time
from mxnet import autograd, gluon, init, np, npx
from mxnet.gluon import nn
from d2l import mxnet as d2l

npx.set_np()

A = np.zeros((256, 256))
B = np.random.normal(0, 1, (256, 256))
C = np.random.normal(0, 1, (256, 256))

							 

							%matplotlib inline
import time
import numpy as np
import tensorflow as tf
from d2l import tensorflow as d2l

A = tf.Variable(tf.zeros((256, 256)))
B = tf.Variable(tf.random.normal([256, 256], 0, 1))
C = tf.Variable(tf.random.normal([256, 256], 0, 1))

							 

由于我们将在本书的其余部分频繁地对运行时间进行基准测试，因此让我们定义一个计时器。

							class Timer: #@save
  """Record multiple running times."""
  def __init__(self):
    self.times = []
    self.start()

  def start(self):
    """Start the timer."""
    self.tik = time.time()

  def stop(self):
    """Stop the timer and record the time in a list."""
    self.times.append(time.time() - self.tik)
    return self.times[-1]

  def avg(self):
    """Return the average time."""
    return sum(self.times) / len(self.times)

  def sum(self):
    """Return the sum of time."""
    return sum(self.times)

  def cumsum(self):
    """Return the accumulated time."""
    return np.array(self.times).cumsum().tolist()

timer = Timer()

							 

							class Timer: #@save
  """Record multiple running times."""
  def __init__(self):
    self.times = []
    self.start()

  def start(self):
    """Start the timer."""
    self.tik = time.time()

  def stop(self):
    """Stop the timer and record the time in a list."""
    self.times.append(time.time() - self.tik)
    return self.times[-1]

  def avg(self):
    """Return the average time."""
    return sum(self.times) / len(self.times)

  def sum(self):
    """Return the sum of time."""
    return sum(self.times)

  def cumsum(self):
    """Return the accumulated time."""
    return np.array(self.times).cumsum().tolist()

timer = Timer()

							 

							class Timer: #@save
  """Record multiple running times."""
  def __init__(self):
    self.times = []
    self.start()

  def start(self):
    """Start the timer."""
    self.tik = time.time()

  def stop(self):
    """Stop the timer and record the time in a list."""
    self.times.append(time.time() - self.tik)
    return self.times[-1]

  def avg(self):
    """Return the average time."""
    return sum(self.times) / len(se
						

PyTorch教程12.5之小批量随机梯度下降

12.5.1。矢量化和缓存

PyTorch教程21.3之矩阵分解

PyTorch教程22.6之随机变量

PyTorch教程23.4之使用Google Colab

PyTorch教程23.2之使用亚马逊SageMaker

PyTorch教程23.8之API

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程6.2之参数管理

PyTorch教程6.1之层和模块

PyTorch教程10.8之波束搜索

PyTorch教程12.1之优化和深度学习

PyTorch教程12.4之随机梯度下降

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程13.2之异步计算

PyTorch教程14.2之微调

PyTorch教程14.1之图像增强

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程3.1之线性回归

PyTorch教程2.6之概率统计

PyTorch教程14.4之锚箱

PyTorch教程19.3之异步随机搜索

PyTorch教程21.1之推荐系统概述

PyTorch教程7.3之填充和步幅

PyTorch教程7.2之图像卷积

PyTorch教程8.2之使用块的网络(VGG)

PyTorch教程8.5之批量归一化

基于分布式编码的同步随机梯度下降算法

小批量威廉希尔官方网站 板加工新选择：探索高效低成本的方法

小批量试样类产品磁通及磁矩测量

小批量SMT贴片加工：为何工程费必不可少？

MES系统如何支持多品种小批量生产

3D打印汽车配件小批量试制中的应用案例

尼龙材料3D打印加工服务小批量3D打印模型制作

如何选择高质量的小批量pcb打样供应商

揭秘多品种小批量生产模式下贴片机的应用秘诀

普利特获取韩国某知名电子企业小批量销售订单

从设计到生产，PCB小批量生产解密

线路板生产该选大批量还是小批量？

PyTorch教程-12.4。随机梯度下降

PyTorch教程-12.5。小批量随机梯度下降

支持250枚卷盘装小批量供应的工业设备用LDO稳压器

针对多品种小批量柔性生产系统的设计

SMT打样小批量加工或PCBA加工工艺流程

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

如何最大限度地提高小批量定制PCB生产流程的效率

小批量PCB组装：设计的试验场

为什么小批量PCB组装应成为所有工业项目的首选方法？

小批量PCB组装的优势在哪里

未来大批量PCB胜在规模 小批量PCB以毛利率取胜

华强PCB高品质双层板小批量5-10㎡ 3天发货!产能大提速!

“数”说Mouser，小批量目录分销商如何以“小”博大？

5G基站用光芯片在多家客户小批量送样

小批量快件的印制威廉希尔官方网站 板厂家

中天科技5G天线产品开始小批量试制

诺德股份联合铜箔通过LG化学审核并开始小批量供货

华强芯城宣布成为Trinamic官方中国区小批量销售电商

梯度下降算法及其变种：批量梯度下降，小批量梯度下降和随机梯度下降

下载排行榜

UC3842/3/4/5电源管理芯片中文手册

DMT0660数字万用表产品说明书

STM32F101x8/STM32F101xB手册

华瑞昇CR216芯片数字万用表规格书附原理图及校正流程方法

TPS54202H降压转换器评估模块用户指南

HY12P65/HY12P66数字万用表芯片规格书

小批量威廉希尔官方网站板加工新选择：探索高效低成本的方法

未来大批量PCB胜在规模小批量PCB以毛利率取胜

小批量快件的印制威廉希尔官方网站板厂家