PyTorch教程12.1之优化和深度学习-电子发烧友网

在本节中，我们将讨论优化与深度学习之间的关系以及在深度学习中使用优化的挑战。对于一个深度学习问题，我们通常会先定义一个 损失函数。一旦我们有了损失函数，我们就可以使用优化算法来尝试最小化损失。在优化中，损失函数通常被称为优化问题的目标函数。按照传统和约定，大多数优化算法都与最小化有关。如果我们需要最大化目标，有一个简单的解决方案：只需翻转目标上的标志。

12.1.1。优化目标

尽管优化为深度学习提供了一种最小化损失函数的方法，但从本质上讲，优化和深度学习的目标是根本不同的。前者主要关注最小化目标，而后者关注在给定有限数据量的情况下找到合适的模型。在第 3.6 节中，我们详细讨论了这两个目标之间的区别。例如，训练误差和泛化误差通常不同：由于优化算法的目标函数通常是基于训练数据集的损失函数，因此优化的目标是减少训练误差。然而，深度学习（或更广泛地说，统计推断）的目标是减少泛化误差。为了完成后者，除了使用优化算法来减少训练误差外，我们还需要注意过度拟合。

							%matplotlib inline
import numpy as np
import torch
from mpl_toolkits import mplot3d
from d2l import torch as d2l

							 

							%matplotlib inline
from mpl_toolkits import mplot3d
from mxnet import np, npx
from d2l import mxnet as d2l

npx.set_np()

							 

							%matplotlib inline
import numpy as np
import tensorflow as tf
from mpl_toolkits import mplot3d
from d2l import tensorflow as d2l

							 

为了说明上述不同的目标，让我们考虑经验风险和风险。如第 4.7.3.1 节所述，经验风险是训练数据集的平均损失，而风险是整个数据群的预期损失。下面我们定义两个函数：风险函数f和经验风险函数g。假设我们只有有限数量的训练数据。结果，这里g 不如平滑f。

							def f(x):
  return x * torch.cos(np.pi * x)

def g(x):
  return f(x) + 0.2 * torch.cos(5 * np.pi * x)

							def f(x):
  return x * np.cos(np.pi * x)

def g(x):
  return f(x) + 0.2 * np.cos(5 * np.pi * x)

							def f(x):
  return x * tf.cos(np.pi * x)

def g(x):
  return f(x) + 0.2 * tf.cos(5 * np.pi * x)

下图说明了训练数据集上经验风险的最小值可能与风险的最小值（泛化误差）位于不同的位置。

							def annotate(text, xy, xytext): #@save
  d2l.plt.gca().annotate(text, xy=xy, xytext=xytext,
              arrowprops=dict(arrowstyle='->'))

x = torch.arange(0.5, 1.5, 0.01)
d2l.set_figsize((4.5, 2.5))
d2l.plot(x, [f(x), g(x)], 'x', 'risk')
annotate('min of\nempirical risk', (1.0, -1.2), (0.5, -1.1))
annotate('min of risk', (1.1, -1.05), (0.95, -0.5))

							 

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9OLCARSaKAAEhrWBFT9M534.svg

							def annotate(text, xy, xytext): #@save
  d2l.plt.gca().annotate(text, xy=xy, xytext=xytext,
              arrowprops=dict(arrowstyle='->'))

x = np.arange(0.5, 1.5, 0.01)
d2l.set_figsize((4.5, 2.5))
d2l.plot(x, [f(x), g(x)], 'x', 'risk')
annotate('min of\nempirical risk', (1.0, -1.2), (0.5, -1.1))
annotate('min of risk', (1.1, -1.05), (0.95, -0.5))

							 

							def annotate(text, xy, xytext): #@save
  d2l.plt.gca().annotate(text, xy=xy, xytext=xytext,
              arrowprops=dict(arrowstyle='->'))

x = tf.range(0.5, 1.5, 0.01)
d2l.set_figsize((4.5, 2.5))
d2l.plot(x, [f(x), g(x)], 'x', 'risk')
annotate('min of\nempirical risk', (1.0, -1.2), (0.5, -1.1))
annotate('min of risk', (1.1, -1.05), (0.95, -0.5))

							 

https://file.elecfans.com/web2/M00/A9/CA/poYBAGR9OLWAAe0DAAEhtoAyqDg129.svg

12.1.2。深度学习中的优化挑战

在本章中，我们将特别关注优化算法在最小化目标函数方面的性能，而不是模型的泛化误差。在 3.1 节中，我们区分了优化问题中的解析解和数值解。在深度学习中，大多数目标函数都很复杂，没有解析解。相反，我们必须使用数值优化算法。本章的优化算法都属于这一类。

深度学习优化有很多挑战。一些最令人烦恼的是局部最小值、鞍点和梯度消失。让我们来看看它们。

12.1.2.1。局部最小值

对于任何目标函数f(x), 如果值f(x)在 x小于的值f(x)在附近的任何其他点x，然后f(x)可能是局部最小值。如果值f(x)在x是整个域内目标函数的最小值，则f(x)是全局最小值。

例如，给定函数

(12.1.1)f(x)=x⋅cos(πx) for −1.0≤x≤2.0,

我们可以逼近这个函数的局部最小值和全局最小值。

								x = torch.arange(-1.0, 2.0, 0.01)
d2l.plot(x, [f(x), ], 'x', 'f(x)')
annotate('local minimum', (-0.3, -0.25), (-0.77, -1.0))
annotate('global minimum', (1.1, -0.95), (0.6, 0.8))

								 

https://file.elecfans.com/web2/M00/AA/44/pYYBAGR9OLeAVduAAACoUAH2ZEc074.svg

								x = np.arange(-1.0, 2.0, 0.01)
d2l.plot(x, [f(x), ], 'x', 'f(x)')
annotate('local minimum', (-0.3, -0.25), (-0.77, -1.0))
annotate('global minimum', 
							

PyTorch教程12.1之优化和深度学习

12.1.1。优化目标

12.1.2。深度学习中的优化挑战

12.1.2.1。局部最小值

PyTorch教程23.8之API

PyTorch教程4.1之Softmax回归

PyTorch教程3.6之概括

PyTorch教程5.5之深度学习中的泛化

PyTorch教程6.2之参数管理

PyTorch教程10.3之深度递归神经网络

PyTorch教程10.8之波束搜索

PyTorch教程12.2之凸度

PyTorch教程13.4之硬件

PyTorch教程13.3之自动并行

PyTorch教程14.2之微调

PyTorch教程14.1之图像增强

PyTorch教程6.7之显卡

PyTorch教程2.5之自动微分

PyTorch教程3.1之线性回归

PyTorch教程14.4之锚箱

PyTorch教程19.2之超参数优化API

PyTorch教程19.1之什么是超参数优化

PyTorch教程21.1之推荐系统概述

PyTorch教程20.2之深度卷积生成对抗网络

PyTorch教程7.3之填充和步幅

PyTorch教程8.1之深度卷积神经网络(AlexNet)

Effective PyTorch之 PyTorch基础知识（译）

基于预训练模型和长短期记忆网络的深度学习模型

3小时学习神经网络与深度学习课件下载

深度模型中的优化与学习课件下载

github上的pytorch学习资料详细说明

如何使用深度强化学习进行机械臂视觉抓取控制的优化方法概述

深度学习优化器方法及学习率衰减方式的详细资料概述

深度学习是什么？了解深度学习难吗?让你快速了解深度学习的视频讲解

利用Arm Kleidi技术实现PyTorch优化

Pytorch深度学习训练的方法

PyTorch深度学习开发环境搭建指南

pytorch中有神经网络模型吗

PyTorch的介绍与使用案例

PyTorch如何训练自己的数据集

如何使用PyTorch建立网络模型

TensorFlow与PyTorch深度学习框架的比较与选择

深度学习的模型优化与调试方法

pytorch用来干嘛的

深度学习框架pytorch介绍

深度学习框架pytorch入门与实践

PyTorch教程-12.1. 优化和深度学习

深度学习编译器之Layerout Transform优化

​计算机视觉深度学习训练推理框架

智造之眼丨深度学习应用

什么是深度学习中优化算法

深度学习框架PyTorch和TensorFlow如何选择

PyTorch 的 Autograd 机制和使用

PyTorch开源深度学习框架简介

基于PyTorch的深度学习入门教程之PyTorch的自动梯度计算

基于PyTorch的深度学习入门教程之PyTorch简单知识

基于PyTorch的深度学习入门教程之PyTorch的安装和配置

基于PyTorch的深度学习入门教程之PyTorch重点综合实践

几种流行的优化器的介绍以及优缺点分析

Facebook研究开放新框架，让深度学习更加容易

为什么学习深度学习需要使用PyTorch和TensorFlow框架

一文解构PyTorch：深入了解PyTorch内部机制

PyTorch官网教程PyTorch深度学习:60分钟快速入门中文翻译版

Facebook宣布发布深度学习框架 PyTorch 1.0开发者预览版

下载排行榜

UC3842/3/4/5电源管理芯片中文手册

DMT0660数字万用表产品说明书

STM32F101x8/STM32F101xB手册

华瑞昇CR216芯片数字万用表规格书附原理图及校正流程方法

TPS54202H降压转换器评估模块用户指南

HY12P65/HY12P66数字万用表芯片规格书

计算机视觉深度学习训练推理框架