深圳市航顺芯片技术研发有限公司
直播中

云中云

8年用户 939经验值
私信 关注
[问答]

请问一下什么是深度学习?

请问一下什么是深度学习?

回帖(1)

汪芳

2021-8-30 14:48:15
深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据表示。这些方法极大地提高了语音识别、视觉对象识别、对象检测和许多其他领域(如药物发现和基因组学)的最新技术水平。深度学习通过使用反向传播算法来发现大型数据集中的复杂结构,以指示机器应如何更改其内部参数,这些参数用于从前一层中的表示计算每一层中的表示。深卷积网已经在处理图像,视频,语音和音频所带来的突破,而经常网对连续的数据,如文本和语音趋之若骛光
  摘要

  这些方法极大地提高了语音识别、视觉对象识别、目标检测以及药物发现和基因组学等许多领域的最新进展。深度学习通过使用国外传播算法来挖掘大型数据集中的复杂结构,以指示机器如何改变用于计算每一层表示的内部参数,这些参数用于计算前层的表示。图像、视频、语音和音频方面带来了突破,而回归网络则为文本和语音等序列数据带来了光明。
  引言

  机器学习技术为现代社会的许多方面提供动力:从网络搜索到社交网络上的内容过滤- 适用于电子商务网站上的推荐,并且越来越多地出现在相机和智能手机等消费产品中。机器学习系统用于识别图像中的对象,将语音转录为文本,将新闻项目、帖子或产品与用户的兴趣相匹配,并选择相关的搜索结果。这些应用程序越来越多地使用一类称为深度学习的技术。
  机器学习技术现代的社会提供了动力:从网络搜索方面为社交网络上的内容过滤,再到电子商务网站上的推荐,它会越来越多地出现在老年人和智能手机等中。机器学习系统用于识别图像中的目标,将语音识别成文本,将新闻条目、帖子或产品与用户的兴趣相匹配,并选择相关的搜索结果。为深度学习的技术。
传统的机器学习技术在他们在他们的原始形式来处理自然数据的能力是有限的。几十年来,构建模式识别或机器学习系统需要仔细的工程和大量的领域专业知识来设计特征提取器,将原始数据(例如图像的像素值)转换为合适的内部表示或特征向量,从中学习子系统,通常是分类器,可以检测或分类输入中的模式。
传统的机器学习技术在处理原始形式的自然数据方面受到限制。 几机器,构建一个模式识别或学习系统需要仔细的工程设计和相当多的领域专业知识来设计一个特征提取器,从学习信息中,将原始数据(如图像的像素值)转换成合适的内部表示或特征,通常一个分类,可以检测或分类输入中的模式。
表示学习是一组方法,允许机器输入原始数据并自动发现检测或分类所需的表示。深度学习方法是具有多个表示级别的表示学习方法,通过组合简单但非线性的模块获得,每个模块将一个级别(从原始输入开始)的表示转换为更高、更抽象级别的表示. 通过组合足够多的此类转换,可以学习非常复杂的函数。对于分类任务,更高层的表示会放大输入中对区分很重要的方面,并抑制不相关的变化。例如,图像以像素值数组的形式出现,并且第一层表示中的学习特征通常表示图像中特定方向和位置的边缘的存在或不存在。第二层通常通过发现边缘的特定排列来检测图案,而不管边缘位置的微小变化。第三层可以将图案组合成更大的组合,对应于熟悉的对象的部分,随后的层将检测对象作为这些部分的组合。深度学习的关键方面是这些特征层不是由人类工程师设计的:它们是使用通用学习程序从数据中学习的。第二层通常通过发现边缘的特定排列来检测图案,而不管边缘位置的微小变化。第三层可以将图案组合成更大的组合,对应于熟悉的对象的部分,随后的层将检测对象作为这些部分的组合。深度学习的关键方面是这些特征层不是由人类工程师设计的:它们是使用通用学习程序从数据中学习的。第二层通常通过发现边缘的特定排列来检测图案,而不管边缘位置的微小变化。第三层可以将图案组合成更大的组合,对应于熟悉的对象的部分,随后的层将检测对象作为这些部分的组合。深度学习的关键方面是这些特征层不是由人类工程师设计的:它们是使用通用学习程序从数据中学习的。
深度方法学习通过简单的复合但学习方法,允许接收原始数据并自动检测或分类目标的表示。的表示(从原始输入开始)转换为更高、更抽象的表示。例如,图像以像素第一值表示的形式出现,并且层中的学习特征通常表示图像中特定方向和位置处的边的与否。通常通过检测边界的特定排列来目标,而不是边缘位置可以细微变化。深度学习的关键在于,这些特征层不是人工设计的:它们是通过通用学习过程从数据中学习的。
深度学习在解决多年来一直抵制人工智能社区最佳尝试的问题方面取得了重大进展。事实证明,它非常擅长发现高维数据中的复杂结构,因此适用于科学、商业和***的许多领域。除了在图像识别 1-4 和语音识别 5-7 方面打破记录之外,它还在预测潜在药物分子的活动 8、分析粒子加速器数据 9,10、重建大脑回路 11 和预测非编码 DNA 突变对基因表达和疾病的影响 12,13。也许更令人惊讶的是,深度学习为自然语言理解中的各种任务产生了非常有希望的结果 14,
深度学习在解决可能存在的人工智能领域的解决问题方面取得了重大进展。事实证明,它非常成功地发现了高维数据中的复杂结构,因此适用于科学、商业和***的领域。图像识别和语音识别方面的外部,在预测潜在药物分子的数据、分析粒子加速器数据、再生脑回路、预测编码等DNA对基因表达的影响等方面也胜过机器学习技术疾病。令人惊讶的是,深度学习在自然语言理解也有很大的作用,尤其是主题分类,情感分析,问题回答和语言翻译。
我们认为,有深度的学习将在不久的将来有更多的成功,因为它需要非常手工工程很少,因此它可以轻松利用可用计算量和数据量的增加。目前正在为深度神经网络开发的新学习算法和架构只会加速这一进展。
我们认为,在不久的将来,因为深度学习将取得更多的成功,它不涉及很多人工,因此很容易地利用可用计算量和增加的数据。目前为深层神经网络开发的新的学习算法和结构只会加速这一进展。
  监督学习

  最常见的机器学习形式,无论是否深度,都是监督学习。想象一下,我们想要构建一个系统,可以将图像分类为包含房屋、汽车、人或宠物。我们首先收集大量房屋、汽车、人和宠物的图像数据集,每个图像都标有其类别。在训练期间,机器会看到一张图像,并以分数向量的形式产生输出,每个类别一个。我们希望期望的类别在所有类别中得分最高,但这在训练之前不太可能发生。我们计算一个目标函数,用于测量输出分数与所需分数模式之间的误差(或距离)。然后机器修改其内部可调参数以减少该误差。这些可调参数,通常称为权重,是实数,可以看作是定义机器输入-输出函数的“旋钮”。在典型的深度学习系统中,可能有数亿个这样的可调整权重,以及数亿个标记示例来训练机器。
我们想构建一个可以分类的图像,包括房屋、汽车、人或宠物的系统。我们首先收集了一个大数据集,里面包括房子,汽车,人和宠物,每一个都有其分类的标签。在训练过程中,计算机会显示一个图像,并以自然的形式生成输出,每个类别对应一个。中得分最高,可能不可能训练前。参数比,通常一个权重,是一个实数,输出可以是定义机器输入的“吸力”。计的用于训练机器的标签示例。
为了正确调整权重向量,学习算法计算一个梯度向量,对于每个权重,指示如果权重增加很小的量,误差会增加或减少多少。然后将
权重向量调整到与梯度向量相反的方向。为了正确地调整重心,学习计算一个平面,每个权重重,应该表明如果权重增加一点,可能会增加或减少多少。然后在与正相反的方向上调整权重矢量。
对所有训练示例求平均值的目标函数可以看作是权重值的高维空间中的一种丘陵景观。负梯度向量表示最速下降的方向在该景观,以更接近最小,其中输出误差为低平均。
在所有训练实例中取平均值的目标函数可以看作是一种山地景观在高维空间的中权重值。负负负值表示该倾斜中度下降的方向,使输出更清晰,输出效果更均匀。
在实践中,大多数从业者使用称为随机梯度下降 (SGD) 的过程。这包括显示一些示例的输入向量、计算输出和误差、计算这些示例的平均梯度并相应地调整权重。对训练集中的许多小样本集重复该过程,直到目标函数的平均值停止下降。之所以称为随机,是因为每一小组示例都给出了所有示例的平均梯度的噪声估计。与更复杂的优化技术 18 相比,这个简单的过程通常会以惊人的速度找到一组好的权重。训练后,系统的性能在一组称为测试集的不同示例上进行测量。
在实践中,大多数人使用各种随机数字下降(SGD)。包括几个例子,计算输出和计算能力,这些例子的平均值,并相应地调整权重。这个样本重复的过程,到终点结束的时候结束。最后一个最小的小样本集合都给出了所有样本的平均的声音。与更精细的技术,在训练之后,系统的性能将在一组与训练集不同的测试集上进行测量。 ,即它对新输入的图像合理产生答案的能力,新图像是它在训练中从未见过的。
当前机器学习分类器的许多实际应用都在手工设计的特征之上使用线性分类器。二类线性分类器计算特征向量分量的加权和。如果加权总和高于阈值,则输入被归类为属于特定类别。
目前机器学习的许多实用应用在人工设计的特征更好地使用线性分类器。如果很严格和可能达到临界值,则输入被归类为属于特定类别。
自 1960 年代以来,我们就知道线性分类器只能将其输入空间划分为非常简单的区域,即由超平面 19 分隔的半空间。但是图像和语音识别等问题要求输入-输出函数对不相关的变化不敏感输入的变化,例如物体的位置、方向或照明的变化,或者语音音调或口音的变化,同时对特定的微小变化非常敏感(例如,白狼和狼的品种之间的差异-就像被称为萨摩耶的白狗)。在像素层面,两个萨摩耶犬在不同姿势和不同环境中的图像可能彼此非常不同,而在相同位置和相似背景下的两个萨摩耶犬和狼的图像可能彼此非常相似。线性分类器或任何其他对原始像素进行操作的“浅”分类器不可能区分后两者,而将前两者归入同一类别。这就是为什么浅层分类器需要一个好的特征提取器来解决选择性-不变性困境——一个能够产生对图像中对区分很重要的方面有选择性的表示,但对不相关的方面(例如姿势)是不变的。动物。为了使分类器更强大,可以使用泛型非线性特征,如核方法 20,但泛型特征(例如由高斯核产生的特征)不允许学习者在远离训练示例的情况下进行很好的泛化 21。常规选项是手工设计好的特征提取器,这需要相当数量的工程技能和领域专业知识。但是,如果可以使用通用学习程序自动学习好的特征,这一切都可以避免。这是深度学习的主要优势。
自20世纪60年代以来,我们就知道它的线性分类器可以将输入空间分割成非常简单的,即由超乎寻常的轮廓的半空间。但是,像图像和语音识别这样的问题要求输入输出函数对输入的不相关变化不敏感,例如对象的位置、方向或照明的变化、音调或重音的变化,同时对特定的敏感变化非常敏感(例如,白狼和一种叫萨耶的狼样的)白色狗之间的区别。一个线性分类器,或任何其他原始像素级的“浅”分类器不能对视,而将相似的同类中。这就是为什么浅层分类器需要一个很好的特征提取器来解决。特定不变性的决定——一个对图像产生的某些方面有什么表现,而这些方面不相关的方面(如动物的表现)是不变的。可以使用泛化型特征,如核方法,但泛型特征(高斯产生的特征)在训练样本量大不时泛化能力不强。传统的选择是手工设计好的特征提取器,这需要大量的工程技能和领域知识。但是,如果可以使用通用的学习过程自动学习好的特征,那么这些都可以避免。这是深度学习的关键优势。
  深度学习架构是简单模块的多层堆栈,所有(或大部分)模块都需要学习,其中许多计算非线性输入-输出映射。堆栈中的每个模块都转换其输入以增加表示的选择性和不变性。通过多个非线性层,比如 5 到 20 的深度,系统可以实现其输入的极其复杂的功能,这些功能同时对微小细节敏感——区分萨摩耶犬和白狼——并且对大的不相关变化(例如背景、姿态,照明和周围的对象。
深度学习体系结构是由简单模块组成的多层堆栈,所有模块(或大部分模块)都需要学习,其中许多模块计算非线性输入输出映射。堆栈中的每个模块转换有了这些输入层,比如5到20的深度,系统其输入的一个更复杂的功能,这些功能同时对细微的细节敏感——非萨摩耶和白狼——并且对大的网络变化不敏感,比如背景、姿态、光和周围的物体。
  用反向传播来训练多层架构

  从模式识别的早期 22,23 开始,研究人员的目标就是用可训练的多层网络取代手工设计的特征,但尽管它很简单,但该解决方案直到 1980 年代中期才被广泛理解。事实证明,多层架构可以通过简单的随机梯度下降进行训练。只要模块是其输入及其内部权重的相对平滑的函数,就可以使用反向传播程序计算梯度。在 1970 年代和 1980 年代 24-27 期间,几个不同的团体独立地发现了这可以完成并且有效的想法。
从模式的早期,研究人员的目标是用可训练的精细网络来代替手工设计的特征,虽然很简单,也可以到20世纪80年代才成熟才被广泛理解。事实证明,细节结构可以通过简单的随机进化下降来训练。只要有模块是其输入权重的对应系统,就可以使用传播程序计算算法。在20世纪70岁和80岁,这几个不同的个体分别发现了想法,认为这是可以做到的,而且是有效的
计算目标函数相对于多层模块权重的梯度的反向传播过程只不过是导数链式法则的实际应用。关键的见解是,目标相对于模块输入的导数(或梯度)可以通过从相对于该模块的输出(或后续模块的输入)的梯度向后计算(图.1)。反向传播方程可以重复应用以在所有模块中传播梯度,从顶部的输出(网络产生预测的地方)一直到底部(外部输入的地方)。一旦计算了这些梯度,就可以直接计算每个模块权重的梯度。
用导式传播导法计算一个目标函数相对于一个模块栈的重刑,不过是数链规则的一个实际应用。该模块输出(或宝宝的输入模块的输入)向后向后输出(1)。输入被馈送)。计算了这些数值,就很容易计算出相对于每天权重的价值。

  

  

深度学习的许多应用使用前馈神经网络架构(图 1),它学习将固定大小的输入(例如,图像)映射到固定大小的输出(例如,几个类别中的每一个)。为了从一层到下一层,一组单元计算来自前一层的输入的加权和,并将结果传递给非线性函数。目前最流行的非线性函数是整流线性单元(ReLU),简单来说就是半波整流器 f(z) = max(z, 0)。在过去的几十年中,神经网络使用更平滑的非线性,例如 tanh(z) 或 1/(1 + exp(−z)),但 ReLU 通常在具有多层的网络中学习得更快,允许训练深度监督没有无监督预训练的网络28。不在输入或输出层中的单元通常称为隐藏单元。隐藏层可以被视为以非线性方式扭曲输入,以便类别变得可通过最后一层线性分离(图 1)。
大量深度学习的应用都前馈神经网络架构(图1),该架构学习将固定大小的输入(例如,图像)映射到固定大小的输出(例如,几个类别中的每一个的表达)。为了从一层到下一层,一组单元计算出上层输入的密度和,将结果传递给一个函数。目前最流行的压缩函数是线性的线性单元(ReLU),即半波能量器f ( z ) = max ( z , 0 ) f(z)=max(z,0) f(z)=max(z,0)。 exp(1+exp(−z))1/(1+exp(−z)),但ReLU−z)通常输出在网络中学习得快速,允许无监督训练的情况下训练深度监督预网络。不在输入或层的单元通常隐藏单元。( 1 + exp ( − z ) ) 1/(1+exp(−z)) 1/(1+exp(−z)),但ReLU通常在精细网络中学习得更快,允许在无监督预训练的情况训练深度监督网络。不在输入层的单元通常会隐藏在单元之外。( 1 + exp ( − z ) ) 1/(1+exp(−z)) 1/(1+exp(−z)),但ReLU通常在精细网络中学习得更快,允许在无监督预训练的情况训练深度监督网络。不在输入层的单元通常会隐藏在单元之外。1/(+exp(−z)),但ReLU通常在1个网络中学习得反应,允许在无监督预的情况下训练深度监督网络。不在输入或输出层的单元通常隐藏单元。隐藏层可以避免变形方式输入,类型类别可以由最终的独立分离。1/(+exp(−z)),但ReLU通常在1个网络中学习得反应,允许在无监督预的情况下训练深度监督网络。不在输入或输出层的单元通常隐藏单元。隐藏层可以避免变形方式输入,类型类别可以由最终的独立分离。
在 1990 年代后期,神经网络和反向传播在很大程度上被机器学习社区所抛弃,而被计算机视觉和语音识别社区所忽视。人们普遍认为,在没有先验知识的情况下学习有用的、多阶段的、特征提取器是不可行的。
在 20 世纪 90 年代末,神经网络和大脑传播在火星机器学习界所抛物,被计算机视觉和语音识别大众所见。人们普遍认为,学习的细枝末节的、多的、具有先验的知识简单的特征器是不属于阶段的。类似的配置,任何变化都会降低平均态度。
特别是,人们普遍认为简单的梯度下降会陷入糟糕的局部最小值——权重配置,对于这些配置,不小的变化会减少平均误差。在实践中,较差的局部最小值很少会成为大型网络的问题。无论初始条件如何,系统几乎总能达到质量非常相似的解。最近的理论和实证结果强烈表明,局部最小值通常不是一个严重的问题。取而代之的是,景观中包含大量梯度为零的鞍点,并且表面在大多数维度上向上弯曲,在其余 29,30 处向下弯曲。分析似乎表明,只有少数向下弯曲方向的鞍点数量非常多,但几乎所有的目标函数值都非常相似。因此,算法停留在这些鞍点中的哪一个并不重要。
在实践中,粒子的总极小值在大型网络中很少出现问题。不管初始状态,系统几乎能有非常相似的解。一个严重的问题。取代之的是,取值空间有大量的危险性的尖点,而出现在大量而不断上升的趋势,在提醒中引弯曲。分析证据,只有几个可能的弯曲方向的鞍点数量非常多,但几乎所有鞍点的目标函数值都非常相似。因此,算法在这些鞍点中哪一个被卡住并不重要。
加拿大高级研究所 (CIFAR) 召集的一组研究人员在 2006 年左右(参考文献 31-34)重新开始了对深度前馈网络的兴趣。研究人员引入了无监督学习程序,可以在不需要标记数据的情况下创建特征检测器层。学习每一层特征检测器的目标是能够重建或建模下层特征检测器(或原始输入)的活动。通过使用这个重建目标“预训练”几层逐渐复杂的特征检测器,深度网络的权重可以被初始化为合理的值。然后可以将最后一层输出单元添加到网络的顶部,并且可以使用标准反向传播 33-35 对整个深层系统进行微调。
2006年前后,由加拿大高级研究所(CIFAR)召集程序研究所的一批研究人员重新唤醒了对陷前馈网络的兴趣。研究人员引入了无监督学习,这种情况可以不用标记数据的下创建特征检测器。学习每一层特征检测器是为了重建或下层特征检测器(或原始)的活动。训练”,可以将深度网络的权值初始化为合理值。最后一个输出单元可以被添加到网络的顶部,深系统可以使用标准传播进行微调。对于识别手写数字或检测行人非常有效,尤其是在标签数据量非常有限的情况下。
这种预训练方法的第一个主要应用是语音识别,它的出现得益于快速图形处理单元 (GPU) 的出现,这些单元便于编程 37 并使研究人员能够以 10 或 20 倍的速度训练网络。2009 年,该方法用于将从声波中提取的系数的短时间窗口映射到可能由窗口中心的帧表示的各种语音片段的一组概率。它在使用小词汇量的标准语音识别基准测试中取得了破纪录的结果 38 并迅速开发以在大型词汇 y 任务 39 上提供破纪录的结果。 到 2012 年,许多人开发了 2009 年的深度网络版本的主要语音组 6 并且已经在 Android 手机中部署。对于较小的数据集,无监督的预训练有助于防止过度拟合 40,当标记示例的数量很少时,或者在我们有很多示例用于某些“源”任务但很少的传输设置中,可以显着更好地泛化对于一些“目标”任务。一旦深度学习得到修复,结果证明只有小数据集才需要预训练阶段。
我们预训练方法的第一个主要应用是在语音识别中,并且由于 GPU 的可能会出现而研究人员训练网络的速度提高 10 到 20 倍。2009 年,方法该被用于从声波中提取的因子的短时间窗口映射为各种语音截图的演示集,这些语音截图可能由中心的帧帧。它在使用小词汇的标准语音识别基准测试中窗口破了记录,到2012年,许多组织的主要语音都在开发2009年的深网版本,并且已经部署在Android手机上。 ,没有监督的预训练防止迁移过去,在标记的示例数量减少时,或者在学习中,“源”很多,但“目标”很少任务,显着提高泛化能力。学习得到恢复,原来只需要对小数据集进行预训练。
有,但是,深,前馈网工作的一种特定类型,这是更容易训练,并与相邻层之间的全连接网络相比要好得多一概而论。这就是卷积神经网络 (ConvNet)41,42。它在神经网络不受欢迎的时期取得了许多实际成功,最近被计算机视觉社区广泛采用
然而,有一种特殊类型的感觉前馈网络比周围层之间训练和普及的网络更容易普及。的成功,最近被计算机视觉界广泛采用。
  卷积神经网络

  ConvNets被设计到进来的多个阵列的形式处理数据,例如彩色图象由包含在三个颜色通道的像素强度三个二维阵列。许多数据模态采用多个数组的形式:信号和序列的一维,包括语言;2D 图像或音频频谱图;和 3D 视频或立体图像。ConvNets 背后有四个利用自然信号特性的关键思想:本地连接、共享权重、池化和多层的使用。
网络用于治疗以多种形式出现,由多种2D数据组成的彩色图像,其中包括多种颜色中的像素强度。于信号和序列,包括语言;2D 用于图像或音频图像图;3D 用于视频或体积图像。利用网络利用了自然信号的特性,其背后有四个关键思想:局部连接、共享权重、池化和精准的使用。
典型的 ConvNet(图 2)的架构由一系列阶段构成。前几个阶段由两种类型的层组成:卷积层和池化层。卷积层中的单元被组织在特征图中,其中每个单元通过一组称为滤波器组的权重连接到前一层特征图中的局部补丁。然后将此局部加权和的结果传递给非线性,例如 ReLU。特征图中的所有单元共享相同的过滤器组。层中的不同特征图使用不同的滤波器组。这种架构的原因是双重的。首先,在图像等数组数据中,局部值组通常高度相关,形成易于检测的独特局部图案。第二,图像和其他信号的局部统计数据与位置无关。换句话说,如果一个主题可以出现在图像的一个部分,它就可以出现在任何地方,因此不同位置的单元共享相同的权重,并在阵列的不同部分检测相同的模式。从数学上讲,特征图执行的过滤操作是离散卷积,因此得名。

  

  

  前几个阶段由两种类型的层组成:思想层和池化层。一个通过一个单独组的权限重连接到上一层的单元特征中的小块。共享同一组两个。一个图层中不同的特征映射使用不同的那一组采用这种结构有原因。首先,在等组数据中,通常的局部发育相关,值形成图像的检测。换言之,如果模体可以出现在图像的一个部分,那么它就会出现在任何地方,因此在不同位置的单元共享相同的权重,并在不同的单元不同部分识别相同的模式。
虽然卷积层的作用是检测前一层特征的局部连接,但池化层的作用是将语义相似的特征合并为一个。因为形成一个主题的特征的相对位置可能会有所不同,所以可以通过粗粒度化每个特征的位置来可靠地检测主题。典型的池化单元计算一个特征映射(或几个特征映射)中单元局部补丁的最大值。相邻的池化单元从移动了不止一行或一列的补丁中获取输入,从而减少表示的维度并创建对小移动和扭曲的不变性。两个或三个阶段的卷积、非线性和池化堆叠在一起,然后是更多的卷积和全连接层。
由于构成一个模体的特征的相对可能某些,所以可以通过对每一个模块的特征组合成一个。几个特征的位置进行粗粒化来检测体。 )中获取输入,从而减少了表示的维数,并创建了对小版本和变形的不变性。层和全连接层。通过卷积网络反向传播梯度就像通过常规的深层网络一样简单,允许训练所有滤波器组中的所有权重。
深层神经网络利用的财产,许多自然信号组成的层次结构,在通过组合较低级别的特征来获得哪些更高级别的特征。在图像中,边缘的局部组合形成图案,图案组合成部分,部分形成物体。从声音到音素、音素、音节、单词和句子,语音和文本中也存在类似的层次结构。当前一层中的元素在位置和外观上发生变化时,池化允许表示变化很小。
深度神经网络利用了自然信号都是组合层次的特性,其中高层次的特征是由浅层层次的特征组成的。目标。从声音到音素,音素,音节,单词和句子,语音和文本中都存在类似的层次结构。当前一层中的元素在位置和外观上发生变化时,池化表示的变化很小。
  该ConvNets 中的卷积层和池化层直接受到视觉神经科学中简单细胞和复杂细胞的经典概念的启发 43,整体架构让人联想到视觉皮层腹侧通路中的 LGN-V1-V2-V4-IT 层次结构 44。当 ConvNet 模型和猴子看到相同的图片时,ConvNet 中高级单元的激活解释了猴子推断颞叶皮层 45 中 160 个神经元的随机集合方差的一半。其架构有些相似,但没有
端到端监督学习算法,例如反向传播。一个原始1D ConvNet称为时间延迟被用于识别音素和简单words47,48。神经网络
卷积网络中的卷积层和池化层是受到了视觉神经科学中简单细胞和复杂细胞的经典当ConvNet模型和猴子看到同一张图片时,ConvNet中高级单元的激活函数解释了猴子神经网络神经元神经网络神经网络神经网络系统,神经网络神经网络神经网络模型,神经网络神经网络模型原始一维ConvNet来识别音素和简单单词。
回溯到 1990 年代初期,卷积网络有许多应用,从用于语音识别 47 和文档阅读 42 的延时神经网络开始。文档阅读系统使用了一个 ConvNet,该网络与实现语言约束的概率模型联合训练。到 1990 年代后期,该系统读取了美国所有支票的 10% 以上。许多基于 ConvNet 的光学字符识别和手写识别系统后来被 Microsoft 49 部署。 ConvNets 在 1990 年代初期也进行了实验,用于自然图像中的对象检测,包括面部和手 50,51,以及面部识别 52。
早在20世纪90年代初,演讲网络产生了大量的应用,首先是语音识别的时延神经网络和文档读取。阅读系统使用ConvNet和实现语言约束的推理模型训练。到20世纪90年代末,这个系统读取了美国10%以上的粮食。后来,微软开发了许多基于ConvNet的光学字符识别和手写识别系统。ConvNets在20世纪90年代早期也被用于自然中的图像目标检测,包括人脸和手,以及人脸识别。
  深度卷积网络的图像理解

  自 2000 年代初以来,ConvNets 已成功应用于图像中对象和区域的检测、分割和识别。这些都是标记数据相对丰富的任务,例如交通标志识别 53,生物图像的分割 54,特别是连接组学 55,以及自然图像中人脸、文本、行人和人体的检测 36,50,51 ,56–58。ConvNets 最近的一个主要实际成功是人脸识别 59。
自21话以来,ConvNets已经成功地深入图像中目标检测、分割和识别。最近ConvNets在人脸识别方面取得了成功。
重要的是,图像可以在像素级别进行标记,这将在技术上有应用,包括自主移动机器人和自动驾驶汽车60, 61. Mobileye 和 NVIDIA 等公司正在他们即将推出的汽车视觉系统中使用这种基于 ConvNet 的方法。其他越来越重要的应用包括自然语言理解 14 和语音识别 7.
重要的是,图像可以在像素级标记,这将在技术上有应用,包括自主移动机器人和自动驾驶。像 Mobileye 和 NVIDIA 这样的公司正在他们即将推出的汽车视觉系统中使用这种基于ConvNet的方法。识别网络在自然语言处理和语音方面的应用也越来越重要。
尽管取得了这些成功,但在 2012 年的 ImageNet 竞赛之前,主流计算机视觉和机器学习社区在很大程度上放弃了卷积网络。他们取得了惊人的结果,几乎将最佳竞争方法的错误率降低了一半 这一成功带来了计算机视觉的革命;ConvNets 现在是几乎所有识别和检测任务 4,58,59,63-65 的主要方法,并在某些任务上接近人类的表现。

  

  

尽管,ConvNets 并没有被主流计算机视觉和机器学习所接受,直到 2012 年 ImageNet 竞赛。当当网络取得网络0个网络连接时,1000 个网络图像的00个网络连接100个不同类的约11个,它们由于对gpu的高效利用,使用ReLUs,和dropout新正则技术,以及通过训练增强示例来生成更多示例,取得了这是惊人的结果,几乎将是半最佳的结果。一成功带来了计算机视觉领域的一场革命;目前,ConvNets 已具备几乎所有识别和检测任务的主导方法,并在部分任务中近表现人的。图像标题,令我们非常意外。
最近ConvNet架构具有ReLUs的10至20层,亿万权重,以及数十亿单元之间的连接的。两年前训练这么大的网络可能需要几周时间,而硬件、软件和算法并行化的进步已经将训练时间减少到几个小时。
最近的 ConvNet 架构有 10 到 20 层 ReLUs,数亿个权重,单元之间两年前,训练庞大的网络数据需要时间,但在硬件、算法和并行连接方面的软件进步已将训练时间缩短到几个小时。
基于 ConvNet 的视觉系统的性能已经促使包括谷歌、Facebook、微软、IBM、雅虎、Twitter 和 Adobe 在内的大多数主要技术公司,以及越来越多的初创企业启动研发项目并部署ConvNet基于图像理解的产品和服务。
基于ConvNet的视觉系统的性能已经引起了包括谷歌,Facebook,微软,IBM,雅虎在内的大多数主要技术公司的关注!推特和Adobe公司,以及数量迅速增长的初创企业,它们发起研发项目,部署基于ConvNet。的图像理解产品和服务
ConvNets很容易适合于在芯片或现场可编程门阵列66,67高效的硬件实现方式。英伟达、Mobileye、英特尔、高通和三星等多家公司正在开发 ConvNet 芯片,以实现智能手机、相机、机器人和自动驾驶汽车中的实时视觉应用。
ConvNets 应用芯片或外场很容易实现。视觉应用。
  分布式表示和语言处理

  深度学习理论表明,与不使用分布式表示的经典学习算法相比,深度网络具有两个不同的指数优势 21。这两个优势都源于组合的力量,并取决于具有适当组件结构的底层数据生成分布 40 . 首先,学习分布式表示能够泛化到学习特征值的新组合,而不是在训练期间看到的那些值的组合(例如,2n 个组合可能与 n 个二元特征一起使用)68,69。其次,在深度网络中组合表示层带来了另一个指数优势 70(深度指数)的潜力。
这两个强大的学习理论证明,与不使用原始的学习算法,具有不同的优势指数。首先,学习特性可以泛化到学习特征值的新组合,而不是训练过程中的那些值(例如,对于n个二进制特征,组合可能达到2n个)。第二,在一个深度网络中构成了一层带来了另外一个指数优势(深度指数)的潜力。
多层神经网络的隐藏层学习以一种易于预测目标输出的方式来表示网络的输入。通过训练多层神经网络从较早单词 71 的局部上下文中预测序列中的下一个单词,可以很好地证明这一点。 上下文中的每个单词都作为 N 个向量之一呈现给网络,即一个分量的值为 1,其余为 0。在第一层,每个词创建不同的激活模式或词向量(图 4)。在语言模型中,网络的其他层学习将输入词向量转换为预测下一个词的输出词向量,该词向量可用于预测词汇表中任何词作为下一个词出现的概率。网络学习包含许多活动成分的词向量,每个成分都可以解释为词的一个单独特征,正如在学习符号的分布式表示的上下文中首次演示的那样 27。这些语义特征未明确存在于输入中。学习过程发现它们是将输入和输出符号之间的结构化关系分解为多个“微规则”的好方法。当单词序列来自大量真实文本并且单个微规则不可靠时,学习词向量也非常有效 71. 例如,当训练预测新闻故事中的下一个单词时,学习的单词星期二和星期三的向量非常相似,瑞典和挪威的词向量也是如此。这种表示被称为分布式表示,因为它们的元素(特征)并不相互排斥,并且它们的许多配置对应于观察数据中看到的变化。这些词向量由学习的特征组成,这些特征不是由专家提前确定,而是由神经网络自动发现的。从文本中学习的单词的向量表示现在非常广泛地用于自然语言应用程序 14,17,72-76。

  

  

  认知神经网络的层学习以一种容易的方式来表现网络输入。在第一层中,每一个单词都以一个N个输入现成网络,其中一个分量的给1个,其余的为0个。 4)。这些特征在输入中没有显式表现。学习发现它们是将输入和输出符号之间的结构化关系划分过程。为一些“微规则”的好。当单词序列来自的真实文本和大量的方法规则不可靠时,学习单词也非常有效。例如,当训练预测新闻报道中的下一个单词时,星期二和礼拜三所学的单词非常相似,引来和挪威的伙伴也很相似。这些文字是由学习的特征组成的,这些特征不是由专家采集现在的,由神经网络自动发现的。广泛的应用。
  表征问题是逻辑启发和神经网络启发的认知范式之间争论的核心。在逻辑启发范式中,符号的实例是唯一属性是它与其他符号实例相同或不相同的东西。它没有与其使用相关的内部结构;为了用符号进行推理,它们必须与明智选择的推理规则中的变量绑定。相比之下,神经网络仅使用大活动向量、大权重矩阵和标量非线性来执行支持轻松常识推理的快速“直观”推理类型。
不同的问题是逻辑思想和网络神经脑的意识范式辩论的核心。结构;要符号进行推理,它们必须与经过巧妙选择的推理规则中的引出原理。 “必要费”推理,这种推理支持普遍力的常识推理
在引入神经语言模型 71 之前,语言统计建模的标准方法没有利用分布式表示:它基于对长度高达 N(称为 N-gram)的短符号序列的出现频率进行计数。可能的 N-gram 的数量在 VN 的数量级上,其中 V 是词汇量的大小,因此考虑多个单词的上下文将需要非常大的训练语料库。N-gram 将每个单词视为一个原子单元,因此它们无法泛化语义相关的单词序列,而神经语言模型可以,因为它们将每个单词与一个实值特征向量相关联,并且语义相关的单词最终彼此接近在那个向量空间(图4)。
在引入神经语言模型71之前,语言统计建模的标准方法没有借鉴:它是基于计算长度而不是N的短符号(N-gram)的出现频率。可能的N-gram的数量是 VN 的数量级,其中 V 是词汇量的大小,因此考虑到可能需要大量的语料库。N-gram 将每个单词作为一个原子单元来处理,因此它们不能在语义相关的单词序列中进行泛化,而神经语言模型可以,因为它们将每个单词与实值特征向量相关联,并且语义相关的单词在该向量空间中彼此接近。
  递归神经网络

  首次引入反向传播时,其最令人兴奋的用途是训练循环神经网络 (RNN)。对于涉及顺序输入的任务,例如语音和语言,通常最好使用 RNN(图 5)。RNN 一次处理一个输入序列一个元素,在它们的隐藏单元中维护一个“状态向量”,该向量隐式包含有关该序列所有过去元素的历史信息。当我们考虑隐藏单元在不同离散时间步长的输出时,就好像它们是深层多层网络中不同神经元的输出一样(图 5,右),我们如何应用反向传播来训练 RNN 就变得很清楚了。

  

  

  对于涉及日常输入的任务,例如语音和语言,使用RNN更好(图5)。RNN只一次处理一个输入。序列的一个元素,在它们的隐藏单元中维护一个“状态”,它隐藏地包含所有过去元素的历史信息。当我们考虑隐藏单元在不同的离散时间步长的输出,就好像它们是初步的多层网络中不同神经元的输出一样(图5),我们就可以清楚地知道如何应用反向传播来训练RNN。
RNNs是非常强大的动力系统,但他们的训练已经被证明是有问题的,因为backpropagated梯度要么在每个时间步长或缩小,因此在许多时间步长中,它们通常会爆炸或消失 77,78。
RNN 是非常强大的动态系统,但实际证明它们可能会出问题,因为它们可能会在每一次传播都会增长或缩小,因此在多次传播时,它们通常会爆炸或消失。
由于其架构 79,80 和训练方法 81,82 的进步,人们发现 RNN 非常擅长预测文本中的下一个字符 83 或序列中的下一个单词 75,但它们也可以使用用于更复杂的任务。例如,在一次读一个英语句子后,可以训练英语“编码器”网络,使其隐藏单元的最终状态向量很好地表示句子所表达的思想。然后,该思想向量可以用作(或作为额外输入)联合训练的法语“解码器”网络的初始隐藏状态,该网络输出法语翻译的第一个单词的概率分布。如果从这个分布中选择一个特定的第一个单词并作为输入提供给解码器网络,它将输出翻译的第二个单词的概率分布,依此类推,直到选择一个句号 17,72,76。总体而言,此过程根据取决于英语句子的概率分布生成法语单词序列。这种相当幼稚的机器翻译方式很快就与最先进的技术竞争,这引发了人们对理解句子是否需要诸如使用推理规则操纵的内部符号表达式之类的东西的严重怀疑。它更符合以下观点,即日常推理涉及许多同时进行的类比,每个类比都有助于得出结论 84,85。
由于其结构体系和训练方式的进步,人们发现RNN非常能预测文本中的下一个字符或序列中的下一个单词,但它们也可以用于更复杂的任务的。,在例如读一个英语句子后。 ,训练一个“解码器”网络,让英语“隐藏的最终状态”隐藏了“解码器”网络的最终隐藏状态。状态(或作为其他输入),该网络输出翻译的第一个词的批评提供。第二个字的审稿方式,依附方式推送,直到选择了一个句号。总体,整个过程根据一个依赖于英语的句子发布生成句子文字序列。这种相当幼稚的机器翻译就循环。与最先进的技术相结合,有很多人对理解一个句子需要像使用推理规则所产生的内部符号表达之类的东西的严重问题。它更符合这样一种观点:日常思维包括许多同时发生的类比,每个人可能得出的结论。
  与其将法语句子的含义翻译成英语句子,不如学习将图像的含义“翻译”成英语句子(图 3)。这里的编码器是一个深度卷积网络,它将像素转换为最后一个隐藏层中的活动向量。解码器是一个类似于用于机器翻译和神经语言建模的 RNN。最近对这种系统的兴趣激增(参见参考文献 86 中提到的例子)。
除了把法语翻译成英语句子,人们可以学会把图像的英文“翻译”成英语句子(图 3)。这里的编码器是一个深度转换网络,是动画转换成最后一个隐藏层中的动画。译码器是一个压缩机器和神经语言建模的RNN。最近人们对这些系统的兴趣兴趣活动。
RNN 一旦及时展开(图 5),就可以被视为非常深的前馈网络,其中所有层共享相同的权重。虽然他们的主要目的是学习长期依赖,但理论和经验证据表明,学习将信息存储很长时间是很困难的
78.RNN在时间上上图5),就可以展开是非常深的前网络馈赠,其中所有层共享相同的重。他们的目的是学习虽然很可能,但理论和经验攻击防御,主要学习存储长期信息是困难权的。
为了纠正这一点,一个想法是用显式记忆来增强网络。这种类型的第一个提议是使用特殊隐藏单元的长短期记忆 (LSTM) 网络,其自然行为是长时间记住输入 79. 一个称为记忆单元的特殊单元就像一个累加器或门控泄漏神经元:它在下一个时间步与自身有一个权重为 1 的连接,因此它复制自己的实值状态并积累外部信号,但是这种自连接被另一个单元乘法门控学会决定什么时候清除内存的内容。
因为是这样一个时间点,有一个方法可以显式内存扩展网络。第一种建议是特殊使用隐藏单元的长内存记忆(LSTM)网络,其自然行为是长时间记忆输入。另一个单元乘性地选通,它学习确定何时清除记忆的内容。
LSTM 网络随后被证明比传统的 RNN 更有效,尤其是当它们每个时间步都有多个层时87,从而实现从声学到转录中的字符序列的整个语音识别系统。LSTM 网络或相关形式的门控单元目前也用于在机器翻译中表现良好的编码器和解码器网络 17,72,76。
LSTM网络后来被证明比传统的更有效,特别是当它们在时间上的步骤有很多层时,能够实现从声学中字符的整个语音识别系统。LSTM或相关形式的选择通网络单元现在也用于编码器和解码器网络,它们在机器翻译方面表现得非常好。
在过去的一年里,几位作者提出了不同的建议,用记忆模块来增强 RNN。提案包括神经图灵机,其中网络由“磁带状”内存增强,RNN 可以选择读取或写入 88,以及内存网络,其中常规网络由一种关联内存增强89. 记忆网络在标准问答基准测试中表现出色。记忆是用来记住故事的,后来网络回答问题。
在过去的一年里,几位作者提出了不同的建议,用内存模块来扩充RNN。建议包括神经图灵机,包括网络由 RNN 已经读或的“磁带状”写出,以及充电网络,指定的网络由一种联想的扩充容量。内存网络在标准测试中测试中取得了自己的性能。记忆是记忆恢复了。故事的,后来会被要求回答问题。
除了简单的记忆之外,神经图灵机和记忆网络还被用于通常需要推理和符号操作的任务。可以教授神经图灵机“算法”。除此之外,当他们的输入由一个未排序的序列组成时,他们可以学习输出一个排序的符号列表,其中每个符号都伴随着一个实际值,表明它在列表中的优先级 88。可以训练记忆网络来跟踪在类似于文字冒险游戏的设置中了解世界的状态,在阅读故事后,他们可以回答需要复杂推理的问题 90. 在一个测试示例中,网络展示了 15 句版本的 The Lord of the Lord响铃并正确回答诸如“佛罗多现在在哪里?”89 之类的问题。
除了简单的记忆,神经图灵机器和网络被用于通常需要推理和符号操作的任务。神经图灵机器可以教“算法”。除其他外,当他们的输入由一个未排序的序列组成时,他们可以学习输出一个已排序的符号列表,其中的符号有一个实际值,该值指示其在列表中的优先级。记忆网络可以训练成一个类似文本冒险游戏的环境中追踪世界的状态,并且在阅读故事之后,他们可以回答需要重复推理的问题。在一个测试例子中,网络显示了15句话的《指环王》版本,并正确回答了“人生佛现在在哪里”等问题,
  深学习的未来

  无监督学习91-98曾在复兴深学习兴趣的催化效果,但已经被通过纯粹的监督学习的成功蒙上了阴影。虽然我们在本次审查中没有关注它,但我们预计无监督学习在长期内会变得更加重要。人类和动物的学习在很大程度上是无监督的:我们通过观察来发现世界的结构,而不是通过被告知每个物体的名称。
无监督学习对深度学习的兴趣在恢复中起到了作用,但即将被纯粹监督学习的成功所掩盖。更加重要人类和动物的学习在很大程度上是无监督的:我们通过观察发现世界的结构,而不是被告知每一个物体的名称。
人类的视觉是一个积极的过程依次样品中一个的光学阵列使用小型、高分辨率中央凹和大型低分辨率环绕的智能、特定于任务的方式。我们预计未来视觉方面的大部分进展将来自经过端到端训练并将 ConvNet 与 RNN 相结合的系统,这些系统使用强化学习来决定看哪里。结合深度学习和强化学习的系统还处于起步阶段,但它们在分类任务上的表现已经超过了被动视觉系统 99,并且在学习玩许多不同的视频游戏时产生了令人印象深刻的结果 100。
人类视觉是一个主动的,它使用了一个、意识的中心和一个大的、低分辨率的凹陷的环绕物,以一种、特定的方式对视觉远景进行的过程。将深度学习和强化学习相结合的系统进入初级阶段,它们在任务中上的表现已经超过了被动视觉系统,并在学习玩多种不同的视频游戏方面取得了令人印象深刻的成果。
  自然语言理解是在深学习准备作出在未来有很大的影响的另一个领域数年。我们期望使用 RNN 理解句子或整个文档的系统在学习一次选择性地关注一个部分的策略时会变得更好76,86。
自然语言理解是另一个领域,深度学习将在未来产生重大影响。我们渴望使用包含 RNN 的系统理解句子或整个文档,当他们学会一次有选择地关注一个部分的策略时,会变得更好。
最终,人工智能的重大进展将通过将表征学习与复杂推理相结合的系统实现。虽然深度学习和简单推理早已用于语音和笔迹识别,但需要新的范式来取代基于规则的符号表达式操作,以对大向量进行操作101。
最终,人工智能的重大进展将通过将表明学习模拟与模拟相结合的系统来实现。虽然在语音和手写体识别中使用深度学习和简单推理已经有很长的时间了,但需要新的范式来模仿规则的符号表达式操作,而不是对大向量的操作。
举报

更多回帖

发帖
×
20
完善资料,
赚取积分