深度学习——维基 · AI学习摘记

[TOC] **深度学习**（英语：deep learning）是[机器学习](https://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0 "机器学习")拉出的分支，它试图使用包含复杂结构或由多重非[线性变换](https://zh.wikipedia.org/wiki/%E7%BA%BF%E6%80%A7%E5%8F%98%E6%8D%A2 "线性变换")构成的多个处理层对数据进行高层抽象的[算法](https://zh.wikipedia.org/wiki/%E7%AE%97%E6%B3%95 "算法")。[[1]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BOOK2014-1)[[2]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIODEEP-2)[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3)[[4]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHIDHUB-4)[[5]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-NatureBengio-5) 深度学习是[机器学习](https://zh.wikipedia.org/wiki/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0 "机器学习")中一种基于对数据进行[表征学习](https://zh.wikipedia.org/wiki/%E8%A1%A8%E5%BE%81%E5%AD%A6%E4%B9%A0 "表征学习")的方法。观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域[等](https://zh.wikipedia.org/wiki/%E5%B0%BA%E5%BA%A6%E4%B8%8D%E8%AE%8A%E7%89%B9%E5%BE%B5%E8%BD%89%E6%8F%9B "尺度不变特征转换")。而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别[[6]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-6)）。深度学习的好处是用[非监督式](https://zh.wikipedia.org/wiki/%E9%9D%9E%E7%9B%A3%E7%9D%A3%E5%BC%8F%E5%AD%B8%E7%BF%92 "非监督式学习")或[半监督式](https://zh.wikipedia.org/w/index.php?title=%E5%8D%8A%E7%9B%91%E7%9D%A3%E5%BC%8F%E5%AD%A6%E4%B9%A0&action=edit&redlink=1)的[特征学习](https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%AD%A6%E4%B9%A0 "特征学习")和分层[特征提取](https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E6%8F%90%E5%8F%96 "特征提取")高效算法来替代手工获取[特征](https://zh.wikipedia.org/w/index.php?title=%E7%89%B9%E5%BE%81_(%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0)&action=edit&redlink=1)。[[7]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-7) [表征学习](https://zh.wikipedia.org/wiki/%E8%A1%A8%E5%BE%81%E5%AD%A6%E4%B9%A0 "表征学习")的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。表达方式类似[神经科学](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%A7%91%E5%AD%A6 "神经科学")的进步，并松散地创建在类似[神经系统](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%B3%BB%E7%BB%9F "神经系统")中的信息处理和通信模式的理解上，如[神经编码](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%BC%96%E7%A0%81 "神经编码")，试图定义拉动神经元的反应之间的关系以及[大脑](https://zh.wikipedia.org/wiki/%E5%A4%A7%E8%84%91 "大脑")中的神经元的电活动之间的关系。[[8]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-8) 至今已有数种深度学习框架，如[深度神经网络](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#.E6.B7.B1.E5.BA.A6.E7.A5.9E.E7.BB.8F.E7.BD.91.E7.BB.9C "深度学习")、[卷积神经网络](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷积神经网络")和[深度置信网络](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E7%BD%AE%E4%BF%A1%E7%BD%91%E7%BB%9C&action=edit&redlink=1)和[递归神经网络](https://zh.wikipedia.org/wiki/%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "递归神经网络")已被应用[计算机视觉](https://zh.wikipedia.org/wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89 "计算机视觉")、[语音识别](https://zh.wikipedia.org/wiki/%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB "语音识别")、[自然语言处理](https://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 "自然语言处理")、音频识别与[生物信息学](https://zh.wikipedia.org/wiki/%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E5%AD%A6 "生物信息学")等领域并获取了极好的效果。另外，“深度学习”已成为类似术语，或者说是[神经网络](https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "神经网络")的品牌重塑。[[9]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-9)[[10]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-10) ## 简介[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=1 "编辑小节：简介")] 深度学习框架，尤其是基于[人工神经网络](https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "人工神经网络")的框架可以追溯到1980年福岛邦彦提出的新认知机[[11]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-FUKU1980-11)，而人工神经网络的历史更为久远。1989年，[扬·勒丘恩](https://zh.wikipedia.org/wiki/%E6%89%AC%C2%B7%E5%8B%92%E4%B8%98%E6%81%A9 "扬·勒丘恩")（Yann LeCun）等人开始将1974年提出的标准[反向传播算法](https://zh.wikipedia.org/wiki/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95 "反向传播算法")[[12]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-WERBOS1974-12)应用于深度神经网络，这一网络被用于手写邮政编码识别。尽管算法可以成功执行，但计算代价非常巨大，神经网路的训练时间达到了3天，因而无法投入实际使用[[13]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LECUN1989-13)。许多因素导致了这一缓慢的训练过程，其中一种是由[于尔根·施密德胡伯](https://zh.wikipedia.org/w/index.php?title=%E4%BA%8E%E5%B0%94%E6%A0%B9%C2%B7%E6%96%BD%E5%AF%86%E5%BE%B7%E8%83%A1%E4%BC%AF&action=edit&redlink=1)的学生[赛普·霍克赖特](https://zh.wikipedia.org/w/index.php?title=%E8%B5%9B%E6%99%AE%C2%B7%E9%9C%8D%E5%85%8B%E8%B5%96%E7%89%B9&action=edit&redlink=1 "赛普·霍克赖特（页面不存在）")（[Sepp Hochreiter](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1)）于1991年提出的梯度消失问题[[14]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HOCH1991-14)[[15]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HOCH2001-15)。最早的进行一般自然杂乱图像中自然物体识别的深度学习网络是翁巨扬（Juyang Weng）等在1991和1992发表的[生长网](https://zh.wikipedia.org/w/index.php?title=%E7%94%9F%E9%95%BF%E7%BD%91&action=edit&redlink=1 "生长网（页面不存在）")（Cresceptron）[[16]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-Weng1992-16)[[17]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-Weng1993-17)[[18]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-Weng1997-18)。它也是第一个提出了后来很多实验广泛采用的一个方法：现在称为最大汇集（max-pooling)以用于处理大物体的变形等问题。生长网不仅直接从杂乱自然场景中学习老师指定的一般物体，还用网络反向分析的方法把图像内被识别了的物体从背景图像中分区出来。 2007年前后，[杰弗里·辛顿](https://zh.wikipedia.org/wiki/%E6%9D%B0%E5%BC%97%E9%87%8C%C2%B7%E8%BE%9B%E9%A1%BF "杰弗里·辛顿")和鲁斯兰·萨拉赫丁诺夫（Ruslan Salakhutdinov）提出了一种在前馈神经网络中进行有效训练的算法。这一算法将网络中的每一层视为[无监督](https://zh.wikipedia.org/w/index.php?title=%E6%97%A0%E7%9B%91%E7%9D%A3%E5%AD%A6%E4%B9%A0&action=edit&redlink=1 "无监督学习（页面不存在）")的[受限玻尔兹曼机](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻尔兹曼机")，再使用有监督的反向传播算法进行调优[[19]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HINTON2007-19)。在此之前的1992年，在更为普遍的情形下，施密德胡伯也曾在[递归神经网络](https://zh.wikipedia.org/wiki/%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "递归神经网络")上提出一种类似的训练方法，并在实验中证明这一训练方法能够有效提高有监督学习的执行速度[[20]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHMID1992-20)[[21]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHMID1991-21). 自深度学习出现以来，它已成为很多领域，尤其是在计算机视觉和语音识别中，成为各种领先系统的一部分。在通用的用于检验的数据集，例如语音识别中的TIMIT和图像识别中的ImageNet, Cifar10上的实验证明，深度学习能够提高识别的精度。与此同时，神经网络也受到了其他更加简单归类模型的挑战，[支持向量机](https://zh.wikipedia.org/wiki/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA "支持向量机")等模型在20世纪90年代到21世纪初成为过流行的机器学习算法。硬件的进步也是深度学习重新获得关注的重要因素。高性能[图形处理器](https://zh.wikipedia.org/wiki/%E5%9C%96%E5%BD%A2%E8%99%95%E7%90%86%E5%99%A8 "图形处理器")的出现极大地提高了数值和矩阵运算的速度，使得机器学习算法的运行时间得到了显著的缩短[[22]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-CIRESAN2010-22)[[23]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RAINA2009-23)。深度学习网络在2001年后正逐渐被更有潜力的基于脑模型的网络[[24]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-WengScience2001-24)[[25]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-WengIJCNN5-25)所替代。脑科学的大量研究已表明人脑网络不是一个级联的结构，大概是为了脑计算的必要吧。 ## 基本概念[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=2 "编辑小节：基本概念")] 深度学习的基础是机器学习中的分散表示（distributed representation）。分散表示假定观测值是由不同因子相互作用生成。在此基础上，深度学习进一步假定这一相互作用的过程可分为多个层次，代表对观测值的多层抽象。不同的层数和层的规模可用于不同程度的抽象[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3)。深度学习运用了这分层次抽象的思想，更高层次的概念从低层次的概念学习得到。这一分层结构常常使用[贪婪算法](https://zh.wikipedia.org/wiki/%E8%B2%AA%E5%A9%AA%E7%AE%97%E6%B3%95 "贪婪算法")逐层构建而成，并从中选取有助于机器学习的更有效的特征[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3). 不少深度学习算法都以无监督学习的形式出现，因而这些算法能被应用于其他算法无法企及的无标签数据，这一类数据比有标签数据更丰富，也更容易获得。这一点也为深度学习赢得了重要的优势[[3]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2012-3)。 ## 人工神经网络下的深度学习[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=3 "编辑小节：人工神经网络下的深度学习")] 一部分最成功的深度学习方法涉及到对[人工神经网络](https://zh.wikipedia.org/wiki/%E4%BA%BA%E5%B7%A5%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "人工神经网络")的运用。人工神经网络受到了1959年由诺贝尔奖得主[大卫·休伯尔](https://zh.wikipedia.org/wiki/%E5%A4%A7%E8%A1%9B%C2%B7%E4%BC%91%E4%BC%AF%E7%88%BE "大卫·休伯尔")（David H. Hubel）和[托斯坦·威泽尔](https://zh.wikipedia.org/wiki/%E6%89%98%E6%96%AF%E5%9D%A6%C2%B7%E5%A8%81%E6%B3%BD%E5%B0%94 "托斯坦·威泽尔")（Torsten Wiesel）提出的理论启发。休伯尔和威泽尔发现，在大脑的[初级视觉皮层](https://zh.wikipedia.org/wiki/%E5%88%9D%E7%BA%A7%E8%A7%86%E8%A7%89%E7%9A%AE%E5%B1%82 "初级视觉皮层")中存在两种细胞：简单细胞和复杂细胞，这两种细胞承担不同层次的视觉感知功能。受此启发，许多神经网络模型也被设计为不同节点之间的分层模型[[26]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-26)。福岛邦彦提出的新认知机引入了使用无监督学习训练的卷积神经网络。燕乐存将有监督的[反向传播算法](https://zh.wikipedia.org/wiki/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95 "反向传播算法")应用于这一架构[[27]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LeCun1989-27)。事实上，从反向传播算法自20世纪70年代提出以来，不少研究者都曾试图将其应用于训练有监督的深度神经网络，但最初的尝试大都失败。[赛普·霍克赖特](https://zh.wikipedia.org/w/index.php?title=%E8%B5%9B%E6%99%AE%C2%B7%E9%9C%8D%E5%85%8B%E8%B5%96%E7%89%B9&action=edit&redlink=1)在其博士论文中将失败的原因归结为梯度消失，这一现象同时在深度前馈神经网络和递归神经网络中出现，后者的训练过程类似深度网络。在分层训练的过程中，本应用于修正模型参数的误差随着层数的增加指数递减，这导致了模型训练的效率低下[[28]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-28)[[29]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-29)。为了解决这一问题，研究者们提出了一些不同的方法。[于尔根·施密德胡伯](https://zh.wikipedia.org/w/index.php?title=%E4%BA%8E%E5%B0%94%E6%A0%B9%C2%B7%E6%96%BD%E5%AF%86%E5%BE%B7%E8%83%A1%E4%BC%AF&action=edit&redlink=1)于1992年提出多层级网络，利用无监督学习训练深度神经网络的每一层，再使用反向传播算法进行调优。在这一模型中，神经网络中的每一层都代表观测变量的一种压缩表示，这一表示也被传递到下一层网络[[20]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHMID1992-20)。另一种方法是赛普·霍克赖特和于尔根·施密德胡伯提出的[长短期记忆神经网络](https://zh.wikipedia.org/w/index.php?title=%E9%95%BF%E7%9F%AD%E6%9C%9F%E8%AE%B0%E5%BF%86%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&action=edit&redlink=1)，LSTM）[[30]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-lstm-30)。2009年，在ICDAR 2009举办的连笔手写识别竞赛中，在没有任何先验知识的情况下，深度多维长短期记忆神经网络获取了其中三场比赛的胜利[[31]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-31)[[32]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-32)。斯文·贝克提出了在训练时只依赖梯度符号的神经抽象金字塔模型，用以解决图像重建和人脸定位的问题[[33]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-33)。其他方法同样采用了无监督预训练来构建神经网络，用以发现有效的特征，此后再采用有监督的反向传播以区分有标签数据。辛顿等人于2006年提出的深度模型提出了使用多层隐变量学习高层表示的方法。这一方法使用斯摩棱斯基于1986年提出的[受限玻尔兹曼机](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻尔兹曼机")[[34]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-smolensky1986-34)对每一个包含高层特征的层进行建模。模型保证了数据的对数似然下界随着层数的提升而递增。当足够多的层数被学习完毕，这一深层结构成为一个生成模型，可以通过自上而下的采样重构整个数据集[[35]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-hinton2006-35)。辛顿声称这一模型在高维结构化数据上能够有效地提取特征[[36]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-36)。 [吴恩达](https://zh.wikipedia.org/wiki/%E5%90%B4%E6%81%A9%E8%BE%BE "吴恩达")和[杰夫·迪恩](https://zh.wikipedia.org/wiki/%E5%82%91%E5%A4%AB%C2%B7%E8%BF%AA%E6%81%A9 "杰夫·迪恩")领导的[谷歌大脑](https://zh.wikipedia.org/wiki/%E8%B0%B7%E6%AD%8C%E5%A4%A7%E8%84%91 "谷歌大脑")团队创建了一个仅通过[YouTube](https://zh.wikipedia.org/wiki/YouTube "YouTube")视频学习高层概念（例如猫）的神经网络[[37]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-markoff2012-37) [[38]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ng2012-38)。其他方法依赖了现代电子计算机的强大计算能力，尤其是[GPU](https://zh.wikipedia.org/wiki/GPU "GPU")。2010年，在于尔根·施密德胡伯位于瑞士人工智能实验室[IDSIA](https://zh.wikipedia.org/w/index.php?title=IDSIA&action=edit&redlink=1 "IDSIA（页面不存在）")的研究组中，丹·奇雷尚（Dan Ciresan）和他的同事展示了利用GPU直接执行反向传播算法而忽视梯度消失问题的存在。这一方法在燕乐存等人给出的手写识别MNIST数据集上战胜了已有的其他方法[[22]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-CIRESAN2010-22)。截止2011年，前馈神经网络深度学习中最新的方法是交替使用卷积层（convolutional layers）和最大值池化层（max-pooling layers）并加入单纯的分类层作为顶端。训练过程也无需引入无监督的预训练[[39]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011-39)[[40]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-martines2013-40)。从2011年起，这一方法的GPU实现[[39]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011-39)多次赢得了各类模式识别竞赛的胜利，包括IJCNN 2011交通标志识别竞赛[[41]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011NN-41)和其他比赛。这些深度学习算法也是最先在某些识别任务上达到和人类表现具备同等竞争力的算法[[42]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ciresan2011CVPR-42)。 ## 深度学习结构[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=4 "编辑小节：深度学习结构")] 深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到递归神经网络[[43]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-MIKO2010-43)。[卷积深度神经网络](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷积神经网络")（Convolutional Neuron Networks, CNN）在计算机视觉领域得到了成功的应用[[44]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LECUN86-44)。此后，卷积神经网络也作为听觉模型被使用在自动语音识别领域，较以往的方法获得了更优的结果[[45]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SAIN2013-45)。 ### 深度神经网络[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=5 "编辑小节：深度神经网络")] 深度神经网络（Deep Neural Networks, DNN）是一种[判别模型](https://zh.wikipedia.org/wiki/%E5%88%A4%E5%88%AB%E6%A8%A1%E5%9E%8B "判别模型")，可以使用[反向传播算法](https://zh.wikipedia.org/wiki/%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E7%AE%97%E6%B3%95 "反向传播算法")进行训练。权重更新可以使用下式进行[随机梯度下降法](https://zh.wikipedia.org/w/index.php?title=%E9%9A%8F%E6%9C%BA%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B3%95&action=edit&redlink=1)求解： {\displaystyle \Delta w_{ij}(t+1)=\Delta w_{ij}(t)+\eta {\frac {\partial C}{\partial w_{ij}}}}![ \Delta w_{ij}(t + 1) = \Delta w_{ij}(t) + \eta\frac{\partial C}{\partial w_{ij}} ](https://wikimedia.org/api/rest_v1/media/math/render/svg/b30cfc8b49b236c664c13a71d764822e8ee2726d) 其中，{\displaystyle \eta }![ \eta ](https://wikimedia.org/api/rest_v1/media/math/render/svg/e4d701857cf5fbec133eebaf94deadf722537f64)为学习率，{\displaystyle C}![ C ](https://wikimedia.org/api/rest_v1/media/math/render/svg/4fc55753007cd3c18576f7933f6f089196732029)为[代价函数](https://zh.wikipedia.org/w/index.php?title=%E4%BB%A3%E4%BB%B7%E5%87%BD%E6%95%B0&action=edit&redlink=1 "代价函数（页面不存在）")。这一函数的选择与学习的类型（例如监督学习、无监督学习、增强学习）以及[激活函数](https://zh.wikipedia.org/wiki/%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0 "激活函数")相关。例如，为了在一个多分类问题上进行监督学习，通常的选择是使用ReLU作为激活函数，而使用[交叉熵](https://zh.wikipedia.org/w/index.php?title=%E4%BA%A4%E5%8F%89%E7%86%B5&action=edit&redlink=1 "交叉熵（页面不存在）")作为代价函数。Softmax函数定义为{\displaystyle p_{j}={\frac {\exp(x_{j})}{\sum _{k}\exp(x_{k})}}}![ p_j = \frac{\exp(x_j)}{\sum_k \exp(x_k)} ](https://wikimedia.org/api/rest_v1/media/math/render/svg/aadedb36b78fb70af90980cdb73f00339640b5c3)，其中{\displaystyle p_{j}}![ p_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/499e0821b28c43e9bc2a6360b937de535057bc62)代表类别{\displaystyle j}![j](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)的概率，而{\displaystyle x_{j}}![ x_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/5db47cb3d2f9496205a17a6856c91c1d3d363ccd)和{\displaystyle x_{k}}![ x_k ](https://wikimedia.org/api/rest_v1/media/math/render/svg/6d2b88c64c76a03611549fb9b4cf4ed060b56002)分别代表对单元{\displaystyle j}![ j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)和{\displaystyle k}![ k ](https://wikimedia.org/api/rest_v1/media/math/render/svg/c3c9a2c7b599b37105512c5d570edc034056dd40)的输入。交叉熵定义为{\displaystyle C=-\sum _{j}d_{j}\log(p_{j})}![ C = -\sum_j d_j \log(p_j) ](https://wikimedia.org/api/rest_v1/media/math/render/svg/73d37f6493702d7ac38f348ae40be1510bcac40e)，其中{\displaystyle d_{j}}![ d_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/3fa3426b07cfa37c76382ddbecfb4c880889657f)代表输出单元{\displaystyle j}![ j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)的目标概率，{\displaystyle p_{j}}![ p_j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/499e0821b28c43e9bc2a6360b937de535057bc62)代表应用了激活函数后对单元{\displaystyle j}![ j ](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f461e54f5c093e92a55547b9764291390f0b5d0)的概率输出[[46]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HINTON2012-46)。 ### 深度神经网络的问题[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=6 "编辑小节：深度神经网络的问题")] 与其他神经网络模型类似，如果仅仅是简单地训练，深度神经网络可能会存在很多问题。常见的两类问题是[过拟合](https://zh.wikipedia.org/wiki/%E8%BF%87%E6%8B%9F%E5%90%88 "过拟合")和过长的运算时间。深度神经网络很容易产生过拟合现象，因为增加的抽象层使得模型能够对训练数据中较为罕见的依赖关系进行建模。对此，权重递减（{\displaystyle \ell _{2}}![ \ell_2 ](https://wikimedia.org/api/rest_v1/media/math/render/svg/85a4571ee9be10bd3c9df2480ab3d280f99e801a)正规化）或者稀疏（{\displaystyle \ell _{1}}![ \ell_1 ](https://wikimedia.org/api/rest_v1/media/math/render/svg/361ddd720474aa41cb05453e03424fb7999d3b02)-正规化）等方法可以利用在训练过程中以减小过拟合现象[[47]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIO2013-47)。另一种较晚用于深度神经网络训练的正规化方法是丢弃法（"dropout" regularization），即在训练中随机丢弃一部分隐层单元来避免对较为罕见的依赖进行建模[[48]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-DAHL2013-48)。反向传播算法和梯度下降法由于其实现简单，与其他方法相比能够收敛到更好的局部最优值而成为神经网络训练的通行方法。但是，这些方法的计算代价很高，尤其是在训练深度神经网络时，因为深度神经网络的规模（即层数和每层的节点数）、学习率、初始权重等众多参数都需要考虑。扫描所有参数由于时间代价的原因并不可行，因而小批量训练（mini-batching），即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练，被用于加速模型训练[[49]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RBMTRAIN-49)。而最显著地速度提升来自GPU，因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网络训练仍然存在困难，因而深度神经网络在训练并行化方面仍有提升的空间。 ### 深度置信网络[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=7 "编辑小节：深度置信网络")] [![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e8/Restricted_Boltzmann_machine.svg/220px-Restricted_Boltzmann_machine.svg.png)](https://zh.wikipedia.org/wiki/File:Restricted_Boltzmann_machine.svg) [](https://zh.wikipedia.org/wiki/File:Restricted_Boltzmann_machine.svg "放大") 一个包含完全连接可见层和隐层的[受限玻尔兹曼机](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻尔兹曼机")（RBM）。注意到可见层单元和隐层单元内部彼此不相连。深度置信网络（deep belief networks，DBN）是一种包含多层隐单元的概率[生成模型](https://zh.wikipedia.org/wiki/%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B "生成模型")，可被视为多层简单学习模型组合而成的复合模型[[50]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SCHOLARDBNS-50)。深度致信网络可以作为深度神经网络的预训练部分，并为网络提供初始权重，再使用反向传播或者其他判定算法作为调优的手段。这在训练数据较为缺乏时很有价值，因为不恰当的初始化权重会显著影响最终模型的性能，而预训练获得的权重在权值空间中比随机权重更接近最优的权重。这不仅提升了模型的性能，也加快了调优阶段的收敛速度[[51]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LAROCH2007-51)。深度置信网络中的每一层都是典型的[受限玻尔兹曼机](https://zh.wikipedia.org/wiki/%E5%8F%97%E9%99%90%E7%8E%BB%E5%B0%94%E5%85%B9%E6%9B%BC%E6%9C%BA "受限玻尔兹曼机")（restricted Boltzmann machine，RBM），可以使用高效的无监督逐层训练方法进行训练。受限玻尔兹曼机是一种[无向](https://zh.wikipedia.org/wiki/%E7%84%A1%E5%90%91%E5%9C%96 "无向图")的基于能量的生成模型，包含一个输入层和一个隐层。图中对的边仅在输入层和隐层之间存在，而输入层节点内部和隐层节点内部则不存在边。单层RBM的训练方法最初由杰弗里·辛顿在训练“专家乘积”中提出，被称为对比分歧（contrast divergence, CD）。对比分歧提供了一种对[最大似然](https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6 "最大似然")的近似，被理想地用于学习受限玻尔兹曼机的权重[[49]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RBMTRAIN-49)。当单层RBM被训练完毕后，另一层RBM可被堆叠在已经训练完成的RBM上，形成一个多层模型。每次堆叠时，原有的多层网络输入层被初始化为训练样本，权重为先前训练得到的权重，该网络的输出作为新增RBM的输入，新的RBM重复先前的单层训练过程，整个过程可以持续进行，直到达到某个期望中的终止条件[[2]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BENGIODEEP-2)。尽管对比分歧对最大似然的近似十分粗略（对比分歧并不在任何函数的梯度方向上），但经验结果证实该方法是训练深度结构的一种有效的方法[[49]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-RBMTRAIN-49)。 ### 卷积神经网络[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=8 "编辑小节：卷积神经网络")] 主条目：[卷积神经网络](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷积神经网络") 卷积神经网络（convolutional neuron networks，CNN）由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网络在图像和语音识别方面能够给出更优的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络，卷积神经网络需要估计的参数更少，使之成为一种颇具吸引力的深度学习结构[[52]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-.22.22STANCNN.22-52)。 ### 卷积深度置信网络[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=9 "编辑小节：卷积深度置信网络")] 卷积深度置信网络（convolutional deep belief networks，CDBN）是深度学习领域较新的分支。在结构上，卷积深度置信网络与[卷积神经网络](https://zh.wikipedia.org/wiki/%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C "卷积神经网络")在结构上相似。因此，与卷积神经网络类似，卷积深度置信网络也具备利用图像二维结构的能力，与此同时，卷积深度信念网络也拥有深度置信网络的预训练优势。卷积深度置信网络提供了一种能被用于信号和图像处理任务的通用结构，也能够使用类似深度置信网络的训练方法进行训练[[53]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-.22.22CDBN.22-53)。 ### 结果[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=10 "编辑小节：结果")] #### 语音识别[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=11 "编辑小节：语音识别")] 下表中的结果展示了深度学习在通行的[TIMIT](https://zh.wikipedia.org/wiki/TIMIT "TIMIT")数据集上的结果。TIMIT包含630人的语音数据，这些人持八种常见的[美式英语](https://zh.wikipedia.org/wiki/%E7%BE%8E%E5%BC%8F%E8%8B%B1%E8%AF%AD "美式英语")口音，每人阅读10句话。这一数据在深度学习发展之初常被用于验证深度学习结构[[54]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-LDCTIMIT-54)。TIMIT数据集较小，使得研究者可以在其上实验不同的模型配置。 | 方法 | 声音误差率 (PER, %) | | 随机初始化RNN | 26.1 | | 贝叶斯三音子GMM-HMM | 25.6 | | 单音子重复初始化DNN | 23.4 | | 单音子DBN-DNN | 22.4 | | 带BMMI训练的三音子GMM-HMM | 21.7 | | 共享池上的单音子DBN-DNN | 20.7 | | 卷积DNN | 20.0 | #### 图像分类[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=12 "编辑小节：图像分类")] 图像分类领域中一个公认的评判数据集是[MNIST](https://zh.wikipedia.org/w/index.php?title=MNIST&action=edit&redlink=1 "MNIST（页面不存在）")数据集。MNIST由手写阿拉伯数字组成，包含60,000个训练样本和10,000个测试样本。与TIMIT类似，它的数据规模较小，因而能够很容易地在不同的模型配置下测试。Yann LeCun的网站给出了多种方法得到的实验结果[[55]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-YANNMNIST-55)。截至2012年，最好的判别结果由Ciresan等人在当年给出，这一结果的错误率达到了0.23%[[56]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-CIRESAN2012-56)。 ## 深度学习与神经科学[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=13 "编辑小节：深度学习与神经科学")] 计算机领域中的深度学习与20世纪90年代由认知神经科学研究者提出的大脑发育理论（尤其是皮层发育理论）密切相关[[57]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-UTGOFF-57)。对这一理论最容易理解的是[杰弗里·艾尔曼](https://zh.wikipedia.org/w/index.php?title=%E6%9D%B0%E5%BC%97%E9%87%8C%C2%B7%E8%89%BE%E5%B0%94%E6%9B%BC&action=edit&redlink=1)于1996年出版的专著《对天赋的再思考》（[Rethinking Innateness](https://zh.wikipedia.org/w/index.php?title=Rethinking_Innateness&action=edit&redlink=1)）[[58]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-ELMAN-58)（参见斯拉格和约翰逊[[59]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SHRAGER-59)以及奎兹和赛杰诺维斯基[[60]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-QUARTZ-60)的表述）。由于这些理论给出了实际的神经计算模型，因而它们是纯计算驱动的深度学习模型的技术先驱。这些理论指出，大脑中的神经元组成了不同的层次，这些层次相互连接，形成一个过滤体系。在这些层次中，每层神经元在其所处的环境中获取一部分信息，经过处理后向更深的层级传递。这与后来的单纯与计算相关的深度神经网络模型相似。这一过程的结果是一个与环境相协调的自组织的堆栈式的转换器。正如1995年在《纽约时报》上刊登的那样，“……婴儿的大脑似乎受到所谓‘营养因素’的影响而进行着自我组织……大脑的不同区域依次相连，不同层次的脑组织依照一定的先后顺序发育成熟，直至整个大脑发育成熟。”[[61]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BLAKESLEE-61) 深度结构在人类认知演化和发展中的重要性也在认知神经学家的关注之中。发育时间的改变被认为是人类和其他灵长类动物之间智力发展差异的一个方面[[62]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-BUFILL-62)。在灵长类中，人类的大脑在出生后的很长时间都具备可塑性，但其他灵长类动物的大脑则在出生时就几乎完全定型。因而，人类在大脑发育最具可塑性的阶段能够接触到更加复杂的外部场景，这可能帮助人类的大脑进行调节以适应快速变化的环境，而不是像其他动物的大脑那样更多地受到遗传结构的限制。这样的发育时间差异也在大脑皮层的发育时间和大脑早期自组织中从刺激环境中获取信息的改变得到体现。当然，伴随着这一可塑性的是更长的儿童期，在此期间人需要依靠抚养者和社会群体的支持和训练。因而这一理论也揭示了人类演化汉化和意识共同进化的现象[[63]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-SHRAGER2-63)。 ## 公众视野中的深度学习[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=14 "编辑小节：公众视野中的深度学习")] 深度学习常常被看作是通向真正人工智能的重要一步[[64]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-HERN2013-64)，因而许多机构对深度学习的实际应用抱有浓厚的兴趣。2013年12月，[Facebook](https://zh.wikipedia.org/wiki/Facebook "Facebook")宣布雇用[燕乐存](https://zh.wikipedia.org/wiki/%E7%87%95%E4%B9%90%E5%AD%98 "燕乐存")为其新建的人工智能实验室的主管，这一实验室将在加州、伦敦和纽约设立分支机构，帮助Facebook研究利用深度学习算法进行类似自动标记照片中用户姓名这样的任务[[65]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-METZ2013-65)。 2013年3月，杰弗里·辛顿和他的两位研究生亚历克斯·克里泽夫斯基和伊利娅·苏特斯科娃被谷歌公司雇用，以提升现有的机器学习产品并协助处理谷歌日益增长的数据。谷歌同时并购了辛顿创办的公司DNNresearch[[66]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-66)。 2016年3月，以深度学习开发的围棋程序[AlphaGo](https://zh.wikipedia.org/wiki/AlphaGo "AlphaGo")首度在[比赛](https://zh.wikipedia.org/wiki/AlphaGo%E6%9D%8E%E4%B8%96%E4%B9%AD%E4%BA%94%E7%95%AA%E6%A3%8B "AlphaGo李世乭五番棋")中击败人类顶尖对手，造成广泛的讨论。 ## 批评[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=15 "编辑小节：批评")] 对深度学习的主要批评是许多方法缺乏理论支撑。大多数深度结构仅仅是梯度下降的某些变式。尽管梯度下降已经被充分地研究，但理论涉及的其他算法，例如对比分歧算法，并没有获得充分的研究，其收敛性等问题仍不明确。深度学习方法常常被视为黑盒，大多数的结论确认都由经验而非理论来确定。也有学者认为，深度学习应当被视为通向真正人工智能的一条途径，而不是一种包罗万象的解决方案。尽管深度学习的能力很强，但和真正的人工智能相比，仍然缺乏诸多重要的能力。理论心理学家[加里·马库斯](https://zh.wikipedia.org/w/index.php?title=%E5%8A%A0%E9%87%8C%C2%B7%E9%A9%AC%E5%BA%93%E6%96%AF&action=edit&redlink=1)指出： > 就现实而言，深度学习只是建造智能机器这一更大挑战中的一部分。这些技术缺乏表达[因果关系](https://zh.wikipedia.org/wiki/%E5%9B%A0%E6%9E%9C%E5%85%B3%E7%B3%BB "因果关系")的手段……缺乏进行[逻辑推理](https://zh.wikipedia.org/wiki/%E9%80%BB%E8%BE%91%E6%8E%A8%E7%90%86 "逻辑推理")的方法，而且远没有具备集成抽象知识，例如物品属性、代表和典型用途的信息。最为强大的人工智能系统，例如[IBM](https://zh.wikipedia.org/wiki/IBM "IBM")的人工智能系统[沃森](https://zh.wikipedia.org/wiki/%E6%B2%83%E6%A3%AE_(%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E7%A8%8B%E5%BA%8F) "沃森 (人工智能程序)")，仅仅把深度学习作为一个包含从[贝叶斯推理](https://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%8E%A8%E7%90%86 "贝叶斯推理")和[演绎推理](https://zh.wikipedia.org/wiki/%E6%BC%94%E7%BB%8E%E6%8E%A8%E7%90%86 "演绎推理")等技术的复杂技术集合中的组成部分[[67]](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_note-MARCUS-67)。 ## 参见[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=16 "编辑小节：参见")] * [图模型](https://zh.wikipedia.org/w/index.php?title=%E5%9B%BE%E6%A8%A1%E5%9E%8B&action=edit&redlink=1 "图模型（页面不存在）") * [人工智能的应用](https://zh.wikipedia.org/w/index.php?title=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E7%9A%84%E5%BA%94%E7%94%A8&action=edit&redlink=1 "人工智能的应用（页面不存在）") * [吴恩达](https://zh.wikipedia.org/wiki/%E5%90%B4%E6%81%A9%E8%BE%BE "吴恩达") * [人工智能项目列表](https://zh.wikipedia.org/w/index.php?title=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E9%A1%B9%E7%9B%AE%E5%88%97%E8%A1%A8&action=edit&redlink=1 "人工智能项目列表（页面不存在）") 深度学习库 * [Torch](https://zh.wikipedia.org/w/index.php?title=Torch_(machine_learning)&action=edit&redlink=1) * [Theano](https://zh.wikipedia.org/w/index.php?title=Theano_(software)&action=edit&redlink=1) * [Deeplearning4j](https://zh.wikipedia.org/wiki/Deeplearning4j "Deeplearning4j") * [tensorflow](https://zh.wikipedia.org/wiki/TensorFlow "TensorFlow") * [Caffe](http://caffe.berkeleyvision.org/) * [Keras](https://zh.wikipedia.org/w/index.php?title=Keras&action=edit&redlink=1) * [Mxnet](http://mxnet.io/) ## 参考资料[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=17 "编辑小节：参考资料")] 1. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BOOK2014_1-0)** Deng, L.; Yu, D. [Deep Learning: Methods and Applications](http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf) (PDF). Foundations and Trends in Signal Processing. 2014, **7**: 3–4. 2. ^ [跳转至：**2.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIODEEP_2-0) [**2.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIODEEP_2-1) Bengio, Yoshua. [Learning Deep Architectures for AI](http://sanghv.com/download/soft/machine%20learning,%20artificial%20intelligence,%20mathematics%20ebooks/ML/learning%20deep%20architectures%20for%20AI%20%282009%29.pdf) (PDF). Foundations and Trends in Machine Learning. 2009, **2** (1): 1–127. 3. ^ [跳转至：**3.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-0) [**3.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-1) [**3.2**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-2) [**3.3**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2012_3-3) Bengio, Y.; Courville, A.; Vincent, P. Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013, **35** (8): 1798–1828. [arXiv:1206.5538](https://arxiv.org/abs/1206.5538). 4. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHIDHUB_4-0)** Schmidhuber, J. Deep Learning in Neural Networks: An Overview. Neural Networks. 2015, **61**: 85–117. [arXiv:1404.7828](https://arxiv.org/abs/1404.7828). [doi:10.1016/j.neunet.2014.09.003](https://dx.doi.org/10.1016%2Fj.neunet.2014.09.003). 5. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-NatureBengio_5-0)** Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey. [Deep Learning](http://www.nature.com/nature/journal/v521/n7553/full/nature14539.html). Nature. 2015, **521**: 436–444. 6. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-6)** Glauner, P. Deep Convolutional Neural Networks for Smile Recognition (MSc Thesis). [Imperial College London](https://zh.wikipedia.org/wiki/Imperial_College_London "Imperial College London"), Department of Computing. 2015. [arXiv:1508.06535](https://arxiv.org/abs/1508.06535). 7. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-7)** Song, H.A.; Lee, S. Y. Hierarchical Representation Using NMF. Neural Information Processing. Lectures Notes in Computer Sciences **8226**. [Springer Berlin Heidelberg](https://zh.wikipedia.org/w/index.php?title=Springer_Berlin_Heidelberg&action=edit&redlink=1 "Springer Berlin Heidelberg（页面不存在）"). 2013: 466–473. [ISBN 978-3-642-42053-5](https://zh.wikipedia.org/wiki/Special:%E7%BD%91%E7%BB%9C%E4%B9%A6%E6%BA%90/978-3-642-42053-5 "Special:网络书源/978-3-642-42053-5"). [doi:10.1007/978-3-642-42054-2_58](https://dx.doi.org/10.1007%2F978-3-642-42054-2_58). 8. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-8)** Olshausen, B. A. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature. 1996, **381** (6583): 607–609. 9. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-9)** Collobert, R. [Deep Learning for Efficient Discriminative Parsing](http://videolectures.net/aistats2011_collobert_deep/). VideoLectures.net. April 2011\. 事件发生在 7min 45s. 10. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-10)** Gomes, L. [Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts](http://spectrum.ieee.org/robotics/artificial-intelligence/machinelearning-maestro-michael-jordan-on-the-delusions-of-big-data-and-other-huge-engineering-efforts). [IEEE Spectrum](https://zh.wikipedia.org/w/index.php?title=IEEE_Spectrum&action=edit&redlink=1 "IEEE Spectrum（页面不存在）"). 20 October 2014. 11. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-FUKU1980_11-0)** K. Fukushima., "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position," *Biol. Cybern.*, 36, 193–202, 1980 12. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-WERBOS1974_12-0)** P. Werbos., "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences," *PhD thesis, Harvard University*, 1974. 13. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LECUN1989_13-0)** LeCun *et al*., "Backpropagation Applied to Handwritten Zip Code Recognition," *Neural Computation*, 1, pp. 541–551, 1989. 14. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HOCH1991_14-0)** S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," *Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber*, 1991. 15. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HOCH2001_15-0)** S. Hochreiter *et al*., "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies," *In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press*, 2001. 16. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-Weng1992_16-0)** J. Weng, N. Ahuja and T. S. Huang, "[Cresceptron: a self-organizing neural network which grows adaptively](http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf)," *Proc. International Joint Conference on Neural Networks*, Baltimore, Maryland, vol I, pp. 576-581, June, 1992. 17. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-Weng1993_17-0)** J. Weng, N. Ahuja and T. S. Huang, "[Learning recognition and segmentation of 3-D objects from 2-D images](http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf)," *Proc. 4th International Conf. Computer Vision*, Berlin, Germany, pp. 121-128, May, 1993. 18. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-Weng1997_18-0)** J. Weng, N. Ahuja and T. S. Huang, "[Learning recognition and segmentation using the Cresceptron](http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf)," *International Journal of Computer Vision*, vol. 25, no. 2, pp. 105-139, Nov. 1997. 19. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HINTON2007_19-0)** G. E. Hinton., "Learning multiple layers of representation," *Trends in Cognitive Sciences*, 11, pp. 428–434, 2007. 20. ^ [跳转至：**20.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHMID1992_20-0) [**20.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHMID1992_20-1) J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," *Neural Computation*, 4, pp. 234–242, 1992. 21. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHMID1991_21-0)** J. Schmidhuber., "My First Deep Learning System of 1991 + Deep Learning Timeline 1962–2013." 22. ^ [跳转至：**22.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-CIRESAN2010_22-0) [**22.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-CIRESAN2010_22-1) D. C. Ciresan *et al*., "Deep Big Simple Neural Nets for Handwritten Digit Recognition," *Neural Computation*, 22, pp. 3207–3220, 2010. 23. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RAINA2009_23-0)** R. Raina, A. Madhavan, A. Ng., "Large-scale Deep Unsupervised Learning using Graphics Processors," *Proc. 26th Int. Conf. on Machine Learning*, 2009. 24. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-WengScience2001_24-0)** J. Weng, J. McClelland, A. Pentland, O. Sporns, I. Stockman, M. Sur and E. Thelen, "[Autonomous Mental Development by Robots and Animals](http://www.cse.msu.edu/dl/SciencePaper.pdf)," Science, vol. 291, no. 5504, pp. 599 - 600, Jan. 26, 2001. 25. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-WengIJCNN5_25-0)** J. Weng, "[Brains as Naturally Emerging Turing Machines](http://www.cse.msu.edu/~weng/research/IJCNN15-807.pdf)," in Proc. International Joint Conference on Neural Networks, Killarney, Ireland, 8 pages, July 12-17\. 2015. 26. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-26)** M Riesenhuber, T Poggio. Hierarchical models of object recognition in cortex. Nature neuroscience, 1999(11) 1019–1025. 27. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LeCun1989_27-0)** Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. *Backpropagation Applied to Handwritten Zip Code Recognition.* Neural Computation, 1(4):541–551, 1989. 28. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-28)** [S. Hochreiter](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1 "Sepp Hochreiter（页面不存在）"). Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991\. Advisor: [J. Schmidhuber](https://zh.wikipedia.org/w/index.php?title=J%C3%BCrgen_Schmidhuber&action=edit&redlink=1 "Jürgen Schmidhuber（页面不存在）") 29. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-29)** [S. Hochreiter](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1 "Sepp Hochreiter（页面不存在）"), Y. Bengio, P. Frasconi, and [J. Schmidhuber](https://zh.wikipedia.org/w/index.php?title=J%C3%BCrgen_Schmidhuber&action=edit&redlink=1 "Jürgen Schmidhuber（页面不存在）"). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001. 30. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-lstm_30-0)** [Hochreiter, Sepp](https://zh.wikipedia.org/w/index.php?title=Sepp_Hochreiter&action=edit&redlink=1 "Sepp Hochreiter（页面不存在）"); and [Schmidhuber, Jürgen](https://zh.wikipedia.org/w/index.php?title=J%C3%BCrgen_Schmidhuber&action=edit&redlink=1 "Jürgen Schmidhuber（页面不存在）"); *Long Short-Term Memory*, Neural Computation, 9(8):1735–1780, 1997 31. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-31)** Graves, Alex; and Schmidhuber, Jürgen; *Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks*, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), *Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC*, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552 32. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-32)** A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009. 33. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-33)** Sven Behnke. [Hierarchical Neural Networks for Image Interpretation.](http://www.ais.uni-bonn.de/books/LNCS2766.pdf) (PDF). Lecture Notes in Computer Science **2766**. Springer. 2003. 34. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-smolensky1986_34-0)** [Smolensky, P.](https://zh.wikipedia.org/w/index.php?title=Paul_Smolensky&action=edit&redlink=1 "Paul Smolensky（页面不存在）") [Information processing in dynamical systems: Foundations of harmony theory.](http://portal.acm.org/citation.cfm?id=104290). In D. E. Rumelhart, J. L. McClelland, & the PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition. **1**. 1986: 194–281. 35. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-hinton2006_35-0)** [Hinton, G. E.](https://zh.wikipedia.org/w/index.php?title=Geoffrey_Hinton&action=edit&redlink=1 "Geoffrey Hinton（页面不存在）"); Osindero, S.; Teh, Y. [A fast learning algorithm for deep belief nets](http://www.cs.toronto.edu/~hinton/absps/fastnc.pdf) (PDF). [Neural Computation](https://zh.wikipedia.org/w/index.php?title=Neural_Computation&action=edit&redlink=1 "Neural Computation（页面不存在）"). 2006, **18** (7): 1527–1554. [PMID 16764513](https://www.ncbi.nlm.nih.gov/pubmed/16764513). [doi:10.1162/neco.2006.18.7.1527](https://dx.doi.org/10.1162%2Fneco.2006.18.7.1527). 36. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-36)** Hinton, G. [Deep belief networks](http://www.scholarpedia.org/article/Deep_belief_networks). Scholarpedia. 2009, **4** (5): 5947. [doi:10.4249/scholarpedia.5947](https://dx.doi.org/10.4249%2Fscholarpedia.5947). [编辑](https://zh.wikipedia.org/w/index.php?title=Template:Cite_doi/10.4249.2Fscholarpedia.5947&action=edit&editintro=Template:Cite_doi/editintro2) 37. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-markoff2012_37-0)** John Markoff. [How Many Computers to Identify a Cat? 16,000.](http://www.nytimes.com/2012/06/26/technology/in-a-big-network-of-computers-evidence-of-machine-learning.html). New York Times. 25 June 2012. 38. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ng2012_38-0)** Ng, Andrew; Dean, Jeff. [Building High-level Features Using Large Scale Unsupervised Learning](http://arxiv.org/pdf/1112.6209.pdf) (PDF). 2012. 39. ^ [跳转至：**39.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011_39-0) [**39.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011_39-1) D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence (IJCAI-2011, Barcelona), 2011. 40. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-martines2013_40-0)** Martines, H., Bengio, Y., & Yannakakis, G. N. (2013). Learning Deep Physiological Models of Affect. I EEE Computational Intelligence, 8(2), 20. 41. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011NN_41-0)** D. C. Ciresan, U. Meier, J. Masci, J. Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification. Neural Networks, 2012. 42. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ciresan2011CVPR_42-0)** D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012. 43. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-MIKO2010_43-0)** T. Mikolov *et al*., "Recurrent neural network based language model," *Interspeech*, 2010. 44. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LECUN86_44-0)** Y. LeCun *et al*., "Gradient-based learning applied to document recognition," *Proceedings of the IEEE*, 86 (11), pp. 2278–2324. 45. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SAIN2013_45-0)** T. Sainath *et al*., "Convolutional neural networks for LVCSR," *ICASSP*, 2013. 46. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HINTON2012_46-0)** G. E. Hinton *et al*., "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups," *IEEE Signal Processing Magazine*, pp. 82–97, November 2012. 47. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BENGIO2013_47-0)** Y. Bengio *et al*., "Advances in optimizing recurrent networks," *ICASSP', 2013.* 48. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-DAHL2013_48-0)** G. Dahl *et al*., "Improving DNNs for LVCSR using rectified linear units and dropout," *ICASSP', 2013.* 49. ^ [跳转至：**49.0**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RBMTRAIN_49-0) [**49.1**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RBMTRAIN_49-1) [**49.2**](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-RBMTRAIN_49-2) G. E. Hinton., "A Practical Guide to Training Restricted Boltzmann Machines," *Tech. Rep. UTML TR 2010-003, Dept. CS., Univ. of Toronto*, 2010. 50. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SCHOLARDBNS_50-0)** G.E. Hinton., "Deep belief networks," *Scholarpedia*, 4(5):5947. 51. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LAROCH2007_51-0)** H. Larochelle *et al*., "An empirical evaluation of deep architectures on problems with many factors of variation," *in Proc. 24th Int. Conf. Machine Learning*, pp. 473–480, 2007. 52. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-.22.22STANCNN.22_52-0)** [Convolutional Neural Network](http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/). [2014-09-16]. 53. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-.22.22CDBN.22_53-0)** Honglak Lee; Roger Grosse; Rajesh Ranganath; Andrew Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. ICML '09\. 2009: 609–616. 54. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-LDCTIMIT_54-0)** *TIMIT Acoustic-Phonetic Continuous Speech Corpus* Linguistic Data Consortium, Philadelphia. 55. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-YANNMNIST_55-0)** [http://yann.lecun.com/exdb/mnist/](http://yann.lecun.com/exdb/mnist/). 56. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-CIRESAN2012_56-0)** D. Ciresan, U. Meier, J. Schmidhuber., "Multi-column Deep Neural Networks for Image Classification," *Technical Report No. IDSIA-04-12', 2012.* 57. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-UTGOFF_57-0)** P. E. Utgoff and D. J. Stracuzzi., "Many-layered learning," *Neural Computation*, 14, pp. 2497–2529, 2002. 58. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-ELMAN_58-0)** J. Elman, *et al*., "Rethinking Innateness," 1996. 59. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SHRAGER_59-0)** J. Shrager, MH Johnson., "Dynamic plasticity influences the emergence of function in a simple cortical array," *Neural Networks*, 9 (7), pp. 1119–1129, 1996 60. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-QUARTZ_60-0)** SR Quartz and TJ Sejnowski., "The neural basis of cognitive development: A constructivist manifesto," *Behavioral and Brain Sciences*, 20 (4), pp. 537–556, 1997. 61. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BLAKESLEE_61-0)** S. Blakeslee., "In brain's early growth, timetable may be critical," *The New York Times, Science Section*, pp. B5–B6, 1995. 62. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-BUFILL_62-0)** {BUFILL} E. Bufill, J. Agusti, R. Blesa., "Human neoteny revisited: The case of synaptic plasticity," *American Journal of Human Biology*, 23 (6), pp. 729–739, 2011. 63. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-SHRAGER2_63-0)** J. Shrager and M. H. Johnson., "Timing in the development of cortical function: A computational approach," *In B. Julesz and I. Kovacs (Eds.), Maturational windows and adult cortical plasticity*, 1995. 64. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-HERN2013_64-0)** D. Hernandez., "[The Man Behind the Google Brain: Andrew Ng and the Quest for the New AI](http://www.wired.com/wiredenterprise/2013/05/neuro-artificial-intelligence/all/)," *Wired*, 10 May 2013. 65. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-METZ2013_65-0)** C. Metz., "[Facebook's 'Deep Learning' Guru Reveals the Future of AI](http://www.wired.com/wiredenterprise/2013/12/facebook-yann-lecun-qa/)," *Wired*, 12 December 2013. 66. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-66)** [谷歌收购DNNresearch，下一个帝国呼之欲出](http://www.csdn.net/article/2013-03-13/2814469-google-acquires-canadian-neural-networks-startup). CSDN. 2013-03-13 [2014-07-20]. 67. **[跳转^](https://zh.wikipedia.org/wiki/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0#cite_ref-MARCUS_67-0)** G. Marcus., "Is "Deep Learning" a Revolution in Artificial Intelligence?" *The New Yorker*, 25 November 2012. ## 外部链接[[编辑](https://zh.wikipedia.org/w/index.php?title=%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0&action=edit&section=18 "编辑小节：外部链接")] * 来自[蒙特利尔大学](https://zh.wikipedia.org/wiki/%E8%92%99%E7%89%B9%E5%88%A9%E5%B0%94%E5%A4%A7%E5%AD%A6 "蒙特利尔大学")的深度学习信息 [[1]](http://deeplearning.net/) * 杰弗里·辛顿的主页 [[2]](http://www.cs.toronto.edu/~hinton/) * 深度学习视频教程 [[3]](http://videolectures.net/jul09_hinton_deeplearn/) * 燕乐存的主页 [[4]](http://yann.lecun.com/) * 麻省理工大学生物和计算学习中心 (CBCL) [[5]](http://cbcl.mit.edu/) * 斯坦福大学提供的无监督特征学习和深度学习教程 [[6]](http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial) * 谷歌DistBelief框架 [[7]](http://research.google.com/archive/large_deep_networks_nips2012.html) * Theano深度学习工具包（使用[Python](https://zh.wikipedia.org/wiki/Python "Python")） [[8]](http://deeplearning.net/software/theano/) * Deeplearning4j开源深度学习工具包（使用[Java](https://zh.wikipedia.org/wiki/Java "Java")） [[9]](http://deeplearning4j.org/) * NIPS 2013会议（介绍深度学习相关资料） [[10]](https://nips.cc/Conferences/2013/)