当前位置： > 网络编程 > JSP教程 > 文章内容

关于DNN解决啥问题的信息

http://www.itjxue.com 2023-01-07 04:50 来源:未知 点击次数:

CNN、RNN、DNN的一般解释

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？

转自知乎科言君 ?的回答

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。（扯一个不相关的：由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的，脑补一下科学家们扯着密密麻麻的导线的样子…）

但是，Rosenblatt的单层感知机有一个严重得不能再严重的问题，即它对稍复杂一些的函数都无能为力（比如最为典型的“异或”操作）。连异或都不能拟合，你还能指望这货有什么实际用途么o(╯□╰)o

随着数学的发展，这个缺点直到上世纪八十年代才被Rumelhart、Williams、Hinton、LeCun等人（反正就是一票大牛）发明的多层感知机（multilayerperceptron）克服。多层感知机，顾名思义，就是有多个隐含层的感知机（废话……）。好好，我们看一下多层感知机的结构：

图1 上下层神经元全部相连的神经网络——多层感知机

多层感知机可以摆脱早期离散传输函数的束缚，使用sigmoid或tanh等连续函数模拟神经元对激励的响应，在训练算法上则使用Werbos发明的反向传播BP算法。对，这货就是我们现在所说的神经网络 NN ——神经网络听起来不知道比感知机高端到哪里去了！这再次告诉我们起一个好听的名字对于研（zhuang）究（bi）很重要！

多层感知机解决了之前无法模拟异或逻辑的缺陷，同时更多的层数也让网络更能够刻画现实世界中的复杂情形。相信年轻如Hinton当时一定是春风得意。

多层感知机给我们带来的启示是，神经网络的层数直接决定了它对现实的刻画能力 ——利用每层更少的神经元拟合更加复杂的函数[1]。

（Bengio如是说：functions that can be compactly

represented by a depth k architecture might require an exponential number of

computational elements to be represented by a depth k ? 1 architecture.）

即便大牛们早就预料到神经网络需要变得更深，但是有一个梦魇总是萦绕左右。随着神经网络层数的加深，优化函数越来越容易陷入局部最优解，并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。同时，另一个不可忽略的问题是随着网络层数增加， “梯度消失”现象更加严重。具体来说，我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的0.25。层数一多，梯度指数衰减后低层基本上接受不到有效的训练信号。

2006年，Hinton利用预训练方法缓解了局部最优解问题，将隐含层推动到了7层[2]，神经网络真正意义上有了“深度”，由此揭开了深度学习的热潮。这里的“深度”并没有固定的定义——在语音识别中4层网络就能够被认为是“较深的”，而在图像识别中20层以上的网络屡见不鲜。为了克服梯度消失，ReLU、maxout等传输函数代替了sigmoid，形成了如今DNN的基本形式。单从结构上来说，全连接的 DNN 和图 1 的多层感知机是没有任何区别的。

值得一提的是，今年出现的高速公路网络（highway network）和深度残差学习（deep residual learning）进一步避免了梯度消失，网络层数达到了前所未有的一百多层（深度残差学习：152层）[3,4]！具体结构题主可自行搜索了解。如果你之前在怀疑是不是有很多方法打上了“深度学习”的噱头，这个结果真是深得让人心服口服。

图2 缩减版的深度残差学习网络，仅有34 层，终极版有152 层，自行感受一下

如图1所示，我们看到全连接 DNN 的结构里下层神经元和所有上层神经元都能够形成连接，带来的潜在问题是参数数量的膨胀。假设输入的是一幅像素为1K*1K的图像，隐含层有1M个节点，光这一层就有10^12个权重需要训练，这不仅容易过拟合，而且极容易陷入局部最优。另外，图像中有固有的局部模式（比如轮廓、边界，人的眼睛、鼻子、嘴等）可以利用，显然应该将图像处理中的概念和神经网络技术相结合。此时我们可以祭出题主所说的卷积神经网络CNN。对于CNN来说，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的，图像通过卷积操作后仍然保留原先的位置关系。两层之间的卷积传输的示意图如下：

图3 卷积神经网络隐含层（摘自Theano 教程）

通过一个例子简单说明卷积神经网络的结构。假设图3中m-1=1是输入层，我们需要识别一幅彩色图像，这幅图像具有四个通道ARGB（透明度和红绿蓝，对应了四幅相同大小的图像），假设卷积核大小为100*100，共使用100个卷积核w1到w100（从直觉来看，每个卷积核应该学习到不同的结构特征）。用w1在ARGB图像上进行卷积操作，可以得到隐含层的第一幅图像；这幅隐含层图像左上角第一个像素是四幅输入图像左上角100*100区域内像素的加权求和，以此类推。同理，算上其他卷积核，隐含层对应100幅“图像”。每幅图像对是对原始图像中不同特征的响应。按照这样的结构继续传递下去。CNN中还有max-pooling等操作进一步提高鲁棒性。

图4 一个典型的卷积神经网络结构，注意到最后一层实际上是一个全连接层（摘自Theano 教程）

在这个例子里，我们注意到输入层到隐含层的参数瞬间降低到了 100*100*100=10^6 个！这使得我们能够用已有的训练数据得到良好的模型。题主所说的适用于图像识别，正是由于 CNN 模型限制参数了个数并挖掘了局部结构的这个特点。顺着同样的思路，利用语音语谱结构中的局部信息，CNN照样能应用在语音识别中。

全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了题主所说的另一种神经网络结构——循环神经网络RNN。

在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward Neural Networks)。而在 RNN 中，神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出！表示成图就是这样的：

图5 RNN 网络结构

我们可以看到在隐含层节点之间增加了互连。为了分析方便，我们常将RNN在时间上进行展开，得到如图6所示的结构：

图6 RNN 在时间上进行展开

Cool，（ t+1 ）时刻网络的最终结果O(t+1) 是该时刻输入和所有历史共同作用的结果！这就达到了对时间序列建模的目的。

不知题主是否发现，RNN可以看成一个在时间上传递的神经网络，它的深度是时间的长度！正如我们上面所说， “梯度消失”现象又要出现了，只不过这次发生在时间轴上。对于t时刻来说，它产生的梯度在时间轴上向历史传播几层之后就消失了，根本就无法影响太遥远的过去。因此，之前说“所有历史”共同作用只是理想的情况，在实际中，这种影响也就只能维持若干个时间戳。

为了解决时间上的梯度消失，机器学习领域发展出了长短时记忆单元 LSTM ，通过门的开关实现时间上记忆功能，并防止梯度消失，一个LSTM单元长这个样子：

图7 LSTM 的模样

除了题主疑惑的三种网络，和我之前提到的深度残差学习、LSTM外，深度学习还有许多其他的结构。举个例子，RNN既然能继承历史信息，是不是也能吸收点未来的信息呢？因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向 RNN 、双向 LSTM ，同时利用历史和未来的信息。

图8 双向RNN

事实上，不论是那种网络，他们在实际应用中常常都混合着使用，比如 CNN 和RNN 在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。尽管看起来千变万化，但研究者们的出发点肯定都是为了解决特定的问题。题主如果想进行这方面的研究，不妨仔细分析一下这些结构各自的特点以及它们达成目标的手段。入门的话可以参考：

Ng写的Ufldl： UFLDL教程 - Ufldl

也可以看Theano内自带的教程，例子非常具体： Deep Learning Tutorials

欢迎大家继续推荐补充。

当然啦，如果题主只是想凑个热闹时髦一把，或者大概了解一下方便以后把妹使，这样看看也就罢了吧。

参考文献：

[1]

Bengio Y. Learning Deep

Architectures for AI[J]. Foundations Trends? in Machine Learning, 2009,

2(1):1-127.

[2]

Hinton G E, Salakhutdinov R R.

Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006,

313(5786):504-507.

[3]

He K, Zhang X, Ren S, Sun J. Deep

Residual Learning for Image Recognition. arXiv:1512.03385, 2015.

[4]

Srivastava R K, Greff K,

Schmidhuber J. Highway networks. arXiv:1505.00387, 2015.

关于DNN解决啥问题的信息

dnn安装的时候localhost无法打开谁能帮我解决一下！（我的是win7 的系统）

1.如果你用VS建站的话，直接在VS里面运行DNN安装包，然后做相关的修改，最后调试

2.如果你用IIS建站，那就需要你把路径权限都配置好，

简单来说：1.将DNN安装包解压到你网站的文件夹，比如（dnn.com这个文件夹）

2.因为你这个是本地所以只需要配置everyone或者administrator权限，不需要配置netserver 权限（如果需要连网访问站点就需要给文件夹配置这些权限）

3.在SQL里面新建一个dnn.com为名字的数据库

4.打开IIS，新建一个dnn.com为名字的网站，配置相关属性，比如：指定网站文件夹位置（dnn.com这个文件夹），其他的基本都可以默认，不管

5.然后IIS浏览网站，如果没有其他报错的话，直接进入DNN安装页面，中间有一步是配置SQL信息的，只需要按照说明把你本地数据库服务器名称、网站数据库名称用户名密码填写，然后系统会自动将数据库连接（这一步好比VS建站里面web.config里面填写连接字符串）

6.基本这样操作以后本地用localhost/dnn.com就能访问了。

对于初次安装DNN的人来说可能问题比较多，以上只是大致流程参考，可能具体会有具体的问题，那就需要根据具体报错来解决了。

深度神经网络（DNN）有哪些的弱点或明显的问题？

简单来说，卷积神经网络和循环神经网络都是深度学习的重要框架。区别在哪里呢？区别就在循环层上。卷积神经网络没有时序性的概念，输入直接和输出挂钩；循环神经网络具有时序性，当前决策跟前一次决策有关。举个例子，进行手写数字识别的时候，我们并不在意前一个决策结果是什么，需要用卷积神经网络；而自然语言生成时，上一个词很大程度影响了下一个词，需要用循环神经网络。

ANN、SNN、DNN的理解

wakaka，我又来了。

学习背景：老板让我搞图像领域，内心是很无力的，毕竟自己正在做omics的东西都没有什么进展呢，又让我搞新的，但是一切都是没得办法。所以又来学CNN、DNN了。

在上面我们介绍了DNN相对于SNN来说，隐藏层数更多，而且拟合实际问题的能力更强，但是随着而来的越来越容易陷入局部最优和梯度消失问题，导致多层隐藏层成了噩梦，甚至多层效果还不如简单的SNN。于是Hinton,（2006）利用与训练方法缓解了局部最优解问题才将隐藏层推到了7层，同时为了克服梯度消失的问题，将sigmoid函数尝试用ReLu、maxout等输出函数替换，形成了大家比较熟知的DNN结构。

参考：

DNN与ANN的区别

DBN/DNN/ANN/SNN

CNN（卷积神经网络）、RNN（循环神经网络）、DNN（深度神经网络）的内部网络结构有什么区别？

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：leftjoin左表一条右边多条,left join左表不全

下一篇：显卡什么情况下会烧坏主板,显卡什么情况下会烧坏主板电源

关于DNN解决啥问题的信息

CNN、RNN、DNN的一般解释

dnn安装的时候localhost无法打开谁能帮我解决一下！（我的是win7 的系统）

深度神经网络（DNN）有哪些的弱点或明显的问题？

ANN、SNN、DNN的理解

(责任编辑：IT教学网)

相关JSP教程文章

阅读排行

专题教程

推荐JSP教程文章

最新更新JSP教程

关于DNN解决啥问题的信息

CNN、RNN、DNN的一般解释

dnn安装的时候localhost无法打开 谁能帮我解决一下！（我的是win7 的系统）

深度神经网络（DNN）有哪些的弱点或明显的问题？

ANN、SNN、DNN的理解

(责任编辑：IT教学网)

相关JSP教程文章

阅读排行

专题教程

推荐JSP教程文章

最新更新JSP教程

dnn安装的时候localhost无法打开谁能帮我解决一下！（我的是win7 的系统）