神经网络为什么具有容错性?(循环神经网络都具有链式重复模块)


这是一个非常好的问题,也说明一个一个反直觉的现象。之所以反直觉,也跟这个问题的本质有关。

神经网络这个问题具有一定的一般性,实际上我们可以把问题和现象的范畴放大,扩展到“动态系统”(Dynamical Systems), 也就是 状态 / 输出 随 时间 / 输入 变化的系统,按照系统内在机制,动态系统可以具体划归为“线性系统”和“非线性系统”,按照系统能用微分方程还是差分方程表示,可以划分为“连续动态系统”和“离散动态系统”。

显然地,神经网络属于动态系统的一个很小的子范畴——离散非线性动态系统[1]. 离散是显然的,又由于神经网络中一般包括大量的非线性过程,比如 ReLu 这样的非线性激活函数,DropOut,Gate 等等.

线性系统按照输入而非时间可以表示为

, 也就是可以用线性方程表示. 对于这样一个 系统,如果在输入上叠加一个随机噪声(高斯分布、均匀分布 等)

, 则输出为

, 对应的输出噪声为

. 在这样的系统中,噪声是不可能在输出中消失的,也就是说,线性系统必然不能容错. 而线性系统很常见也很容易直观理解,因此非常符合“直觉”.

对于非线性系统,情况会有显著的不同[2][3]. 在细说之前,我们先举一个直观的例子:

对于非线性系统

, 输入 x 符合伯努利分布(p=0.5)上叠加一个

的噪声,那么这个噪声输入在接近 50%情况下对输出没有影响,也就是表现出容错性.

在这个容错性的例子中我们看到,数据

的跟随机噪声

独立且非同分布,而非线性系统放大了二者的差异。 这种数据跟噪声的分布不同的情况在神经网络的输入中几乎是必然满足的. 而且神经网络通常包含大量这样的非线性过程,或者说“非线性滤波器”(Nonlinear Filters)[4].

在神经网络对图像信号处理中,其每个非线性滤波器都可以等价转化成傅立叶平面滤波器(Fourier Plane Nonlinear Filters)的组合形式. 这样滤波器的阶数

就代表了滤波器的非线性程度. 随着非线性程度的增加,这个滤波器输出的信噪比

也会增加[5].

在问题设置的比较好的情况下,神经网络在训练过程中,其输出跟数据标签

的相关性会持续增加,跟数据 X 中的随机噪声的相关性在不出现明显过拟合的情况下不会发生变化。这个过程也决定了,神经网络中的非线性滤波器在训练过程中会不断优化其参数,提高对噪声的鲁棒性.

实际上,在神经网络训练中,在 X 上叠加适当水平的噪声,对训练结果的泛化性(Generation)有好处,这种噪声叠加等价于吉洪诺夫正则化(Tikhonov regularization)[6], 可以让神经网络的输出关于输入 X 更加平滑[7].

黑点:数据点;黑实线:真实函数;虚线:没有噪声时候的 NN 拟合结果;灰实线:添加噪声时候的 NN 拟合结果

这在某种程度上等价于做 Data Augmentation.

瞎扯 · 如何正确地吐槽(盘点那些吐槽小技巧)
上一篇
没有了
下一篇
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

相关推荐

  • 苹果手机各个功能介绍,iphone必须关闭的十个功能

    1、关闭蓝牙。现在已经很少有人用蓝牙传输文件了,而且iPhone与安卓的蓝牙并不兼容,所以,可以在设置中,关闭蓝牙功能。2、关闭通知功能。关于APP推送,无非也就是一些更新提醒,关了也不会有什么影响,还能多省点电。3、关闭自动调节亮度功能。一般来说,可以将屏幕亮度在15%-30%之间,在强光环境中,在进行手动调整就可以了。4、禁止后台刷新。在设置—通用中,关闭后台自动刷新功能,也可以对省电起到一点...

  • 高德打车怎么设置途经地,高德如何添加途经路线

    1、点击高德地图APP界面底部的“导航”按钮,进入导航模式。2、点击右下角的“路线”,进入路线设定页面,根据要求输入起点、终点进行路线规划。3、点击“添加途经点”,弹出添加途经点页面,点击右上角,可以添加或者删除途经点,乘客可以手动输入要添加的途经点。4、当添加完途经点时,点击“确定”按钮,即可添加途经路线。此时地图会显示出这条路线上所有的途经点,以及当前途经点的地点信息。怎么设计高德地图设置要经...

  • 高中必修二物理知识点总结,高一物理必修2重点知识点归纳

    您好,1.运动学-位移、速度、加速度的概念及计算方法-相关运动的分析方法,如相对运动和抛体运动-牛顿运动定律及其应用2.力学-力的概念及种类,如重力、弹力、摩擦力等-牛顿第一、二、三定律及其应用-力的合成与分解-能量、功、动能定理、功率的概念及计算方法-动量、冲量定理及其应用3.热学-温度、热量、热能的概念及计量单位-热传递的方式及其特点,如传导、对流、辐射-热力学第一、二定律及其应用,如热机效率...

  • 神经网络为什么具有容错性?(循环神经网络都具有链式重复模块)

    这是一个非常好的问题,也说明一个一个反直觉的现象。之所以反直觉,也跟这个问题的本质有关。神经网络这个问题具有一定的一般性,实际上我们可以把问题和现象的范畴放大,扩展到“动态系统”(Dynamical...

  • 瞎扯 · 如何正确地吐槽(盘点那些吐槽小技巧)

    Q:给古代服徭役的人只提供白粥榨菜,他们会不会反抗?@纯爱牛战士 :你搁这养死士呢?Q:在泳池遇到过什么尴尬的事吗?@匿名用户:不会游泳 一米八 儿童池。Q:为什么有人讨厌别人说话时夹杂英文?@不言调...