↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

Datawhale干货

译者:刘洋,中科院大学,Datawhale成员

最近,人们对深度神经网络产生了极大的兴趣,因为它们在计算机视觉等领域取得了突破性的成果。

尽管如此,仍有一些人对此表示关切。一是很难去理解神经网络真正在做什么。如果一个人训练得很好,就可以获得高质量的结果,但是要理解它是如何做到的是很困难的。如果网络出现故障,很难解释出了什么问题。

虽然理解深层神经网络的一般行为很有挑战性,但事实证明,探索低维深层神经网络要容易得多——每层只有几个神经元的网络。事实上,我们可以通过可视化来理解这种网络的行为和训练。这一观点将使我们对神经网络的行为有更深的直觉,并观察到神经网络与一个称为拓扑学的数学领域之间的联系。

接下来有许多有趣的事情,包括能够对特定数据集进行分类的神经网络复杂性的基本下界。

一个简单的例子

让我们从一个非常简单的数据集开始,平面上的两条曲线上的所有点。神经网络将试着把点分为两类。

一个最直观的方式去观察神经网络的行为(或任何分类算法),就是看看它是如何对每个可能的数据点进行分类的。

我们将从最简单的神经网络开始,这个只有一个输入层和一个输出层。这样的网络只是试图用一条线将这两类数据分开。

这种网络不够有趣。现代神经网络通常在输入和输出之间有多层,称为“隐藏”层。但这个网络好歹有一层可研究。

一个简单的网络图,来自维基百科

类似地,我们可以通过查看神经网络对其域中不同点所做的操作,来观察该网络的行为。下面这个图用比直线更复杂的曲线来分离数据。

对于每一层,网络都会转换数据,创建一个新的表示形式。我们可以查看这些表示形式中的数据以及网络如何对它们进行分类。当我们得到最终的表示时,网络只会在数据中画一条线(可能在更高的维度中,是一个超平面)。

在前面的可视化中,我们查看了数据的“原始”表示形式。你可以把它看作是我们在看「输入层」。现在我们将在它被第一层转化之后再看一看。你可以认为这是我们在看「隐藏层」。

每一个维度都对应于该层神经元的激活。

隐藏层学习的一种表示,这样使得数据可以线性分离

层的连续可视化

在上一节中概述的方法中,我们通过查看与每一层对应的表示来学习理解网络。这给了我们一个离散的表示列表。

棘手的部分在于理解我们如何从一个到另一个。谢天谢地,神经网络层有很好的特性,使这变得非常容易。

在神经网络中有各种不同的层。我们将讨论 tanh 层作为一个具体例子。一个tanh层 ,包括:

  • 用“权”矩阵 W 作线性变换

  • 用向量 b 作平移

  • 用 tanh 逐点表示

我们可以将其视为一个连续的转换,如下所示:

其他标准层的情况大致相同,由仿射变换和单调激活函数的逐点应用组成。

我们可以应用这种技术来理解更复杂的网络。例如,下面的网络使用四个隐藏层对两个稍微纠缠的螺旋进行分类。随着时间的推移,我们可以看到,为了对数据进行分类,它从“原始”的表示方式转变为更高级别的表示方式。虽然螺旋最初是纠缠在一起的,但到最后它们是线性可分离的。

另一方面,下面的网络,也使用多层,但无法分类两个更纠缠的螺旋。

这里值得明确指出的是,这些任务只是有些挑战性,因为我们使用的是低维神经网络。如果我们使用更广泛的网络,这一切都会很容易。

(Andrej Karpathy基于ConvnetJS制作了一个很好的demo,让您可以通过这种可视化的训练交互式地探索网络!)

tanh层的拓扑

每一层都会拉伸和挤压空间,但它从不切割、断裂或折叠空间。直观上来看,它保持了拓扑性质。例如,如果一个集合在之前连续,那么它将在之后也如此(反之亦然)。

像这样不影响拓扑的变换称为同胚。形式上,它们是双向连续函数的双射。

定理:神经网络的一层有N个输入和N个输出,这层的映射是同胚,如果权重矩阵 W 是非奇异的。

证明:让我们一步一步地考虑这个问题

  1. 假设 W 存在非零行列式。那么它是一个具有线性逆的双射线性函数。线性函数是连续的。那么乘以 W 是同胚

  2. translations是同胚的

  3. tanh(和sigmoid和softplus,但不是ReLU)是具有连续逆的连续函数。它们就是双射,逐点的应用它们就是一个同胚

因此,如果 W 存在一个非零行列式,我们的层就是同胚。

如果我们任意地将这些层组合在一起,这个结果仍然成立。

拓扑与分类

我们考虑一个二维数据集,它包含两类:

A是红的,B是蓝的

说明:如果一个神经网络没有一个包含3个或更多隐藏单元的层,不管深度如何,它都不可能对这个数据集进行分类。

如前所述,使用sigmoid单元或softmax层进行分类相当于试图找到一个超平面(在本例中是一条线)来分隔 A 和 B。由于只有两个隐藏单元,网络在拓扑上无法以这种方式分离数据,并且在这个数据集上注定会失败。

在下面的可视化中,当一个网络沿着分类线训练时,我们观察到一个隐藏的表示。正如我们所看到的,它试图学习一种方法来做到这一点。

最后它被拉进了一个相当不好的局部极小值。虽然它实际上能够达到80%的分类精度。

这个例子只有一个隐藏层,但是无论如何它都会失败。

证明:要么每层是同胚,要么层的权矩阵有行列式0。如果是同胚的话,A仍然被B包围着,一条线不能把它们分开。但是假设它的行列式为0,那么数据集将在某个轴上折叠。因为我们处理的是与原始数据集同胚的东西,A 被 B 包围,A 在任何轴上塌陷意味着我们将有一些A 和 B 混合的点,它们变得无法区分。

如果我们添加第三个隐藏单元,问题就变得不重要了。

通过这种表示,我们可以用一个超平面来分隔数据集。

为了更好地了解发生了什么,让我们考虑一个更简单的一维数据集:

如果不使用由两个或更多隐藏单元组成的层,我们就无法对该数据集进行分类。但是如果我们用一个单位和两个单位,我们就学会了用一条漂亮的曲线来表示数据,这样我们就可以用一条线来分隔类:

流形假说

这是否与真实世界的数据集相关,比如图像数据?如果你真的认真对待流形假设,我认为这是值得考虑的。

流形假设是自然数据在其嵌入空间中形成低维流形。有理论和实验作为理由相信这是真的。如果你相信这一点,那么分类算法的任务就是从根本上分离一组纠缠在一起的流形。

在前面的示例中,一个类完全包围了另一个类。然而,狗的图像流形似乎并不很可能被猫图像流形完全包围。但是还有其他更合理的拓扑情况,仍然可能会引发问题,我们将在下一节中看到。

连接和同伦

一个有趣的数据集是两个链接的圆环面(tori),A 和 B。

这与我们之前考虑的数据集非常相似,如果不使用n+1维度,这个数据集就不能被分离,这里即为第4维度。

连接是在结理论中被研究的,这是拓扑学的一个领域。有时,当我们看到一个连接时,它是否是一个断开的链接(一堆东西纠缠在一起,但可以通过连续变形来分开)并不是很明显。

如果一个只有3个单位的层的神经网络可以对它进行分类,那么它就是一个断开的连接。(问题:从理论上讲,一个只有3个单元的网络是否可以对所有未链接进行分类?)

从结的角度来看,我们对神经网络产生的表示的连续可视化不仅仅是一个很好的动画,它是一个解开链接的过程。在拓扑学中,我们称之为原始连接和分离之间的ambient isotopy。

一个简单的方法

对于神经网络来说,最简单的方法就是尝试将流形拉开,并尽可能地拉伸那些缠结在一起的部分。虽然这不会接近真正的解决方案,但它可以实现相对较高的分类精度,并且是一个较为诱人的局部最小值。

它会在它试图拉伸的区域上呈现出非常高的导数,并且在不连续点附近较尖锐。我们知道这些事情发生了。收缩惩罚,惩罚数据点的层的导数,是应对这一点的自然方法。

由于这些局部极小值从解决拓扑问题的角度来说是完全无用的,拓扑问题可能为探索解决这些问题提供了一个很好的动力。

另一方面,如果我们只关心取得好的分类结果,我们似乎不在乎。如果一小部分数据流形被另一个流形所缠绕,那对我们来说是个问题吗?尽管存在这个问题,我们似乎应该能够得到任意好的分类结果。

(我的直觉是,像这样试图欺骗问题是个坏主意:很难想象这不会是一个死胡同。特别是,在局部极小值是一个大问题的优化问题中,选择一个不能真正解决问题的体系结构似乎会导致糟糕的性能。)

操纵流形的更好层次?

我越是想到标准的神经网络层——也就是说,用仿射变换和逐点激活函数——我就越感到不抱幻想。很难想象它们真的非常适合操纵流形。

也许有一种完全不同的层次,我们可以在构图中使用更传统的层次是有意义的?

我觉得很自然的一件事是学习一个向量场,它的方向是我们想要移动流形的方向:

然后在此基础上变形空间:

我们可以在固定点学习向量场(只需从训练集中选取一些固定点作为锚),并以某种方式进行插值。上面的向量场的形式如下:

其中 和 是向量和 和 是n维高斯函数。这是受到径向基函数的启发。

K-近邻层

我也开始认为,线性可分性可能对神经网络是一个巨大的,可能是很不合理的的要求。在某些方面,使用k近邻(k-NN)是一件很自然的事情。然而,k-NN它的成功在很大程度上依赖于它对数据进行分类的表示,因此在k-NN能够正常工作之前需要一个良好的表示。

作为第一个实验,我训练了一些MNIST网络(两层CNN,无dropout),达到∼1%,测试错误。然后,我放弃了最后的softmax层,并使用了k-NN算法。我能够实现测试误差降低0.1-0.2%。

不过,这感觉不太合适。网络仍然在尝试进行线性分类,但是由于我们在测试时使用k-NN,它能够从它犯的错误中恢复一点。

由于(1/distance)的加权,k-NN相对于它所作用的表示是可微的。因此,我们可以直接训练网络进行k-NN分类。这可以看作是一种“最近邻”层,作为softmax的替代品。

我们不想为每个小批量反馈整个训练集,因为这在计算上非常昂贵。我认为一个很好的方法是根据小批量中其他元素的类别对小批量中的每个元素进行分类,给每个元素赋予(1/(与分类目标的距离))的权重,遗憾的是,即使使用复杂的体系结构,使用k-NN也只能得到5-4%的测试错误,而使用更简单的体系结构会得到更糟糕的结果。不过,我在使用超参数方面投入的精力很少。

不过,我还是很喜欢这种方法,因为我们“要求”网络做的似乎更合理。我们希望同一流形的点比其他流形的点更接近,而不是流形被超平面分开。这应该对应于膨胀不同类别的流形之间的空间和收缩单个流形。这感觉很简单。

总结

数据的拓扑特性可能使得使用低维网络来线性划分类是不可能的(在不考虑深度的前提下)。即使在技术上可行的情况下,例如螺旋,这样做也是非常具有挑战性的。

为了用神经网络对数据进行精确分类,有时需要宽层。此外,传统的神经网络层似乎不太擅长表示流形的重要操作;即使我们用手巧妙地设置权重,也很难紧凑地表示我们想要的变换。新设计的层,特别是由机器学习的多方面观点推动的,可能是有用的。

原文链接:http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/

整理不易,三连

用可视化理解神经网络!相关推荐

  1. SIGIR阿里论文 | 可视化理解深度神经网络CTR预估模型

    小叽导读:尽管业界对于图像处理和自然语言处理领域,在算法可解释性方向上已经取得了一些进展,但对于电商与广告领域,目前还是空白.另一方面,深度学习技术已经开始被大规模应用到广告业务中.广告是很多互联网现 ...

  2. 12、理解与可视化卷积神经网络

    目录 12.1 可视化卷积神经网络学习到的东西 12.1.1可视化激活和第一层权重 12.1.2 找到对神经元有最大激活的图像 12.1.3 用 t-SNE 嵌入代码 12.1.4 遮挡部分图像 12 ...

  3. 卷积神经网络可视化理解

    文章目录 设计来源 可视化第一层卷积核 可视化第一层featuremap 底层特征可视化 隐层featuremap可视化 遮挡.扰动实验 Gradient Ascent.feature inversi ...

  4. 使用Python可视化卷积神经网络方法汇总

    介绍 深入学习中最具争议的话题之一是如何解释和理解一个经过训练的模型--特别是在医疗等高风险行业的背景下."黑匣子"一词经常与深度学习算法联系在一起,如果我们不能解释模型是如何工作 ...

  5. P6:可视化卷积神经网络

    子豪兄YYDS https://www.bilibili.com/video/BV1K7411W7So?p=6 一.什么是卷积神经网络的可视化 卷积神经网络可以看作一个黑箱子,打破黑箱子就需要处理中间 ...

  6. 二、ZFNet可视化卷积神经网络——可解释性机器学习(DataWhale组队学习)

    目录 引言 ZFNet的网络结构 可视化反卷积 反池化 反激活 反卷积 训练细节 特征可视化 特征演化 特征不变性 局部遮挡测试 敏感性分析 相关性分析 消融实验 宽度影响 深度影响 迁移学习能力 有 ...

  7. 【AI初识境】从头理解神经网络-内行与外行的分水岭

    文章首发于微信公众号<有三AI> [AI初识境]从头理解神经网络-内行与外行的分水岭 这是专栏<AI初识境>的第2篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方 ...

  8. 人工神经网络可视化,图神经网络可视化

    三维可视化前景如何?好找工作吗? . 你可以先去[绘学霸]网站找"3d建模"板块的[免费]视频教程-[点击进入]完整入门到精通视频教程列表:;tagid=307&zdhhr ...

  9. keras_猫狗分类案例(三)_卷机神经网络的可视化(可视化卷积神经网络的中间输出)

    keras_猫狗分类案例(三)_卷积神经网络的可视化 参考: https://blog.csdn.net/Einstellung/article/details/82832872 卷积神经网络的可视化 ...

最新文章

  1. ​“手把手撕LeetCode题目,扒各种算法套路的裤子”
  2. struts2 标签问题----escape=false 这个属性
  3. Android系统全貌 (转)
  4. keras faster物体检测_URPC 2019水下目标检测竞赛冠军方案:多图像融合增强
  5. java如何解决高并发症,一整套Java线上故障排查技巧,爱了!
  6. Ubuntu Server 13.04安装图形界面
  7. python——shape 与reshape
  8. Bootstrap使用后笔记
  9. 解决png24格式图片在ie6中透明问题,
  10. Python不能做游戏?Pygame中的对象你了解吗?
  11. nginx之lua_shared_dict命令
  12. Mac 移动端http、https抓包之Charles
  13. 如何将Win7、Win10笔记本,台式机系统C盘软件搬家? 只需3个步骤!!!
  14. 声纹识别demo_科学网—声纹识别、说话人识别软件,SPEAKER v0.1 - 石自强的博文...
  15. tablet2+android,z2tablet不开机了 怎么处理,索尼Sony Xperia 安卓平板论坛
  16. Docker容器中添加字体
  17. 魔兽争霸3冰封王座十大经典战役全集
  18. 蛋白结构分析实操教程
  19. 基于u3d_FPS_Demo
  20. 【数据可视化应用】绘制QQ图(附Python和R语言代码)

热门文章

  1. IBM董事长兼CEO致投资者的一封信
  2. 深度学习技巧应用20-六大学习率调优方案的应用,并根据实际情况选出最优策略
  3. lenovo thinkpad t460s tlp-stat 修复acpi_call
  4. 华为云盘古大模型登Nature:秒级完成气象预测,速度快一万多倍
  5. 黄仁勋台大毕典演说全文
  6. 李蕾声优课全集听课笔记(持续更新ing...)
  7. C#——WinForm窗体自适应分辨率
  8. VS2017修改默认包含目录、库目录
  9. 程序员讨论《黑客帝国》(二)平衡和进化
  10. HTTP常见面试问题