ai星际探索 爪子

Neural networks trained on large amounts of data have led to incredible technological leaps affecting nearly every part of our lives.

经过大量数据训练的神经网络导致了令人难以置信的技术飞跃,几乎影响了我们生活的每个部分。

These advances have come at a cost — namely the interpretability and explainability of data models. Corresponding with the complexity of the operation, the criteria for “choosing” a given output for an input becomes rather mysterious, leading some to refer to neural networks as a “black box” method.

这些进展是有代价的-即解释性和数据模型的explainability。 与操作的复杂性相对应,为输入“选择”给定输出的标准变得相当神秘,导致一些人将神经网络称为“黑匣子”方法。

Deep neural networks work so marvelously because they learn efficient representations of data, and they are intentionally constrained to capture complex, non-linear patterns in the data. The trade off of recognizing non-linear patterns is comparable to losing the sense of sight, only to gain a more subtle perception of sound. In the process of learning these representations, the features in each layer of a neural network change during training, and in different ways with different network architectures/datasets. This leads us to several research questions relevant to deep learning in general:

深度神经网络之所以如此出色,是因为它们学习了有效的数据表示形式,并且有意地被限制为捕获数据中的复杂非线性模式。 在识别非线性模式方面的权衡相当于失去了视觉感,只是获得了对声音的更微妙的感知 。 在学习这些表示的过程中,神经网络各层的特征在训练过程中会发生变化,并且会随着不同的网络体系结构/数据集以不同的方式发生变化。 这使我们提出了与深度学习相关的几个研究问题:

  1. How can we understand the model performance in relationship to these changes?我们如何理解与这些变化相关的模型性能?
  2. How do we identify the optimal number of units for each layer?我们如何确定每一层的最佳单位数?
  3. How can we describe quantitatively the distribution of changes across a network?我们如何定量描述网络中变化的分布?

We attempted to answer these questions in our recent paper, “Feature Space Saturation during Training”, now available on arXiv. By applying Principal Component Analysis (PCA) to the learned representations in each layer during training, we can identify the layer size or number of dimensions needed to explain this variance, thus approximating the intrinsic dimensionality. With an approach similar to the Information Bottleneck method [1], SVCCA [2] and the Lottery Ticket Hypothesis [3], we attempt to identify the distribution of dynamics across the network over training.

我们尝试在arXiv上发表的最新论文“培训期间的特征空间饱和”中回答这些问题。 通过将主成分分析(PCA)应用于训练过程中每一层的学习表示,我们可以识别解释此差异所需的层大小或维数,从而近似固有维数。 通过类似于信息瓶颈方法[1],SVCCA [2]和彩票假说[3]的方法,我们尝试通过训练来确定网络上的动态分布。

层本征空间的固有维数 (Intrinsic Dimensionality of Layer Eigenspaces)

To answer the question many dimensions are needed to explain the layer feature variance, we look at autoencoders.

为了回答这个问题,需要许多维度来解释图层特征差异,我们来看一下自动编码器。

Pie in, pie out. Autoencoders learn to compress data into feature vectors, and are useful for understanding the dynamics of the learned representations.
派进,派出。 自动编码器学习将数据压缩到特征向量中,对于理解学习的表示形式的动态很有用。

Autoencoders learn a compact representation of the dataset. They are very useful for identifying the limits of neural network compression, as well as the dynamics of features/representations throughout model training.

自动编码器学习数据集的紧凑表示。 它们对于确定神经网络压缩的极限以及整个模型训练过程中特征/表示的动态非常有用。

The outputs of PCA are the various directions (eigenvectors) and eigenvalues corresponding to the correlation of the data. In this case, our input was the feature covariance matrix calculated on the layer representations throughout training. This matrix captures some dynamics relevant to the extent of feature independence and correlation. In other words, the extent to which some neurons respond in line with, or independent from other neurons in the layer. We call this projection the layer eigenspace.

PCA的输出是对应于数据相关性的各个方向(特征向量)和特征值。 在这种情况下,我们的输入是在整个训练过程中根据图层表示形式计算的特征协方差矩阵。 该矩阵捕获了一些与特征独立性和相关性有关的动力学。 换句话说, 某些神经元与该层中其他神经元一致或独立的React程度 。 我们称这种投影为层本征空间。

Thresholding explained variance projections for the final fully connected layer only.
阈值仅解释了最终完全连接层的方差预测。

By selecting various thresholds for projecting the features (calculated by the cumulative sum of the eigenvalues), we were able to compare the reconstruction of images, in this case, a slice of pie. We call this threshold delta (δ), and it ranges from 0 to 100% of the directions needed to explain the variance. Thus, with a delta of 100%, we expect a near perfect reconstruction of the input — none are excluded.

通过选择各种阈值来投影特征(通过特征值的累加和计算),我们能够比较图像的重建,在这种情况下是一片馅饼。 我们称此阈值增量(δ ) ,范围是解释方差所需方向的0到100%。 因此,在100%的变化量下,我们期望输入的重构接近完美-没有一个被排除。

In our experiment, beyond a threshold of 99%, a projection of the features onto the eigenvectors leaves an image which is only barely recognizable. Most of the structure is lost, indicating that the vast majority of feature subspace dimensions are needed for the model to perform. This approach allows us to compare feature spaces learned by a network and to understand the extent to which the network has learned optimal compressions of the data.

在我们的实验中,超过99%的阈值,特征在本征向量上的投影留下了几乎无法识别的图像。 大多数结构都丢失了,这表明模型需要绝大多数特征子空间尺寸。 这种方法使我们可以比较网络学习到的特征空间,并了解网络学习到数据最佳压缩的程度。

饱和度提供了进入模型训练的窗口 (Saturation Provides a Window into Model Training)

We call the proportion of eigenvectors needed to explain the variance of the layer features saturation. Each layer has a saturation index between 0 and 1 indicating the intrinsic dimensionality of the layer feature subspace. This allows us to compare saturation across layers within a deep neural network. Additionally, we compare the probe classifier approach by Alain and Bengio [4], which shows the relative ability of each layer’s output to perform the classification task.

我们称呼本征向量的比例来解释层特征饱和度的方差。 每个图层的饱和度索引介于0和1之间,表示图层特征子空间的固有维数。 这使我们能够比较深度神经网络中各层的饱和度。 另外,我们比较了Alain和Bengio [4]的探针分类器方法,该方法显示了每层输出执行分类任务的相对能力。

We observe that saturation reflects how the inference process is distributed. When the saturation is high, the layer’s features are changing in complex and non-linear ways, corresponding with a relatively high gain in probe classifier accuracy. Approaching the final layer, the marginal increase in layer accuracy decreases, as does the saturation in most cases. Thus, saturation is an indicator for optimal network depth, since redundant layers will have saturation converge towards zero in a tail pattern, described in the paper.

我们观察到饱和度反映了推理过程的分布方式。 当饱和度很高时,该层的特征将以复杂且非线性的方式变化,这对应于探针分类器精度的相对较高的增益。 接近最终层时,层精度的边际增加会降低,大多数情况下饱和度也会降低。 因此,饱和度是最佳网络深度的指标,因为冗余层的饱和度会在尾部模式中朝零收敛,如本文所述。

输入分辨率 (Input Resolution)

Input resolution is one of the 3 aspects to balance in a neural network architecture (including depth and width) [5].

输入分辨率是神经网络体系结构(包括深度和宽度)中要平衡的三个方面之一[5]。

Saturation “tail” associated with diminishing returns of network depth. Probe performance increases only in the highly saturated parts. Saturation is orders of magnitudes faster to compute than probe accuracy.
饱和度“尾部”与网络深度收益递减有关。 探头性能仅在高度饱和的部分中增加。 计算饱和度要比探针精度快几个数量级。
Saturation “hump” associated with importance of layer. Classification of high resolution data requires more complex, non-linear separation of feature space, thus higher saturation.
与图层重要性相关的饱和度“峰”。 高分辨率数据的分类需要特征空间更复杂的非线性分离,因此饱和度更高。

Read more about it in the arXiv article or download the code used to generate the plots (delve Python library) on GitHub.

在arXiv文章中阅读有关它的更多信息,或在GitHub上下载用于生成绘图的代码(钻研Python库)。

https://arxiv.org/pdf/2006.08679.pdfhttps://arxiv.org/pdf/2006.08679.pdf

Thanks to co-authors Mats L. Richter, Wolf Byttner, Anders Arpteg, and Mikael Huss. Many thanks for valuable feedback from Carl Thomé, Agrin Hilmkil, Rasmus Diederichsen, Richard Sieg, Alexis Drakopoulos, Saran N Subramaniyan, Piotr Migdał and Ulf Krumnack during writing of this article.

感谢合著者Mats L. Richter ,Wolf Byttner, Anders Arpteg和Mikael Huss 。 非常感谢卡尔· 汤姆(CarlThomé) , 阿格琳·希尔姆基 ( Agrin Hilmkil) ,拉斯穆斯· 迪德里希森 (Rasmus Diederichsen), 理查德·西格 ( Richard Sieg) , 亚历克西斯·德拉科普洛斯 ( Alexis Drakopoulos) , 萨兰·N · 苏布拉玛尼 扬 , 皮奥特·米格达(PiotrMigdał)和乌尔夫·克鲁姆纳克 ( Ulf Krumnack)在本文撰写期间的宝贵反馈。

If you use this work in your research, please cite it as:

如果您在研究中使用这项工作,请引用为:

 @misc {shenk2020feature,  title={Feature Space Saturation during Training},  author={Justin Shenk and Mats L. Richter and Wolf Byttner and Anders Arpteg and Mikael Huss},  year={2020},  eprint={2006.08679},  archivePrefix={arXiv},  primaryClass={cs.LG}} 

翻译自: https://towardsdatascience.com/towards-explainable-ai-with-feature-space-exploration-628930baf8ef

ai星际探索 爪子


http://www.taodudu.cc/news/show-2932209.html

相关文章:

  • bzoj3786 星际探索 splay dfs序
  • 小a与星际探索(dp)
  • 1C.小a与星际探索(C++)
  • 牛客寒假算法基础集训营1 C. 小a与星际探索(dp或者各种姿势)
  • 小a与星际探索 线性基算法
  • 牛客——小a与星际探索
  • 牛客-小a与星际探索
  • BZOJ3786 星际探索
  • 星际探索
  • 首款宇宙星际探索类卡牌游戏震撼上线
  • 星际穿越+降临+明日边缘?星际拓荒重新定义星际探索题材游戏
  • 《星际探索》首席数码绘景师为你解析Blender场景制作
  • 控制面板卸载不了程序,教您如何处理控制面板中卸载不掉的软件
  • 宝塔 控制面板如何添加新网站
  • Windows 10 控制面板 (Control Panel)
  • RealtekAudioControl声卡控制面板下载
  • Win11怎么打开AMD显卡控制面板
  • 电脑桌面上的控制面板和计算机怎么没有了,控制面板在哪?没有控制面板怎么办...
  • 计算机控制面板有何用途,控制面板上面功能都有什么作用
  • 《质量总监成长记》笔记
  • 嵌入式软件工程师—成长笔记#03
  • 嵌入式软件工程师—成长笔记#02
  • 阿里Java岗P5-P7成长笔记【3283页PDF文档免费领】
  • 一个小垃圾的成长笔记
  • Flask成长笔记--依赖包操作
  • 身为程序员月薪还不到50k?你们好菜,我已经拿着阿里成长笔记实现财富自由了
  • 程序员成长笔记(二):SVN,Git,Mercurial
  • 阿里巴巴Java岗位从P5-P7的成长笔记【总共3283页PDF文档】
  • 嵌入式软件工程师—成长笔记#05
  • python 成长笔记 序章

ai星际探索 爪子_通过特征空间探索实现可解释的人工智能相关推荐

  1. ai取代程序员_未来50%的工作都将被人工智能给取代,程序员会被机器人取代吗?...

    首先程序员这个行业和其他行业一样也是分等级的. 虽然非常不想用"底层从业者"这五个词来定义最低层次的程序员,但事实就是如此. 当行业的某个技术领域发展成熟到一定程度时,这个领域的大 ...

  2. ai无法启动产品_启动AI启动的三个关键教训

    ai无法启动产品 重点 (Top highlight) Let me be upfront: I was the technical co-founder of an AI startup and i ...

  3. ai人工智能在手机的应用_何时更重要地在产品中利用人工智能

    ai人工智能在手机的应用 You need to go from your house to the Airport. Do you take a Limo or a bike? Of course ...

  4. AI:2021年WAIC世界人工智能大会2021年7月9日《可信AI论坛》、《AI引领探索保险科技新价值》、《产研共育·数智未来》等论坛演讲内容分享及解读

    AI:2021年WAIC世界人工智能大会2021年7月9日<可信AI论坛>.<AI引领探索保险科技新价值>.<产研共育·数智未来>等论坛演讲内容分享及解读 导读:2 ...

  5. 【牛客 - 317C】小a与星际探索(背包dp 或 线性基)

    题干: 小a正在玩一款星际探索游戏,小a需要驾驶着飞船从11号星球出发前往nn号星球.其中每个星球有一个能量指数pp.星球ii能到达星球jj当且仅当pi>pjpi>pj. 同时小a的飞船还 ...

  6. 小a与星际探索---DP

    题目描述 小a正在玩一款星际探索游戏,小a需要驾驶着飞船从11号星球出发前往nn号星球.其中每个星球有一个能量指数pp.星球ii能到达星球jj当且仅当pi>pjpi>pj. 同时小a的飞船 ...

  7. 《星际探索》首席数码绘景师为你解析Blender场景制作

    入行13年 参与大片制作20部有余 工作足迹遍布全世界8个国家 今天瑞云渲染为大家带来场景TD/绘景师大佬 Rahul Venugopal的独家专访 人物介绍 Rahul Venugopal 场景TD ...

  8. 星际穿越+降临+明日边缘?星际拓荒重新定义星际探索题材游戏

    丨重新定义星际探索题材游戏 当我们说起"星际探索游戏", 我们会想起精英:危险,会想起坎巴拉太空计划,会想起那个灾难开场但终于修好的无人深空,还有那个耗资几亿还没弄完的星际公民-- ...

  9. 牛客-小a与星际探索

    这是一道伪图论题 链接:https://ac.nowcoder.com/acm/problem/22144 来源:牛客网 题目描述 小a正在玩一款星际探索游戏,小a需要驾驶着飞船从11号星球出发前往n ...

最新文章

  1. VB.Net编程实现Web Service的基础
  2. 网络爬虫:使用多线程爬取网页链接
  3. Android 自定义Button按钮显示样式(正常、按下、获取焦点)
  4. 第二轮“双一流”名单:这 44 所高校有调整!
  5. Linux 进程(一) 进程概念和进程状态(僵尸进程、孤儿进程、守护进程)
  6. 使用CocoaPods给微信集成SDK打印收发消息
  7. 在ubuntu下面安装glew
  8. 我死了,你会娶别的女人吗?
  9. 烂泥:nagios监控单网卡双IP
  10. html入门教程博客,HTML基础教程
  11. VRay材质练习(一):水、玻璃、牛奶
  12. 二级缓存j2cache和SpringBoot整合
  13. 计算机专业助我成长作文600,挫折助我成长作文(精选6篇)
  14. Android 直播 直播播放器选型
  15. 农夫山泉,它欺骗我们了吗?
  16. 【autojs】Auto.js Pro系统intent代码
  17. python的中文社区
  18. tkinter将图标写入py文件
  19. The NTVDM CPU has encountered an illegal instruction. CS:0006 IP:130a ....
  20. [转] 用小铲子挖大坑

热门文章

  1. binlog的详细介绍
  2. 为什么子进程要继承处理器亲缘性?
  3. LVGL-gui_user.c
  4. 帧缓冲区对象 FBO
  5. AIX日志型文件系统的nbpi
  6. Poster Design
  7. HtmlUnit 使用范例
  8. 达梦数据库常用函数——字符串函数
  9. 世界杯梦幻联动.html
  10. 课时10:列表:一个打了激素的数组1