文章目录

  • 主要内容
    • 定理1
    • 定理2
    • 定理3
    • 定理4
    • 定理1的证明

Lu Z, Pu H, Wang F, et al. The expressive power of neural networks: a view from the width[C]. neural information processing systems, 2017: 6232-6240.

@article{lu2017the,
title={The expressive power of neural networks: a view from the width},
author={Lu, Zhou and Pu, Hongming and Wang, Feicheng and Hu, Zhiqiang and Wang, Liwei},
pages={6232–6240},
year={2017}}

Universal approximation theorem-wiki, 这个定理分成俩个部分, 第一个部分是Unbounded Width Case, 这篇文章是Bounded Width Case (ReLu网络).

主要内容

定理1

另外, 定理1中的网络由若干个(视ϵ\epsilonϵ而定) blocks排列而成, 每个block具有以下性质:

  • depth: 4n+1, width: n+4 的神经网络
  • 在一个范围外其“函数值”为0
  • 它能够存储样本信息
  • 它会加总自身的信息和前面的逼近信息

定理2

定理3

定理4

定理1的证明

因为主要关注定理1, 所以讲下这个部分的证明(实际上是因为其它懒得看了).

假设x=(x1,x2,…,xn)x = (x_1, x_2,\ldots, x_n)x=(x1​,x2​,…,xn​)为输入, fff是L1L^1L1可积的, 对于任意的ϵ>0\epsilon > 0ϵ>0, 存在N>0N > 0N>0满足
∫∪i=1n∣xi∣≥N∣f∣dx<ϵ2.\int_{\cup_{i=1}^n|x_i| \ge N} |f| \mathrm{d}x < \frac{\epsilon}{2}. ∫∪i=1n​∣xi​∣≥N​∣f∣dx<2ϵ​.

定义下列符号:

则我们有:
∫Rn∣f−(f1−f2)∣dx<ϵ2,\int_{R^n} |f-(f_1 - f_2)| \mathrm{d}x < \frac{\epsilon}{2}, ∫Rn​∣f−(f1​−f2​)∣dx<2ϵ​,

对于i=1,2i=1, 2i=1,2, 既然VEiV_E^iVEi​是可测的(且测度小于+∞+\infty+∞), 则我们能找到有限个n+1n+1n+1维的矩体去逼近(原文用了cover, 但是我感觉这里用互不相交的矩体才合理), 并有
m(VEiΔ∪jJj,i)<ϵ8,m(V_E^i \Delta \cup_j J_{j,i}) < \frac{\epsilon}{8}, m(VEi​Δ∪j​Jj,i​)<8ϵ​,
不出意外Δ\DeltaΔ应该就是\.

假设Jj,iJ_{j,i}Jj,i​有nin_ini​个, 且

每一个Jj,iJ_{j, i}Jj,i​对应一个指示函数:
ϕj,i(x)={1x∈Xj,i0x∉Xj,i.\phi_{j,i}(x) = \left \{ \begin{array}{ll} 1 & x \in X_{j,i} \\ 0 & x \not \in X_{j,i}. \end{array} \right. ϕj,i​(x)={10​x∈Xj,i​x​∈Xj,i​.​


这个在实变函数将多重积分, 提到的下方图形集有讲到.
于是我们有(−f1−f2+f1+f2−f+f-f_1-f_2+f_1+f_2-f+f−f1​−f2​+f1​+f2​−f+f然后拆开来就可以得到不等式)

现在我们要做的就是通过神经网络拟合φj,i\varphi_{j,i}φj,i​去逼近ϕj,i\phi_{j,i}ϕj,i​, 使得

现在来讲, 如果构造这个神经网络:

一个block有4n+1层, 每层的width是n+4, 注意到所有层的前n个Node都是一样的用来保存样本信息. 我们用Ri,j,Bk,i=1,2,3,4,j=1,…,n+4,k=1,…,n,R_{i, j, \mathscr{B_k}}, i=1, 2, 3, 4, j=1,\ldots,n+4, k=1,\ldots, n,Ri,j,Bk​​,i=1,2,3,4,j=1,…,n+4,k=1,…,n, 表示第kkk个Unit(每个Unit有4层)的第iii层的第jjj个Node.



注意: R2,n+3,B1R_{2, n+3, \mathscr{B_1}}R2,n+3,B1​​应该是(x1−a1)+/δ(x_1-a_1)^+/\delta(x1​−a1​)+/δ, 最开始的结构图中的对的. 我们来看一下, 什么样的x=(x1,…,xn)x=(x_1, \ldots, x_n)x=(x1​,…,xn​), 会使得L1L_1L1​不为0.

如果x1=a1+δ(b1−a1)+ϵx_1=a_1+\delta(b_1-a_1)+\epsilonx1​=a1​+δ(b1​−a1​)+ϵ, 这里ϵ>0\epsilon>0ϵ>0是一个任意小量, 和上文中的ϵ\epsilonϵ没有关系. 此时(当δ<1/2\delta<1/2δ<1/2)
(x1−b1+δ(b1−a1))+δ=0,\frac{(x_1-b_1+\delta(b_1-a_1))^+}{\delta}= 0, δ(x1​−b1​+δ(b1​−a1​))+​=0,
当δ\deltaδ足够小的时候
(x1−a1)+δ=0,\frac{(x_1-a_1)^+}{\delta}= 0, δ(x1​−a1​)+​=0,
此时L1=1L_1=1L1​=1, 类似地, 可以证明, 当δ→0\delta \rightarrow 0δ→0的时候, x1∈(a1+δ(b1−a1),b1−δ(b1−a1))x_1 \in (a_1+\delta(b_1-a_1),b_1-\delta(b_1-a_1))x1​∈(a1​+δ(b1​−a1​),b1​−δ(b1​−a1​))时, L1=1L_1=1L1​=1, 否则为0.

Ri,j,BkR_{i, j, \mathscr{B_k}}Ri,j,Bk​​的定义是类似的, 只是
Lk=((Lk−1−(xk−bk+δ(ak−bk))+/δ)+−(1−(xk−ak)+/δ)+)+,L_k = ((L_{k-1}-(x_k-b_k+\delta(a_k-b_k))^+/\delta)^+- (1-(x_k-a_k)^+/\delta)^+)^+, Lk​=((Lk−1​−(xk​−bk​+δ(ak​−bk​))+/δ)+−(1−(xk​−ak​)+/δ)+)+,
可以证明, 当δ→0\delta\rightarrow 0δ→0, 且xt∈(at+δ(bt−at),bt−δ(bt−at)),t=1,2,…,kx_t \in (a_t + \delta(b_t-a_t),b_t-\delta(b_t-a_t)), t=1,2,\ldots, kxt​∈(at​+δ(bt​−at​),bt​−δ(bt​−at​)),t=1,2,…,k的时候, Lk=1.L_k=1.Lk​=1., 这样我们就构造了一个指示函数, 如果这个这函数对应的iii为1则将LnL_nLn​存入n+1 Node, 否则 n+2 Node (实际上, 我感觉应该存的是bn+1,j,iLnb_{n+1,j,i}L_nbn+1,j,i​Ln​), 则

这里μ\muμ相当于LnL_nLn​. 所以多个blocks串联起来后, 我们就得到了一个函数, 且这个函数是我们想要的.


这个直接通过超距体体积计算得来的, 我们只需要取:



最后
令g:=∑i=12∑j=1ni(−1)i+1bn+1,j,iμj,ig:=\sum_{i=1}^2\sum_{j=1}^{n_i}(-1)^{i+1}b_{n+1,j,i}\mu_{j,i}g:=∑i=12​∑j=1ni​​(−1)i+1bn+1,j,i​μj,i​,便有

此即定理1的证明.

The Expressive Power of Neural Networks: A View from the Width相关推荐

  1. cs224w(图机器学习)2021冬季课程学习笔记11 Theory of Graph Neural Networks

    诸神缄默不语-个人CSDN博文目录 cs224w(图机器学习)2021冬季课程学习笔记集合 文章目录 1. How Expressive are Graph Neural Networks? 2. D ...

  2. 【Deep Learning 一】课程一(Neural Networks and Deep Learning),第一周(Introduction to Deep Learning)答案

    10个测验题: 1.What does the analogy "AI is the new electricity" refer to?  (B) A. Through the ...

  3. Graph Neural Networks: A Review of Methods and Applications(图神经网络:方法与应用综述)

    Graph Neural Networks: A Review of Methods and Applications 图神经网络:方法与应用综述 Jie Zhou , Ganqu Cui , Zhe ...

  4. Paper:《Graph Neural Networks: A Review of Methods and Applications—图神经网络:方法与应用综述》翻译与解读

    Paper:<Graph Neural Networks: A Review of Methods and Applications-图神经网络:方法与应用综述>翻译与解读 目录 < ...

  5. 李菲菲课程笔记:Deep Learning for Computer Vision – Introduction to Convolution Neural Networks

    转载自:http://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convoluti ...

  6. All of Recurrent Neural Networks (RNN)

    - notes for the Deep Learning book, Chapter 10 Sequence Modeling: Recurrent and Recursive Nets. Meta ...

  7. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](5)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](5) Graph Neural Networks 图神经网络 Now th ...

  8. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](1)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](1) 最近读了一篇Distill网站上的一篇文章,讲的是图神经网络的入门, ...

  9. ResNeXt - Aggregated Residual Transformations for Deep Neural Networks

    <Aggregated Residual Transformations for Deep Neural Networks>是Saining Xie等人于2016年公开在arXiv上: h ...

  10. SPINN: Synergistic Progressive Inferenceof Neural Networks over Device and Cloud

    题目:SPINN: Synergistic Progressive Inferenceof Neural Networks over Device and Cloud SPINN:设备和云上神经网络的 ...

最新文章

  1. 实时语义分割--ICNet for Real-Time Semantic Segmentation on High-Resolution Images
  2. (Incomplete) UVa 719 Glass Beads
  3. VTK:IO之ReadBMP
  4. 数字图像处理基础与应用 第五章
  5. python爬虫爬取大众点评并导入redis
  6. sklearn相关积累
  7. local lua 多个_Lua面向对象之多重继承、私密性详解
  8. 前端处理方式:特殊格式时间转换(2020-11-27T02:58:41.000000Z)
  9. python能做什么工作-学Python能找到什么工作?这4种工作最热门!
  10. jsp文件创建后自动设置其pageEncoding的属性值为UTF-8
  11. matlab无缝拼接两个图_无色差液晶拼接屏研发商参数
  12. 「广州SEO优化」Google优化SEO关键词排名工具
  13. win7右键反应特别慢的问题
  14. 机器视觉 飞拍曝光计算
  15. 任务并行库(Task Parellel Library)parallel.for parallel.foreach、List、ConcurrentBag 并行集合、线程安全结合
  16. Java—泛型、内部类、多继承
  17. Mybatis-Plus的条件构造器(Wrapper)
  18. 时空大数据与众包计算学习总结
  19. JDBCUtils工具库
  20. vim使用教程图文教程(超详细)

热门文章

  1. C++实现控制台迷宫小游戏
  2. 《数据结构与算法自学与面试指南》01-01:图灵奖得主尼古拉斯·沃斯
  3. 【java】使用Stanford CoreNLP处理英文(词性标注/词形还原/解析等)
  4. Python中 or 和 and 用法
  5. 2020-GKCTF-Reverse
  6. DAC7724数模转换芯片小结
  7. 解释缩写词在html中的标记写法是,abbr:HTML5中缩略词标记的重要作用
  8. linux设备模型五(device和device_driver)
  9. Access control configuration prevents your request from being allo
  10. 第二本书:疯狂人类进化史20190620