在读论文(FAST AND ACCURATE DEEP NETWORK LEARNING BY
EXPONENTIAL LINEAR UNITS (ELUS))时说到,ReLU激活函数的一些缺点,包括使得数据分布发生偏移。

而Nature Gradient则为一种解决办法,以下为Nature Gradient的介绍:
示例:
假设现在有一个5个参数的向量(data),我们要衡量梯度更新前后的距离:

total_distance = 0for i in range(5):for j in range(5):totoal_distance += data[i] * data[j] * metric[i][j]

我们在此引入一个5x5的矩阵(matric),如果matric为单位矩阵。
如果matic是Fisher Information Matix, 则距离为KL散度。

Nature Gradient 自然梯度相关推荐

  1. kl散度的理解_以曲率的视角理解自然梯度优化

    一个故事 我要讲一个故事:一个你几乎肯定听过的故事,但它的侧重点与你习以为常关注的不同. 所有现代深度学习模型都使用梯度下降进行训练. 在梯度下降的每个步骤中,您的参数值从某个起始点开始,然后将它们移 ...

  2. PyTorch 笔记(13)— autograd(0.4 之前和之后版本差异)、Tensor(张量)、Gradient(梯度)

    1. 背景简述 torch.autograd 是 PyTorch 中方便用户使用,专门开发的一套自动求导引擎,它能够根据输入和前向传播过程自动构建计算图,并执行反向传播. 计算图是现代深度学习框架 P ...

  3. NIPS 2017 | 线上分享第一期:似自然梯度的优化算法KFAC与强化学习算法ACKTR

    上周我们发布了<攻略 | 虽然票早已被抢光,你可以从机器之心关注 NIPS 2017>,在 NIPS 2017 正式开始前,我们将选出数篇优质论文,邀请论文作者来做线上分享,聊聊理论.技术 ...

  4. 一般梯度、随机梯度、相对梯度和自然梯度

    一般梯度 也称常规梯度,就是 f ( w ⃗ ) f(\vec w) f(w ) 对 w ⃗ \vec w w 的偏导,即 ∂ f ( w ⃗ ) ∂ w ⃗ \frac{\partial f(\ve ...

  5. 强化学习笔记(六):Policy Gradient/策略梯度

    目录 考题 知识点1:critic.actor​ 定理1:策略梯度理论 定理2:函数近似理论 知识点3:蒙特卡洛策略梯度 知识点4:Actor-critic算法 知识点:Advantage Funct ...

  6. 【ML03】Gradient Descend 梯度下降

    Gradient Descend 梯度下降 (一)概念 (二)Notation (三)Gradient Descent in Linear Regression (四)python with Grad ...

  7. Gradient Descent梯度下降(透彻分析)

    ----------首先了解什么是梯度? 官方解释: 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为 ...

  8. 【李宏毅机器学习】Gradient Descent_1 梯度下降(p5、p6、p7 )学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 文章目录 Review Gradient Descent Tips Tip1: Tuning your learning rate 小心微调你的学习率 Tip 2 ...

  9. 深度学习100问之深入理解Vanishing/Exploding Gradient(梯度消失/爆炸)

    这几天正在看梯度消失/爆炸,在深度学习的理论中梯度消失/爆炸也是极其重要的,所以就抽出一段时间认真地研究了一下梯度消失/爆炸的原理,以下为参考网上的几篇文章总结得出的. 本文分为四个部分:第一部分主要 ...

最新文章

  1. Docker学习(5)——创建私有仓库,为私有仓库添加web界面
  2. vimrc for windows
  3. VB.NET(2005)中关于dll调用的错误信息(转)
  4. Sql Server 查看所有存储过程或视图的位置及内容
  5. LeetCode-有效的字母异位词
  6. 网易云信联手长沙银行,远程视频银行系统助力数字化转型
  7. Win的cmd中文乱码
  8. android学习笔记17——对话框(PopupWindow)
  9. MPEG2、H.263、H.264协议效率对比
  10. mooon db wrapper
  11. c语言1l是多少,1千克等于多少升(一千克等于一升啊)
  12. python编程教学软件-Python编程教学app
  13. hdu 4351 Digital root
  14. 史上最强 Java 学习路线图!
  15. 时间管理——番茄工作法
  16. 服务器网站常用端口号,web服务器常用端口号
  17. 将外国文献翻译成中文
  18. 《Excel高手捷径:一招鲜,吃遍天》一第29招 Excel 文件“减肥瘦身”秘诀
  19. NAND FLASH 坏块相关知识
  20. zb system login.php,zblog 修改后台登陆地址的教程

热门文章

  1. 没上网也能使用QQ截图工具
  2. 印度开始追上中国?为何文盲几乎一半,却总能出顶级程序员和高管
  3. 内网穿透 永久免费 简单实现外网访问内网SpringBoot
  4. 联想linux手机,联想即将推出5寸、7寸及10寸Android平板电脑
  5. ESP8266 Arduino-FLASH按钮电平驱动LED灯翻转
  6. 七步教你从0到1创建客户服务团队
  7. CUMT2020华为杯
  8. 【异常检测-论文阅读】(CVPR 2022)Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection
  9. java super父类方法_java super关键字,super调用父类构造方法详解
  10. 揭秘聚划算活动的营销技巧!!!