首先看这个 https://stackoverflow.com/questions/36462962/loss-clipping-in-tensor-flow-on-deepminds-dqn

DQN 文章中提到的 clip 并不是 梯度 clip。

首先看一下 tensorflow 1 中的 huber_loss,令 d = 1。

  0.5 * x^2                  if |x| <= d0.5 * d^2 + d * (|x| - d)  if |x| > d

其导数为

f'(x) = x    if x in [-1, 1]
f'(x) = +1    if x > +1
f'(x) = -1    if x < -1

loss=f(yi−yi^)loss′=f′(yi−yi^)⋅yi′=f′(z)⋅yi′loss = f(y_i-\hat{y_i}) \\ loss'=f'(y_i-\hat{y_i})\cdot y_i'=f'(z)\cdot y_i' loss=f(yi​−yi​^​)loss′=f′(yi​−yi​^​)⋅yi′​=f′(z)⋅yi′​

DQN 文中提到

We also found it helpful to clip the error term from the update to be between −1 and 1. Because the absolute value loss function |x| has a derivative of −1 for all negative values of x and a derivative of 1 for all positive values of x, clipping the squared error to be between −1 and 1 corresponds to using an absolute value loss function for errors outside of the (−1,1) interval. This form of error clipping further improved the stability of the algorithm.

但这个指的是 f′(z)f'(z)f′(z) 处于 -1 和 1 之间。而梯度 clip 则是把 f′(z)⋅yi′f'(z)\cdot y'_if′(z)⋅yi′​ 整体处于 -1 到 1 之间。

Use the Huber loss function, the Mnih et al 2013 paper called this error clipping.

DQN 中的梯度 clip相关推荐

  1. 机器学习中的梯度下降( Gradient Descent)算法

    前言 梯度下降(Gradient Descent,GD)算法主要分为三种:批量梯度下降(Batch Gradient Descent,BGD)算法.随机梯度下降(Stochastic Gradient ...

  2. 机器学习中的梯度下降法

    1. 机器学习中为什么需要梯度下降 梯度下降是机器学习中常见优化算法之一,梯度下降法有以下几个作用: (1)梯度下降是迭代法的一种,可以用于求解最小二乘问题. (2)在求解机器学习算法的模型参数,即无 ...

  3. [云炬python3玩转机器学习] 6-4 在线性回归模型中使用梯度下降法

    在线性回归模型中使用梯度下降法 In [1]: import numpy as np import matplotlib.pyplot as plt import datetime;print ('R ...

  4. 图解集成学习中的梯度提升思想

    摘要: 本文讲述集成学习中的梯度提升方法的思想,以简单算术及图片的形式展示整个过程,一看就懂! 简介 机器学习(ML)中的一个关键步骤是选择适合数据的最佳算法,根据数据中的一些统计数据和可视化信息,机 ...

  5. 更新fielddata为true_在pytorch中停止梯度流的若干办法,避免不必要模块的参数更新...

    在pytorch中停止梯度流的若干办法,避免不必要模块的参数更新 2020/4/11 FesianXu 前言 在现在的深度模型软件框架中,如TensorFlow和PyTorch等等,都是实现了自动求导 ...

  6. 深度学习中的梯度下降算法

    深度学习中的梯度下降算法 梯度下降算法-----致力于找到函数极值点的算法,深度学习中的核心算法. 所谓的学习便是改进模型参数,以便通过大量训练步骤将损失最小化. 有了这个概念,将梯度下降法应用于寻找 ...

  7. 一文看懂神经网络中的梯度下降原理 图像说明

    本文是一篇关于深度学习优化方法--梯度下降的介绍性文章.作者通过长长的博文,简单介绍了梯度下降的概念.优势以及两大挑战.文中还配有大量生动形象的三维图像,有兴趣的亲了解一下? 从很大程度上来说,深度学 ...

  8. Canny算子中的梯度求取及非最大值抑制(NMS)实现

    @Canny算子中的非最大值抑制(NMS)实现 canny算子中的非极大值抑制是在对图像进行梯度求取之后,在梯度方向进行的运算,也就是说此处的非极大值抑制是在对图像进行梯度求取后,在生成的梯度矩阵上求 ...

  9. 逻辑回归中的梯度下降法

    梯度下降法:该算法是一个一阶最优化算法,通过向函数上当前点对应梯度(或近似梯度)的反方向的规定步长距离点进行迭代搜索找到一个函数的局部极小值. 以一元函数为例说明梯度下降法: w的更新会朝着成本函数J ...

最新文章

  1. R语言data.table导入数据实战:data.table使用by函数进行数据分组(aggregate)
  2. python 多数据输出到txt_详解python读取和输出到txt
  3. 命令行编译xcodebuild
  4. 【AtCoder】ARC095 E - Symmetric Grid 模拟
  5. sql设置id自动增长_JDBC进阶(一):批处理与获取自增长列的值
  6. 蓝牙avrcp协议源码分析
  7. Oracle truncate table 与 delete tabel的区别
  8. smartprinter注册版_SmartPrinter下载 4.2 共享版
  9. linux作業 本地用戶分配權限 vsftpd
  10. Leetcode刷题-459:重复的子字符串
  11. M1芯片安装CleanMyMac X4.7.4的方法(附下载)M1芯片安装那个CleanMyMac X版本?CleanMyMac X已完美支持M1芯片安装 支持big sur系统
  12. 2016首次CCCC总结
  13. 【techQA】如何在Mac OS 11 Big Sur or M1芯片Mac下开启蓝牙Apt-X
  14. Mysql命令行导出远程mysql数据库到虚拟机本地的mysql中
  15. mysql高效率sql统计_SQl多表查询优化 高效率SQL语句
  16. 意外效应法则 - 计算机软件成为世界舞台上最为重要的科技领域
  17. 刷题术语简称:OJ、AC、WA、TLE、OLE、MLE、RE、PE、CE分别代表的意思
  18. 对B端产品经理来说,懂点企业架构很重要!
  19. 自定义View(英雄联盟七星图)
  20. IDEA怎么切换Git分支

热门文章

  1. CIO必看:跨国集团采购部报表系统的建设经验分享
  2. 2008安装完了找不到_防臭地漏哪种好?防臭地漏怎么安装?一篇文章全了解
  3. vue里面v-cloak/v-text/v-html/v-pre的应用
  4. iframe嵌入页面白屏_BFCache 与 浏览器前进后退白屏
  5. html5视频播放器使用,视频站启用html5播放器
  6. android 读取文件内容,Android读写文件 获取文件并读取写入数据
  7. Python 中星号的本质及其使用方式
  8. 东大OJ-1544: GG的战争法则
  9. Python3.x Numpy中的array数组_矩阵操作
  10. IndexError: list index out of range coco数据集转换为voc格式出现的错误