1.正则化

原定的损失函数:
J = − 1 m ∑ i = 1 m ( y ( i ) log ⁡ ( a [ L ] ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − a [ L ] ( i ) ) ) (1) J = -\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} \tag{1} J=−m1​i=1∑m​(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))(1)
添加了L2正则化后的损失函数:
J r e g u l a r i z e d = − 1 m ∑ i = 1 m ( y ( i ) log ⁡ ( a [ L ] ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − a [ L ] ( i ) ) ) ⏟ cross-entropy cost + 1 m λ 2 ∑ l ∑ k ∑ j W k , j [ l ] 2 ⏟ L2 regularization cost (2) J_{regularized} = \small \underbrace{-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} }_\text{cross-entropy cost} + \underbrace{\frac{1}{m} \frac{\lambda}{2} \sum\limits_l\sum\limits_k\sum\limits_j W_{k,j}^{[l]2} }_\text{L2 regularization cost} \tag{2} Jregularized​=cross-entropy cost −m1​i=1∑m​(y(i)log(a[L](i))+(1−y(i))log(1−a[L](i)))​​+L2 regularization cost m1​2λ​l∑​k∑​j∑​Wk,j[l]2​​​(2)

2.梯度计算公式

∂ J ∂ θ = lim ⁡ ε → 0 J ( θ + ε ) − J ( θ − ε ) 2 ε (1) \frac{\partial J}{\partial \theta} = \lim_{\varepsilon \to 0} \frac{J(\theta + \varepsilon) - J(\theta - \varepsilon)}{2 \varepsilon} \tag{1} ∂θ∂J​=ε→0lim​2εJ(θ+ε)−J(θ−ε)​(1)
可以用这个公式验证梯度是否计算正确。

公式推导(非常有意思!):https://blog.csdn.net/oBrightLamp/article/details/84333111
里面有关于神经网络梯度计算的推导:


3.矩阵求导

3.1对标量的计算

3.1.1 标量对标量

3.1.2 向量对标量

3.1.3 矩阵对标量

3.2 对向量的计算

3.2.1 标量对向量

3.2.2 向量对向量

3.2.3 矩阵对向量

3.3 对矩阵的计算

3.3.1 标量对矩阵

3.3.2 矩阵对矩阵

4 矩阵的导数与迹

4.1 矩阵的导数

4.2 矩阵的迹

对于一个n阶方阵A的迹被定义为方阵A的主对角线的元素之和,通常对方阵的求迹操作写成trA,于是我们有

4.3 性质


附:
1、向量对向量求导

2、标量对向量求导

3、向量对标量求导

4、可能用到的公式

参考:
https://www.cnblogs.com/crackpotisback/p/5545708.html

求导公式大全

标量、向量、矩阵求导大全相关推荐

  1. 标量/向量/矩阵求导方法

    这篇博客源于在看论文时遇到了一个误差向量欧氏距离的求导,如下: 在看了一堆资料后得出以下结论: 这个结论是怎么来的呢?这就涉及标量/向量/矩阵的求导了.由于标量.向量都可以看做特殊的矩阵,因此就统称为 ...

  2. 复数 标量/向量/矩阵 求导

    Wirtinger derivative: 对复标量求导 Wirtinger derivative: 令 z=x+jyz=x+jyz=x+jy,则 f(z)f(z)f(z) 对 zzz 和 zzz 的 ...

  3. 矩阵对矩阵求导,标量对矩阵求导,链式法则

    Z∈R,Ym∗n,Xa∗bZ \in R,Y_{m*n},X_{a*b} Z∈R,Ym∗n​,Xa∗b​dZdX=dZdY∗dYdX\frac{dZ}{dX}=\frac{dZ}{dY}*\frac{ ...

  4. 【必读】3分钟带你了解标量对矩阵求导方法

    这是个人学习笔记,不是原创.来源请查看 "参考文档" 文章目录 标量对矩阵的求导 基础推导 复合函数 例题 参考文档 标量对矩阵的求导 基础推导 定义 标量f对矩阵X的导数,定义为 ...

  5. 矩阵/向量/标量间相互求导

    矩阵.向量都可以表示成张量的形式,向量是矩阵的特殊形式,按实际应用可分为标量对向量求导,标量对矩阵求导.向量对向量求导.矩阵对标量求导.矩阵对向量求导.矩阵对矩阵求导等,在深度学习的反向传播(BP)中 ...

  6. 线性代数之 矩阵求导(2)标量函数求导基本法则与公式

    线性代数之 矩阵求导(2)基本法则与公式 前言 基本约定 标量对向量求导 基本法则 公式 标量对矩阵求导 基本法则 公式 后记 前言 上篇矩阵求导(1)解决了求导时的布局问题,也是矩阵求导最基础的求导 ...

  7. 向量转置的怎么求导_机器学习中的向量求导和矩阵求导

    在机器学习的各种关于向量或者矩阵的求导中,经常会出现各种需要转置或者不需要转置的地方,经常会看得人晕头转向.今天我对机器学习中关于这部分的常识性处理方法进行整理并记录下来方便大家参考. 一些约定 首先 ...

  8. 二阶矩阵转置怎么求_矩阵求导术(下)

    本文承接上篇 https://zhuanlan.zhihu.com/p/24709748,来讲矩阵对矩阵的求导术.使用小写字母x表示标量,粗体小写字母 表示列向量,大写字母X表示矩阵.矩阵对矩阵的求导 ...

  9. 矩阵求导术(上、下)

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 矩阵求导的技术,在统计学.控制论.机器学习等领域有广泛的应用.鉴于我看过的一些资料或言 ...

最新文章

  1. NetBeans使用介绍(五)
  2. 汇编----连接,编译
  3. java使用POI工具类导出excel
  4. 项目管理过程中的一些注意事项
  5. 【云图】一键生成连锁店品牌地图
  6. 读后感:软件测试经验与教训
  7. tab weui 页面切换_weui tabbar 到底怎么用啊?tab页面为什么不能切换?
  8. idea提示不区分大小写,解决方法
  9. java tiles类似_java – 更好地替代Apache Tiles
  10. ffmpeg源码简析(八)解码 av_read_frame(),avcodec_decode_video2(),avformat_close_input()
  11. R语言:时间序列ARIMA模型使用
  12. 个人博客定制 to 鼠标单击事件绑定
  13. Vista 如何关闭UAC(用户帐户控制)
  14. NetXray使用说明之(6)----捕捉oicq message报文 (转)
  15. 非法本法考备考经验总结
  16. excel怎么合并同类项数据并求和(去除重复项)
  17. 对指定网站渗透的一些总结
  18. 高考倒计时100天,用python看看高三党
  19. 12张图,二手房数据分析及可视化
  20. 嵌入式linux系统应用开发

热门文章

  1. 最常用算法汇总(一)
  2. Django admin后台美化(极其简单)
  3. 计算机网络常见知识点总结
  4. 共轭方式怎么判断_怎么判断共轭效应是吸电子共轭效应还是给电子共轭效应?吸电子基和给电子基是根据什么判断的?...
  5. 怎么用计算机按反三角函数的导数,反三角函数求导过程
  6. OFDMA和OFDM的区别
  7. 用Ogre实现画中画 [ 截图 ]
  8. 同事写的SpringBoot代码不需要Controller、Service、DAO?只因为用了这个工具
  9. Elasticsearch(es) 查询语句语法详解
  10. PINN解偏微分方程实例2(一维非线性薛定谔方程)