学习到机器学习线性回归和逻辑回归时遇到了梯度下降算法,然后顺着扯出了一堆高数的相关概念理论:导数、偏导数、全微分、方向导数、梯度,重新回顾它们之间的一些关系,从网上和教材中摘录相关知识点。

  1. 通过函数的极限定义出导数(以一元函数为例)
  2. 函数f(x)在点x0可微的充分必要条件是函数f(x)在点x0处可导
  3. 扩展到多元函数时,衍生出偏导数

导数

定义:设函数y=f(x)y=f(x)y=f(x)在点x0x_0x0​的某个领域内有定义,如果ΔyΔx\frac{Δy}{Δx}ΔxΔy​在当ΔxΔxΔx->0时极限存在,则称函数y=f(x)y=f(x)y=f(x)在x0x_0x0​处可导,这个极限是函数y=f(x)y=f(x)y=f(x)在x0x_0x0​处的导数
f′(x0)=lim⁡Δx→0ΔyΔx=lim⁡Δx→0f(x0+Δx)−f(x0)Δxf'(x_0)=\lim \limits_{Δx \to 0} \frac{Δy}{Δx}=\lim \limits_{Δx \to 0} \frac{f(x_0+Δx)-f(x_0)}{Δx}f′(x0​)=Δx→0lim​ΔxΔy​=Δx→0lim​Δxf(x0​+Δx)−f(x0​)​

根据导数的定义,从某种意义上说导数的本质是一种极限

导数与导函数的关系是局部与整体的关系,导数通常是指一点,导函数则是指一个区间上的

  • 在直线运动场景中,若x表示时刻,y表示距离,函数f表示时间与距离的关系y=f(x)y=f(x)y=f(x),那么导数的含义就是在x0x_0x0​时刻的瞬时速度
  • 在直角坐标系中,y=f(x)y=f(x)y=f(x)表示一个曲线,导数的含义表示的是曲线在点x0x_0x0​处的切线的斜率

微分

定义:设函数y=f(x)y=f(x)y=f(x)在某个领域内有定义,x0x_0x0​及x0+Δxx_0+Δxx0​+Δx在这区间内,如果增量
Δy=f(x0+x)−f(x0)Δy=f(x_0+x)-f(x_0)Δy=f(x0​+x)−f(x0​)
可表示为
Δy=AΔx+o(Δx)Δy=AΔx+o(Δx)Δy=AΔx+o(Δx)
其中A是不依赖ΔxΔxΔx的常数,o(Δx)o(Δx)o(Δx)是指ΔxΔxΔx趋于0时的高阶无穷小,那么称函数y=f(x)y=f(x)y=f(x)在点x0x_0x0​是可微的,而AΔxAΔxAΔx叫做函数在点x0x_0x0​相应于自变量增量ΔxΔxΔx的微分,记作dy\mathrm{d} ydy,记作
dy=AΔx\mathrm{d}y=AΔxdy=AΔx

高阶无穷小的定义:如果lim⁡βα=0\lim \limits \frac{\beta}{\alpha}=0limαβ​=0,就说β\betaβ是比α\alphaα高阶的无穷小,记作β=o(α)\beta=o(\alpha)β=o(α)

微分与导数的关系

上式Δy=AΔx+o(Δx)Δy=AΔx+o(Δx)Δy=AΔx+o(Δx)两边同时除以ΔxΔxΔx得到
ΔyΔx=A+o(Δx)Δx\frac{Δy}{Δx}=A+\frac{o(Δx)}{Δx}ΔxΔy​=A+Δxo(Δx)​
当Δx→0Δx \to 0Δx→0时,上式左边就是导数的定义,而右边的o(Δx)Δx\frac{o(Δx)}{Δx}Δxo(Δx)​因为是高阶无穷小,所以会趋向于0,得到以下等式
A=lim⁡Δx→0ΔyΔx=f′(x0)A=\lim \limits_{Δx \to 0}\frac{Δy}{Δx}=f'(x_0)A=Δx→0lim​ΔxΔy​=f′(x0​)
因此,如果函数f(x)f(x)f(x)在点x0x_0x0​可微,则f(x)f(x)f(x)在点x0x_0x0​也一定可导,且A=f′(x0)A=f'(x_0)A=f′(x0​),反之,如果f(x)f(x)f(x)在点x0x_0x0​可导,存在下式
lim⁡Δx→0ΔyΔx=f′(x0)\lim \limits_{Δx \to 0}\frac{Δy}{Δx}=f'(x_0)Δx→0lim​ΔxΔy​=f′(x0​)
根据极限与无穷小的关系转化上式,当Δx→0Δx \to 0Δx→0时
ΔyΔx=f′(x0)+α\frac{Δy}{Δx}=f'(x_0)+\alphaΔxΔy​=f′(x0​)+α
其中lim⁡Δx→0a=0\lim \limits_{Δx \to 0}a=0Δx→0lim​a=0,即lim⁡Δx→0aΔxΔx=0\lim \limits_{Δx \to 0}\frac{aΔx}{Δx}=0Δx→0lim​ΔxaΔx​=0,aΔx=o(Δx)aΔx=o(Δx)aΔx=o(Δx),上式转化为下式(又回到了微分的定义)
Δy=f′(x0)Δx+o(Δx)Δy=f'(x_0)Δx+o(Δx)Δy=f′(x0​)Δx+o(Δx)
因此,函数f(x)f(x)f(x)在点x0x_0x0​可微的充分必要条件是函数f(x)f(x)f(x)在点x0x_0x0​可导
dy=f′(x0)Δx\mathrm{d}y=f'(x_0)Δxdy=f′(x0​)Δx

偏导数

一元函数的变化率是导数,多元函数的自变量有多个,当某个自变量x变化而其它自变量固定时,这时候对变化的自变量x进行求导,就称为多元函数对于x的偏导数。
定义:设函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x0,y0)(x_0,y_0)(x0​,y0​)的某一领域内有定义,当yyy固定于y0y_0y0​,而xxx在x0x_0x0​处有增量ΔxΔxΔx,相应的函数有增量
f(x0+Δx,y0)−f(x0,y0)f(x_0+Δx,y_0)-f(x_0,y_0)f(x0​+Δx,y0​)−f(x0​,y0​)
如果
lim⁡Δx→0f(x0+Δx,y0)−f(x0,y0)Δx\lim \limits_{Δx \to 0}\frac{f(x_0+Δx,y_0)-f(x_0,y_0)}{Δx}Δx→0lim​Δxf(x0​+Δx,y0​)−f(x0​,y0​)​
存在,则称该极限为z=f(x,y)z=f(x,y)z=f(x,y)在点(x0,y0)(x_0,y_0)(x0​,y0​)处对xxx的偏导数

偏导数的几何意义

  • 偏导数fx(x0,y0)f_{x} (x_{0},y_{0} )fx​(x0​,y0​)就是曲面被平面y=y0y=y_{0}y=y0​所截得的曲线在点M0M_{0}M0​处的切线M0TxM_{0}T_{x}M0​Tx​对xxx轴的斜率
  • 偏导数fy(x0,y0)f_{y} (x_{0},y_{0} )fy​(x0​,y0​)就是曲面被平面x=x0x=x_{0}x=x0​所截得的曲线在点M0M_{0}M0​处的切线M0TyM_{0}T_{y}M0​Ty​对yyy轴的斜率

很多时候要考虑多元函数沿任意方向的变化率,那么就引出了方向导数

全微分

参考上文微分的定义,与一元函数的情形一样,希望用自变量增量Δx,ΔyΔx,ΔyΔx,Δy来线性函数来代替函数的全增量ΔzΔzΔz,从而减化计算
定义:设函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x,y)(x,y)(x,y)的某领域内有定义如果函数在点(x,y)(x,y)(x,y)的全增量
Δz=f(x+Δx,y+Δy)−f(x,y)Δz=f(x+Δx,y+Δy)-f(x,y)Δz=f(x+Δx,y+Δy)−f(x,y)
可心表示为
Δz=AΔx+BΔy+o(ρ)Δz=AΔx+BΔy+o(\rho)Δz=AΔx+BΔy+o(ρ)
其中A,BA,BA,B不依赖于Δx,ΔyΔx,ΔyΔx,Δy,ρ=(Δx)2+(Δy)2\rho=\sqrt{(Δx)^2+(Δy)^2}ρ=(Δx)2+(Δy)2​,则称函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x,y)(x,y)(x,y)处可微分,而AΔx+BΔyAΔx+BΔyAΔx+BΔy称为函数在点(x,y)(x,y)(x,y)的全微分
dz=AΔx+BΔy\mathrm{d}z=AΔx+BΔydz=AΔx+BΔy

可微分与偏导数关系

基于上述全微分定义成立,存在某一点p′(x+Δx,y+Δy)p'(x+Δx,y+Δy)p′(x+Δx,y+Δy)对于式子Δz=AΔx+BΔy+o(ρ)Δz=AΔx+BΔy+o(\rho)Δz=AΔx+BΔy+o(ρ)也成立,当Δy=0Δy=0Δy=0时
f(Δx+x,y)−f(x,y)=AΔX+o(∣Δx∣)f(Δx+x,y)-f(x,y)=AΔX+o(|Δx|)f(Δx+x,y)−f(x,y)=AΔX+o(∣Δx∣)
两边除以ΔxΔxΔx并且令Δx→0Δx \to 0Δx→0取极限
lim⁡Δx→0f(x+Δx,y)−f(x,y)Δx=A\lim \limits_{Δx \to 0}\frac{f(x+Δx,y)-f(x,y)}{Δx}=AΔx→0lim​Δxf(x+Δx,y)−f(x,y)​=A
这式子就是偏导数的定义形式啊,所以这说明了偏导数fx(x,y)f_x(x,y)fx​(x,y)存在且等于AAA,同理也可证fy(x,y)=Bf_y(x,y)=Bfy​(x,y)=B,由此推导出以下公式
dz=fx(x,y)Δx+fy(x,y)Δy\mathrm{d}z=f_x(x,y)Δx+f_y(x,y)Δydz=fx​(x,y)Δx+fy​(x,y)Δy

各偏导数的存在只是全微分存在的必要条件而非充分条件,即由全微分可证各偏导数存在,反之则不行

如果函数的各个偏数在点(x,y)(x,y)(x,y)是连续的,则函数可微分

方向导数

定义导数、偏导数、方向导数都是说如果说某条件下极限存在,谨记导数的本质是极限及代表函数的变化率,偏导数反映的是函数沿坐标轴方向的变化率,有所限制,所以引入方向导数表示沿任意一方向的变化率
定义:设lll是xOyxOyxOy平面以P0(x0,y0)P_0(x_0,y_0)P0​(x0​,y0​)为始点的一条射线,ei=(cosα,cosβ)e_i=(cos\alpha,cos\beta)ei​=(cosα,cosβ)是以射线同方向的单位向量

射线lll的参数方程为
{x=x0+tcosα,t≥0y=y0+tcosβ,t≥0\begin{cases}x=x_0+tcos\alpha ,t\geq0\\ y=y_0+tcos\beta,t\geq0 \end{cases}{x=x0​+tcosα,t≥0y=y0​+tcosβ,t≥0​
如果函数增量f(x0+tcosα,y0+tcosβ)−f(x0,y0)f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)f(x0​+tcosα,y0​+tcosβ)−f(x0​,y0​)与PPP到P0P_0P0​的距离∣PP0∣=t|PP_0|=t∣PP0​∣=t的比值,当点PPP沿着lll趋于P0(即t→0+)P_0(即t \to 0^+)P0​(即t→0+)时极限存在,则称此极限为函数在点P0P_0P0​沿方向lll的方向导数
∂f∂l∣(x0,y0)=lim⁡t→0+f(x0+tcosα,y0+tcosβ)−f(x0,y0)t\frac{\partial f}{\partial l}|_{(x_0,y_0)}=\lim \limits_{t \to 0^+}\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)}{t}∂l∂f​∣(x0​,y0​)​=t→0+lim​tf(x0​+tcosα,y0​+tcosβ)−f(x0​,y0​)​

方向导数与全微分的关系

由全微分的定义得到
f(x0+Δx,y0+Δy)−f(x0,y0)=fx(x0,y0)Δx+fy(x0,y0)Δy+o((Δx)2+(Δy)2)f(x_0+Δx,y_0+Δy)-f(x_0,y_0)=f_x(x_0,y_0)Δx+f_y(x_0,y_0)Δy+o(\sqrt{(Δx)^2+(Δy)^2})f(x0​+Δx,y0​+Δy)−f(x0​,y0​)=fx​(x0​,y0​)Δx+fy​(x0​,y0​)Δy+o((Δx)2+(Δy)2​)
设点(x0+Δx,y0+Δy)(x_0+Δx,y_0+Δy)(x0​+Δx,y0​+Δy)在以(x0,y0)(x_0,y_0)(x0​,y0​)为起点的射线l(cosα,cosβ是l的方向余弦)l(cos\alpha,cos\beta是l的方向余弦)l(cosα,cosβ是l的方向余弦)上,则有Δx=tcosαΔx=tcos\alphaΔx=tcosα,Δy=tcosβΔy=tcos\betaΔy=tcosβ,(Δx)2+(Δy)2=t\sqrt{(Δx)^2+(Δy)^2}=t(Δx)2+(Δy)2​=t,所以
lim⁡t→0+f(x0+Δx,y0+Δy)−f(x0,y0)t=fx(x0,y0)cosα+fy(x0,y0)cosβ\lim \limits_{t \to 0^+}\frac{f(x_0+Δx,y_0+Δy)-f(x_0,y_0)}{t}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\betat→0+lim​tf(x0​+Δx,y0​+Δy)−f(x0​,y0​)​=fx​(x0​,y0​)cosα+fy​(x0​,y0​)cosβ
上式左侧就是方向导数定义形式,极限存在即方向导数存在,且其值等于右式

由此得到定理,如果函数f(x,y)f(x,y)f(x,y)在点P0(x0,y0)P_0(x_0,y_0)P0​(x0​,y0​)可微分,那么函数在该点沿任一方向lll的方向导数存在
∂f∂l∣(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ\frac{\partial f}{\partial l}|_{(x_0,y_0)}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta∂l∂f​∣(x0​,y0​)​=fx​(x0​,y0​)cosα+fy​(x0​,y0​)cosβ

梯度

在平面上确定某一点可能存在无数个方向导数,我们怎样找到其中一个方向导数来描述函数最大变化率?
定义:在二元函数的情形, 设函数f(x,y)f(x,y)f(x,y)在平面区域D内具有一阶连续偏导数,对于每一点P0(x0,y0)∈DP_0(x_0,y_0)\in DP0​(x0​,y0​)∈D,都可以给出一个向量
fx(x0,y0)i+fy(x0,y0)j或用坐标表示(fx(x0,y0),fy(x0,y0))f_x(x_0,y_0)i+f_y(x_0,y_0)j \quad 或用坐标表示 \quad (f_x(x_0,y_0),f_y(x_0,y_0))fx​(x0​,y0​)i+fy​(x0​,y0​)j或用坐标表示(fx​(x0​,y0​),fy​(x0​,y0​))
其中i,ji,ji,j为x,yx,yx,y轴的方向向量,上述微量称为函数f(x,y)f(x,y)f(x,y)在点P0(x0,y0)P_0(x_0,y_0)P0​(x0​,y0​)的梯度记作
gradf(x0,y0)=fx(x0,y0)i+fy(x0,y0)jgradf(x_0,y_0)=f_x(x_0,y_0)i+f_y(x_0,y_0)jgradf(x0​,y0​)=fx​(x0​,y0​)i+fy​(x0​,y0​)j
由定义看到,梯度的方向是确定的,如果点PPP的坐标确定,那么梯度也大小也确定

如果函数f(x,y)f(x,y)f(x,y)在点P0(x0,y0)P_0(x_0,y_0)P0​(x0​,y0​)可微分,el=(cosα,cosβ)e_l=(cos\alpha,cos\beta)el​=(cosα,cosβ)是方向lll的方向向量(方向未确定)
∂f∂l∣(x0,y0)=fx(x0,y0)cosα+fy(x0,y0)cosβ=gradf(x0,y0).el=∣gradf(x0,y0)∣cosθ\frac{\partial f}{\partial l}|_{(x_0,y_0)}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta=grad\ f(x_0,y_0).e_l=|grad\ f(x_0,y_0)|cos\theta∂l∂f​∣(x0​,y0​)​=fx​(x0​,y0​)cosα+fy​(x0​,y0​)cosβ=grad f(x0​,y0​).el​=∣grad f(x0​,y0​)∣cosθ
其中θ\thetaθ为向量gradf(x0,y0){grad\ f(x_0,y_0)}grad f(x0​,y0​)与向量ele_lel​的夹角,当θ=0\theta=0θ=0时,即方向ele_lel​与梯度gradf(x0,y0){grad\ f(x_0,y_0)}grad f(x0​,y0​)的方向时,函数f(x,y)f(x,y)f(x,y)增加最快,函数在这个方向的方向导数达到最大值,这个值就是梯度gradf(x0,y0){grad\ f(x_0,y_0)}grad f(x0​,y0​)的模,即
∂f∂l∣(x0,y0)=∣gradf(x0,y0)∣\frac{\partial f}{\partial l}|_{(x_0,y_0)}=|grad \ f(x_0,y_0)|∂l∂f​∣(x0​,y0​)​=∣grad f(x0​,y0​)∣

所以可以用沿梯度方向的方向导数来描述是函数最大变化率,即梯度方向是函数变化率最大的方向,在梯度定义的时候就已经赋予了它这个特性。

导数、微分、偏导数、全微分、方向导数、梯度的定义与关系相关推荐

  1. 导数,偏导数,方向导数与梯度的定义与联系

    参考博客https://blog.csdn.net/baishuo8/article/details/81408369和知乎https://www.zhihu.com/question/3630136 ...

  2. 导数、偏导数、方向导数、梯度、梯度下降

    原作者:WangBo_NLPR 原文:https://blog.csdn.net/walilk/article/details/50978864  原作者:Eric_LH 原文:https://blo ...

  3. (转)导数、偏导数、方向导数、梯度、梯度下降

    原作者:WangBo_NLPR 原文:https://blog.csdn.net/walilk/article/details/50978864  原作者:Eric_LH 原文:https://blo ...

  4. (摘)导数、偏导数、方向导数、梯度、梯度下降概念和解释

    前言 机器学习中的大部分问题都是优化问题,而绝大部分优化问题都可以使用梯度下降法处理,那么搞懂什么是梯度,什么是梯度下降法就非常重要!这是基础中的基础,也是必须掌握的概念! 提到梯度,就必须从导数(d ...

  5. (转)导数、偏导数、方向导数、梯度、梯度下降概念和解释

    转自:https://www.cnblogs.com/lingjiajun/p/9895753.html 前言 机器学习中的大部分问题都是优化问题,而绝大部分优化问题都可以使用梯度下降法处理,那么搞懂 ...

  6. 导数,偏导数,方向导数,梯度的理解---微积分数学基础

    文章目录 0 概述 1. 导数的概念 1.1 导数的定义 1.2 导数的本质 2. 偏导数的概念 2.1 偏导数定义 2.2 偏导数的本质 3. 方向导数 3.1 方向导数定义 3.2 方向导数的最大 ...

  7. 【RL数学基础】微积分的基本概念:导数、偏导数、方向导数、梯度

    文章目录 1.导数 2.偏导数 3.方向导数 4.梯度 1.导数 导数定义: 反应的是函数 y=f(x)y=f(x)y=f(x) 在某一点处沿着自变量 xxx 的正方向(即: xxx 轴正方向)的变化 ...

  8. 高数补课:导数、偏导数、方向导数、梯度

    一篇经典博客: http://blog.csdn.net/walilk/article/details/50978864 1.导数定义: 导数代表了在自变量变化趋于无穷小的时候,函数值的变化与自变量的 ...

  9. 导数、偏导数、方向导数和梯度的基本介绍

    由于误差反向传播算法中采用梯度下降算法进行权重更新,因此需要先明白梯度是什么,而梯度的解释又要从导数讲起,因此本文先大致讲解一下导数导数.偏导数.方向导数和梯度的物理意义. 1.导数 根据我们以前的学 ...

  10. 深度学习知识点(1):有关导数、偏导数、方向导数、梯度的基本概念问题

    目录 1.导数 2.偏导数 3.方向导数 4.梯度 1.导数 导数反映的是函数y=f(x)在某一点处沿x轴正方向的变化率. 比如,在x=1处的导数是2. 导数是通过极限来定义的,某一点的导数=tanψ ...

最新文章

  1. 083 HBase的完全分布式的搭建与部署,以及多master
  2. 某程序员面试支付宝P7,面试已通过,却因为背调没过!再进阿里失败!阿里背调,到底调啥?...
  3. 使用apply调用函数
  4. 管理自动化:企业上云必由之路
  5. Android 点击应用外的Url拉起应用
  6. hadoop的开发工具_Hadoop开发工具简介
  7. shell实现从1加到100
  8. 阿里巴巴研究员刘国华:阿里巴巴智能运维体系建设
  9. html 判断当前窗口是否是子窗口,JavaScript window.open 判断子窗口是否已经存在
  10. 2018年最新Spring Boot视频教程附代码笔记资料(50G)
  11. LWIP2.0.2 FreeRTOS MQTT 客户端的 使用
  12. python合并两列数据_在pandas / python中的同一数据框中将两列合并...
  13. mysql备份的sql语句_Mysql主从备份和SQL语句的备份
  14. 实现AI角色的自主移动-路径跟随Path Following行为
  15. LC-恢复二叉搜索树(JavaScript实现)
  16. 中国水疗产品行业市场供需与战略研究报告
  17. 301代码php代码在哪里加,301转向设置及代码及方法详解
  18. 股神问题 - 有股神吗? 有, 小赛就是!
  19. Mysql导出数据的几种方式
  20. Android开发之svn命令行以及cornerston教程

热门文章

  1. db2导出适用于mysql的数据_db2数据库导出导入数据库
  2. “罪魁祸首”已找到,微软回应修改 MIT 开源项目作者版权声明
  3. T检验、F检验、Z检验、卡方检验
  4. 百度UEditor编辑器压缩(缩放)图片只压缩jpg格式的解决方法
  5. 第三届上海大学生网络安全大赛 流量分析
  6. 数据安全“考题”怎么破解?11月2日厦门站算力私享会开启
  7. ZeroMQ文档白嫖:一文述完ZeroMQ的套接字选项
  8. 安卓手机获取root权限
  9. linux 如何获取最高权限 设定
  10. DirectVobSub(VsFilter)的基本原理和实现实现