1、什么是梯度

在微积分中,对多元函数的参数求∂偏导,把求得的各个参数的偏导数以向量形式写出来即为梯度。
例如对于函数f(x,y),分别对x,y求偏导,求得的梯度向量就是 (∂f/∂x, ∂f/∂y)^T,简称 grad f(x,y),或者▽f(x,y)。相对于的,在点(x_0,y_0)处的梯度就是 (∂f/∂x_0, ∂f/∂y_0)^T, 或者记做 ▽f(x_0,y_0)。

2、梯度的意义

从几何的角度上讲,就是函数变化增加最快的方向。或者说,沿着梯度的方向更容易找到函数的最大值,反过来说沿着梯度相反的方向更容易找到函数的最小值,这就奠定了后面在求解损失函数的最小值时,可以使用梯度下架来求解参数。

3、梯度下降法详解

3.1、梯度下降的直观解释

假设我么在一片山脉上,随机初始化一个坐标,那么沿着梯度的方向就是我们向最陡峭的方向前进一步,这个步长的大小由学习率控制。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。
由此来看,使用梯度下降很有可能出现2种情况:

  • 跨步太小陷入局部最优无法自发
  • 跨步太大错过全局最优

3.2 这中间涉及到几个相关概念: