Hessian矩阵及局部极小点的条件

一 Hessian矩阵：
实值函数f(x)相对于 n×1 n × 1 n\times 1实向量x的二阶偏导是一个由 m2 m 2 m^2个二阶偏导组成的矩阵（称为Hessian矩阵），定义为：

∂2f(x)∂x∂xT=∂∂xT[∂f(x)∂x] ∂ 2 f ( x ) ∂ x ∂ x T = ∂ ∂ x T [ ∂ f ( x ) ∂ x ]

{\partial ^2f(x)\over \partial x \partial x^T}={\partial \over \partial x^T}[{\partial f(x)\over \partial x}]
或者简写为梯度的梯度：

∇2xf(x)=∇x(∇xf(x)) ∇ x 2 f ( x ) = ∇ x ( ∇ x f ( x ) )

\nabla_x^2f(x)=\nabla_x(\nabla_xf(x))
根据定义，Hessian矩阵的第i行第j列是梯度 ∂f(x)∂xi=∇xif(x) ∂ f ( x ) ∂ x i = ∇ x i f ( x ) {\partial f(x)\over \partial {x_i}}=\nabla_{x_i}f(x)第j个分量的梯度，即：

[∂2f(x)∂x∂xT]i,j=∂2f(x)∂xi∂xj [ ∂ 2 f ( x ) ∂ x ∂ x T ] i , j = ∂ 2 f ( x ) ∂ x i ∂ x j

[{\partial ^2f(x)\over \partial x \partial x^T}]_{i,j}={\partial ^2f(x)\over \partial x_i \partial x_j},
或者写做：

∂2f(x)∂x∂xT=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢∂2f(x)∂x1∂x1∂2f(x)∂x2∂x1⋮∂2f(x)∂xn∂x1∂2f(x)∂x1∂x2∂2f(x)∂x2∂x2⋮∂2f(x)∂xn∂x2⋯⋯⋱⋯∂2f(x)∂x1∂xn∂2f(x)∂x2∂xn⋮∂2f(x)∂xn∂xn⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥ ∂ 2 f ( x ) ∂ x ∂ x T = [ ∂ 2 f ( x ) ∂ x 1 ∂ x 1 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ∂ x 2 ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x 2 ∂ x n ⋮ ⋮ ⋱ ⋮ ∂ 2 f ( x ) ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x n ∂ x 2 ⋯ ∂ 2 f ( x ) ∂ x n ∂ x n ]

{\partial ^2f(x)\over \partial x \partial x^T}=\begin{bmatrix}{\partial ^2f(x)\over \partial x_1 \partial x_1} & \cdots \\{\partial ^2f(x)\over \partial x_2 \partial x_1} & \cdots \\\vdots & \vdots & \ddots & \vdots \\{\partial ^2f(x)\over \partial x_n \partial x_1} & \cdots \\\end{bmatrix}
因此，Hessian矩阵可以用两步法求出来：
（1）求实值函数f(x)关于向量变元x的偏导数，得到实值函数的梯度 ∂f(x)∂x； ∂ f ( x ) ∂ x ； {\partial f(x)\over \partial {x}}；
（2）再求梯度 ∂f(x)∂x ∂ f ( x ) ∂ x {\partial f(x)\over \partial {x}}相对于 1×n 1 × n 1\times n行向量 xT x T x^T的偏导数，得到梯度的梯度即Hessian矩阵。

二局部极小点的条件
根据定义确定某个点 x∗ x ∗ x_*是否为目标函数的局部极小点，需要将目标函数在该点的取值与函数在该点领域里所有点的取值进行比较。这显然是不实际的做法。然而，如果f(x)是二次连续可微分的话，直接通过检验梯度 ∇xf(x∗) ∇ x f ( x ∗ ) \nabla _xf(x_*)和Hessian矩阵 ∇2xf(x∗) ∇ x 2 f ( x ∗ ) \nabla _x^2f(x_*), 即可判断点 x∗ x ∗ x_*是否为局部极小点（甚至是严格局部极小点）。
若 (Δx)TΔx ( Δ x ) T Δ x (\Delta x)^T\Delta x很小，即函数f(x)的二阶Taylor级数展开为：

f(x+Δx)=f(x)+(Δx)T∇xf(x)+12(Δx)T∇2xf(x)Δx f ( x + Δ x ) = f ( x ) + ( Δ x ) T ∇ x f ( x ) + 1 2 ( Δ x ) T ∇ x 2 f ( x ) Δ x

f(x+\Delta x)=f(x)+(\Delta x)^T\nabla_xf(x)+{1\over 2}(\Delta x)^T\nabla_x^2f(x)\Delta x
关于判断一个局部极小点的一阶必要条件和一阶充分条件，请参考《矩阵分析与应用》270页（张贤达著），下面主要讲解其二阶充分条件：
定理：假设 ∇2xf(x) ∇ x 2 f ( x ) \nabla_x^2f(x)在 x∗ x ∗ x_*的开邻域内连续，并且

∇xf(x∗)=0, ∇2xf(x∗)>0 ∇ x f ( x ∗ ) = 0 , ∇ x 2 f ( x ∗ ) > 0

\nabla_xf(x_*)=0, \ \nabla_x^2f(x_*)>0
则 x∗ x ∗ x_*是函数f(x)的严格局部极小点。式中 ∇2xf(x∗)>0 ∇ x 2 f ( x ∗ ) > 0 \nabla_x^2f(x_*)>0表示Hessian矩阵 ∇2xf(x∗) ∇ x 2 f ( x ∗ ) \nabla_x^2f(x_*)正定。（具体即 (Δx)T∇2xf(x)Δx>0 ( Δ x ) T ∇ x 2 f ( x ) Δ x > 0 (\Delta x)^T\nabla_x^2f(x)\Delta x>0）
证明：由函数f(x)的二阶Taylor级数展开 f(x∗+Δx)=f(x∗)+(Δx)T∇xf(x∗)+12(Δx)T∇2xf(x∗)Δx f ( x ∗ + Δ x ) = f ( x ∗ ) + ( Δ x ) T ∇ x f ( x ∗ ) + 1 2 ( Δ x ) T ∇ x 2 f ( x ∗ ) Δ x f(x_*+\Delta x)=f(x_*)+(\Delta x)^T\nabla_xf(x_*)+{1\over 2}(\Delta x)^T\nabla_x^2f(x_*)\Delta x，且 ∇xf(x∗)=0, (Δx)T∇2xf(x∗)Δx>0 ∇ x f ( x ∗ ) = 0 , ( Δ x ) T ∇ x 2 f ( x ∗ ) Δ x > 0 \nabla_xf(x_*)=0, \ (\Delta x)^T\nabla_x^2f(x_*)\Delta x>0可得： f(x∗+Δx)>f(x∗) f ( x ∗ + Δ x ) > f ( x ∗ ) f(x_*+\Delta x)>f(x_*)，所以 x∗ x ∗ x_*是函数f(x)的严格局部极小点。
应当注意的是，该二阶充分条件并不是必要条件：有的点 x∗ x ∗ x_*可能是函数f(x)的严格局部极小点，但是在该点的Hessian矩阵却不是正定的。例如，观察知，点 x=0 x = 0 x=0是函数 f(x)=(xTx)2 f ( x ) = ( x T x ) 2 f(x)=(x^Tx)^2的严格局部极小点，但是Hessian矩阵

∂2f(x)∂x∂xT=∂2∂x∂xT(xTx)2=12xTx ∂ 2 f ( x ) ∂ x ∂ x T = ∂ 2 ∂ x ∂ x T ( x T x ) 2 = 12 x T x

{\partial ^2f(x)\over \partial x \partial x^T}={\partial ^2\over \partial x \partial x^T}(x^Tx)^2=12x^Tx
在严格局部极小点 x=0 x = 0 x=0处为零矩阵，不是正定矩阵。

定理：凸函数f(x)的任何局部极小点 x∗ x ∗ x_*都是该函数的一个全局极小点。
证明：假设 x∗ x ∗ x_*是局部极小点，但不是一个全局极小点。于是，可以求出一点 z∈R z ∈ R z\in R满足 f(z)<f(x∗) f ( z ) < f ( x ∗ ) f(z).考虑从 x∗ x ∗ x_*到 z z z的线段上的点x" role="presentation">xxx,则

x=λz+(1−λ)x∗, λ∈(0,1] x = λ z + ( 1 − λ ) x ∗ , λ ∈ ( 0 , 1 ]

x=\lambda z+(1-\lambda)x_*, \ \ \lambda \in (0,1]
根据凸函数的性质，有

f(x)≤λf(z)+(1−λ)f(x∗)<f(x∗) f ( x ) ≤ λ f ( z ) + ( 1 − λ ) f ( x ∗ ) < f ( x ∗ )

f(x)\le \lambda f(z)+(1-\lambda)f(x_*).
则当 x x x趋近于x∗" role="presentation">x∗x∗x_*时，有 f(x)<f(x∗) f ( x ) < f ( x ∗ ) f(x),所以 x∗ x ∗ x_*不是局部极小点，与假设矛盾。因此，局部极小点 x∗ x ∗ x_*必定时一个全局极小点。

参考：《矩阵分析与应用》（张贤达著）

Hessian矩阵及局部极小点的条件相关推荐

机器学习中的数学——Jacobian矩阵和Hessian矩阵
分类目录:<机器学习中的数学>总目录有时我们需要计算输入和输出都为向量的函数的所有偏导数.包含所有这样的偏导数的矩阵被称为Jacobian矩阵.具体来说,如果我们有一个函数f:Rm→Rn ...
最优化--中科院实景课堂--第二节局部极小点+凸函数+无约束优化引言
1.目标函数很复杂,甚至可能需要采样,而且来之不易.因此需要用少的步数算出最值 2.gloal.local(weak平/strict严格/isolated孤立[他的邻域内只有这样一个极小点,没有震荡] ...
矩阵的二次型，矩阵的迹、正定矩阵、Hessian矩阵、实对称
一.二次型: 1.1 定义含有nnn个变量x1,x2,-,xnx_1,x_2,\dots,x_nx1,x2,-,xn的二次齐次函数(如果变量乘以一个系数,则新函数会是原函数再乘上系数的某次方倍 ...
Jacobin和Hessian矩阵
参考 Jacobin和Hessian矩阵 - 云+社区 - 腾讯云有时我们需要计算输入和输出都为向量和函数的所有偏导数.包含所有这样的偏导数的矩阵被称为Jacobian矩阵.具体来说,如果我们有一 ...
多元函数极值、Hessian矩阵、正定矩阵
这篇笔记,来自我对支持向量机(SVM)算法原理的学习.支持向量机算法最终归结为二次规划问题,研究二次规划问题,必须先从一般的最优化问题开始分析.如无特别声明,本文最优化问题特指寻求目标函数最小值. 一 ...
Hessian矩阵在XGBoost算法的应用小结
来源:机器学习算法那些事本文约1100字,建议阅读5分钟本文深入浅出的总结了Hessian矩阵在XGboost算法中的两种应用,即权重分位点算法和样本权重和算法 . 前言 Hessian矩阵最常见的 ...
如何理解神经网络优化中Momentem能够缓解hessian矩阵病态的问题
如何理解神经网络优化中Momentem能够缓解hessian矩阵病态的问题? 1.首先介绍一下,矩阵的病态问题矩阵病态主要是因为矩阵向量之间相关性太大,在二维上说就是矩阵向量之间的夹角太小,导致这两 ...
牛顿法， Jacobian矩阵和 Hessian矩阵
牛顿法主要有两方面的应用: 求方程的根: 求解最优化方法: 为什么要用牛顿法求方程的根? 问题很多,牛顿法是什么?目前还没有讲清楚,没关系,先直观理解为牛顿法是一种迭代求解方法(Newton童鞋 ...
眼底图像血管增强与分割--（5）基于Hessian矩阵的Frangi滤波算法
在最优化里面提到过的hessian矩阵(http://blog.csdn.net/piaoxuezhong/article/details/60135153),本篇讲的方法主要是基于Hessian矩阵 ...

Hessian矩阵及局部极小点的条件

Hessian矩阵及局部极小点的条件相关推荐

最新文章

热门文章