一、二次型：

1.1 定义

含有nnn个变量x1,x2,…,xnx_1,x_2,\dots,x_nx1,x2,…,xn的二次齐次函数（如果变量乘以一个系数，则新函数会是原函数再乘上系数的某次方倍）：

f(x1,x2,…,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xnf(x_1,x_2,\dots,x_n)=a_{11}x_1^2+a_{22}x_2^2+\dots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\dots+2a_{n-1,n}x_{n-1}x_nf(x1,x2,…,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xn

称为二次型。

取aij=ajia_{ij}=a_{ji}aij=aji，则2aijxixj=aijxixj+ajixjxi2a_{ij}x_ix_j=a_{ij}x_ix_j+a_{ji}x_jx_i2aijxixj=aijxixj+ajixjxi，于是上式可写成：

f=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+…+an1xnx1+an2xnx2+⋯+annxn2=∑i,j=1naijxixjf=a_{11}x_1^2+a_{12}x_1x_2+\dots+a_{1n}x_1x_n\\\quad\quad+a_{21}x_2x_1+a_{22}x_2^2+\dots+a_{2n}x_2x_n\\\quad\quad+\dots\\\quad\quad+a_{n1}x_nx_1+a_{n2}x_nx_2+\dots+a_{nn}x_n^2\\\quad=\sum\limits_{i,j=1}^na_{ij}x_ix_jf=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+…+an1xnx1+an2xnx2+⋯+annxn2=i,j=1∑naijxixj

由上式，利用矩阵，二次型可表示为：

f=x1(a11x1+a12x2+⋯+a1nxn)+x2(a21x1+a22x2+⋯+a2nxn)+…+xn(an1x1+ax2x2+⋯+annxn)=(x1,x2,…,xn)[a11x1+a12x2+⋯+a1nxna21x1+a22x2+⋯+a2nxn⋮an1x1+ax2x2+⋯+annxn]=(x1,x2,…,xn)[a11a12…a1na21a22…a2n⋮an1ax2…ann][x1x2⋮xn]f=x_1(a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n)\\\quad\quad+x_2(a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n)\\\quad\quad+\dots\\\quad\quad+x_n(a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n)\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n \\ a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n \\ \vdots \\ a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n \end{bmatrix}\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}f=x1(a11x1+a12x2+⋯+a1nxn)+x2(a21x1+a22x2+⋯+a2nxn)+…+xn(an1x1+ax2x2+⋯+annxn)=(x1,x2,…,xn)⎣⎢⎢⎢⎡a11x1+a12x2+⋯+a1nxna21x1+a22x2+⋯+a2nxn⋮an1x1+ax2x2+⋯+annxn⎦⎥⎥⎥⎤=(x1,x2,…,xn)⎣⎢⎢⎢⎡a11a21⋮an1a12a22ax2………a1na2nann⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤

记：

A=[a11a12…a1na21a22…a2n⋮an1ax2…ann],x=[x1x2⋮xn]A=\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix},x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}A=⎣⎢⎢⎢⎡a11a21⋮an1a12a22ax2………a1na2nann⎦⎥⎥⎥⎤,x=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤

则二次型可记作：

f=xTAxf=x^TAxf=xTAx

注意，对任何一个二次型函数，存在许多矩阵AAA，它们的二次型相同。但是，只有唯一的一个对阵矩阵AAA。因此，在讨论矩阵AAA的二次型时，通常都假定AAA为实对称矩阵或复共轭对称（即Hermitian）矩阵。

定义1.6.1：

一个复共轭对阵矩阵AAA称为：

正定矩阵：二次型xHAx>0，∀x≠0x^HAx>0，\forall x\ne0xHAx>0，∀x=0
半正定矩阵：二次型xHAx≥0，∀x≠0x^HAx\ge0，\forall x\ne0xHAx≥0，∀x=0（也称非负定的）
负定矩阵：二次型xHAx<0，∀x≠0x^HAx<0，\forall x\ne0xHAx<0，∀x=0
非负定矩阵：二次型xHAx≤0，∀x≠0x^HAx\le0，\forall x\ne0xHAx≤0，∀x=0（也称非正定的）
不定矩阵：二次型xTAxx^TAxxTAx既可能取正值，也可能取负值

二、矩阵的迹

定义1.6.3

n×nn\times nn×n矩阵AAA的对角元素之和称为AAA的迹（trace），记作tr(A)tr(A)tr(A)，即：

tr(A)=a11+a22+⋯+ann=∑i=1naii(1.6.5)tr(A)=a_{11}+a_{22}+\dots+a_{nn}=\sum\limits_{i=1}^na_{ii} \quad(1.6.5)tr(A)=a11+a22+⋯+ann=i=1∑naii(1.6.5)

2.1 关于迹的等式

2.2 关于迹的不等式

三、行列式

一个n×nn\times nn×n正方矩阵AAA的行列式记作det(A)det(A)det(A)或∣A∣|A|∣A∣，定义为：

det(A)=∣A∣=∣a11a12…a1na21a22…a2n⋮⋮⋮an1an2…ann∣det(A)=|A|=\begin{vmatrix}a_{11}&a_{12}&\dots&a_{1n}\\a_{21}&a_{22}&\dots&a_{2n}\\\vdots&\vdots&&\vdots\\a_{n1}&a_{n2}&\dots&a_{nn}\end{vmatrix}det(A)=∣A∣=∣∣∣∣∣∣∣∣∣a11a21⋮an1a12a22⋮an2………a1na2n⋮ann∣∣∣∣∣∣∣∣∣

二、正定矩阵：

2.1 定义

定义：

设有二次型f(x)=xTAxf(x)=x^TAxf(x)=xTAx，如果对任意x≠0x\ne0x=0，都有f(x)>0f(x)>0f(x)>0（f(0)=0)f(0)=0)f(0)=0)，则称fff为正定二次型，并称对称阵AAA是正定的；如果对任何x≠0x\ne0x=0都有f(x)<0f(x)<0f(x)<0，则称fff为负定二次型，并称对称阵AAA是负定的。

推论：

对称阵AAA为正定的充分必要条件是：AAA的特征值全为正。

2.2 从几何意义理解正定二次型

对于最简单的一元二次函数，当x≠0x \neq 0x=0 时f(x)>0f(x)>0f(x)>0恒成立。即一元二次正定型对应的图像是开口向上，顶点在原点的抛物线，同理二元二次正定型f(x,y)=x2+y2f(x,y)=x^2+y^2f(x,y)=x2+y2对应的图像是开口向上，顶点在原点的抛物面。

拓展到n元正定二次型的图像也对应着一个抛物线，保证当自变量取值非零向量时，对应的函数值大于零恒成立

2.3 半正定矩阵

2.3.1 图像

同样我们可以给出二元半正定二次型的图像，即当某个自变量的特征值为0从而保证当自变量取值为非零向量时，对应的函数值大于等于0恒成立。

2.3.2 性质

半正定矩阵的行列式非负
两个半正定矩阵的和是半正定的
非负实数与半正定矩阵的数乘是半正定的
半正定矩阵的特征值都是非负的

三、Hessian矩阵：

实值函数f(x)f(x)f(x)相对于m×1m\times1m×1实向量xxx的二阶偏导是一个由m2m^2m2个二阶偏导组成的矩阵（称为Hessian矩阵），定义为：

∂2f(x)∂x∂xT{\partial^2f(x)}\over{\partial x\partial x^T}∂x∂xT∂2f(x)=∂∂xT\partial\over\partial x^T∂xT∂[∂f(x)∂x\partial f(x)\over\partial x∂x∂f(x)]

或者简写为梯度的梯度：

∇x2f(x)=∇x(∇xf(x))\nabla^2_xf(x)=\nabla_x(\nabla_xf(x))∇x2f(x)=∇x(∇xf(x))

根据定义，Hessian矩阵的第jjj列是梯度∂f(x)∂x\partial f(x)\over\partial x∂x∂f(x)=∇xf(x)\nabla_xf(x)∇xf(x)第jjj个分量的梯度，即：

[∂2f(x)∂x∂xT\partial^2f(x)\over\partial x\partial x^T∂x∂xT∂2f(x)]=∂2f(x)∂xi∂xj\partial^2f(x)\over\partial x_i\partial x_j∂xi∂xj∂2f(x)

其方块矩阵如下所示：

[∂2f∂x12∂2f∂x1∂x2…∂2f∂x1∂xn∂2f∂x2∂x1∂2f∂x22…∂2f∂x2∂xn⋮⋮⋱⋮∂2f∂xn∂x1∂2f∂xn∂x2…∂2f∂xn2]\begin {bmatrix} {\partial ^2f \over \partial x_1^2}& {\partial ^2f \over \partial x_1 \partial x_2}& \dots & {\partial ^2f \over \partial x_1 \partial x_n} \\ {\partial ^2f \over \partial x_2 \partial x_1}& {\partial ^2f \over \partial x_2^2}& \dots & {\partial ^2f \over \partial x_2 \partial x_n}\\ \vdots & \vdots &\ddots & \vdots \\ {\partial ^2f \over \partial x_n \partial x_1}& {\partial ^2f \over \partial x_n \partial x_2} & \dots & {\partial ^2f \over \partial x_n^2} \end {bmatrix}⎣⎢⎢⎢⎢⎢⎡∂x12∂2f∂x2∂x1∂2f⋮∂xn∂x1∂2f∂x1∂x2∂2f∂x22∂2f⋮∂xn∂x2∂2f……⋱…∂x1∂xn∂2f∂x2∂xn∂2f⋮∂xn2∂2f⎦⎥⎥⎥⎥⎥⎤

因此，Hessian矩阵可以用两步法求出：

（1）求实值函数f(x)f(x)f(x)关于向量变元xxx的偏导数，得到实值函数的梯度∂f(x)∂x\partial f(x)\over \partial x∂x∂f(x)
（2）再求梯度∂f(x)∂x\partial f(x)\over\partial x∂x∂f(x)相对于1×n1\times n1×n行向量xTx^TxT的偏导数，得到梯度的梯度即Hessian矩阵

根据以上步骤，容易得到Hessian矩阵的下列公式：

设x∗x_*x∗为目标函数的局部极小点，当目标函数fff光滑时，存在很多有效和实际的方法来识别一个点是否为局部极小点。特别地，如果fff是二次连续可微分的话，直接通过检验梯度∇xf(x∗)\nabla_xf(x_*)∇xf(x∗)和Hessian矩阵∇x2f(x∗)\nabla_x^2f(x_*)∇x2f(x∗)，即可判断点x∗x_*x∗是否为局部极小点（甚至是严格局部极小点）。

若(∇x)T∇x(\nabla x)^T\nabla x(∇x)T∇x很小，则函数f(x)f(x)f(x)的Taylor级数展开为：

f(x+∇x)=f(x)+(∇x)T∇xf(x)+12(∇x)T∇x2f(x)∇xf(x+\nabla x)=f(x)+(\nabla x)^T\nabla_xf(x)+\frac{1}{2}(\nabla x)^T\nabla_x^2f(x)\nabla xf(x+∇x)=f(x)+(∇x)T∇xf(x)+21(∇x)T∇x2f(x)∇x

下

如果函数f是连续的，那么它的Hessian矩阵一定是对称阵，因为对函数求偏导的顺序不影响偏导的值。
Hessian矩阵可以用于多元函数极值的判定：

两个求Hessian矩阵的例子：

https://blog.csdn.net/jbb0523/article/details/50598523

四、实对称矩阵

如果有n阶矩阵A，其矩阵的元素都为实数，且矩阵A的转置等于其本身(aij=ajia_{ij}=a_{ji}aij=aji)，则称A为实对称矩阵。

4.1 性质

4.1.1 定理一

对称矩阵的特征值为实数、特征向量是实向量。

4.1.2 定理二

设λ1,λ2是实对称矩阵A的两个特征值，p1,p2是对应的特征向量，若λ1≠λ2，则p1与p2正交设\lambda_1,\lambda_2是实对称矩阵A的两个特征值，p_1,p_2是对应的特征向量，若\lambda_1\ne\lambda_2，则p_1与p_2正交设λ1,λ2是实对称矩阵A的两个特征值，p1,p2是对应的特征向量，若λ1=λ2，则p1与p2正交

证明：
λ1p1=Ap1,λ2p2=Ap2,λ1≠λ2\lambda_1p_1=Ap_1,\lambda_2p_2=Ap_2,\lambda_1\ne\lambda_2λ1p1=Ap1,λ2p2=Ap2,λ1=λ2
∵A对称,A=AT\because A对称,A=A^T∵A对称,A=AT
∴λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TA\therefore \lambda_1p_1^T=(\lambda_1p_1)^T=(Ap_1)^T=p_1^TA^T=p_1^TA∴λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TA
∴λ1p1Tp2=p1TAp2=p1T(λ2p2)=λ2p1Tp2\therefore \lambda_1p_1^Tp_2=p_1^TAp_2=p_1^T(\lambda_2p_2)=\lambda_2p_1^Tp_2∴λ1p1Tp2=p1TAp2=p1T(λ2p2)=λ2p1Tp2
∴(λ1−λ2)p1Tp2=0\therefore (\lambda_1-\lambda_2)p_1^Tp_2=0∴(λ1−λ2)p1Tp2=0
∵λ1≠λ2\because \lambda_1\ne\lambda_2∵λ1=λ2
∴p1Tp2=0，即p1与p2正交\therefore p_1^Tp_2=0，即p_1与p_2正交∴p1Tp2=0，即p1与p2正交

4.1.3 定理三

设A为n阶对称矩阵，则必有正交矩阵P，使P−1AP=ΛP^{-1}AP=\LambdaP−1AP=Λ，其中Λ\LambdaΛ是以A的n个特征值为对角元素的对角矩阵
或：
若A=AT若A=A^T若A=AT
⟹∃∣p∣≠0且PT=P−1，使P−1AP=Λ=diag(λ1,λ2,...,λn)\implies \exist|p|\ne0且P^T=P^{-1}，使P^{-1}AP=\Lambda=diag(\lambda_1,\lambda_2,...,\lambda_n)⟹∃∣p∣=0且PT=P−1，使P−1AP=Λ=diag(λ1,λ2,...,λn)

https://wenku.baidu.com/view/f04d366e58fafab069dc0256.html?sxts=1591661298009

矩阵的二次型，矩阵的迹、正定矩阵、Hessian矩阵、实对称相关推荐

matlab 海塞矩阵多元函数求极值,基于Hessian矩阵的多元函数极值问题.pdf
您所在位置:网站首页 > 海量文档 &nbsp>&nbsp电子工程/通信技术&nbsp>&nbsp无线电电子学/电信技术基于Hessian矩阵的多元 ...
极限和连续+偏导+方向导数+可微+梯度+链式法则+hessian矩阵
文章目录前言一.极限和连续二.偏导数三.方向导数四.可微五.梯度六.链式法则七.Hessian矩阵前言多元函数 y对某一个变量的导数是偏导数: 偏导数的结果可以推广到任意方向,也就 ...
神经网络---Hessian矩阵
2019独角兽企业重金招聘Python工程师标准>>> 对角近似外积近似 Hessian矩阵的逆矩阵有限差 Hessian矩阵的精确计算 Hessian矩阵的快速乘法转载于:h ...
牛顿法， Jacobian矩阵和 Hessian矩阵
牛顿法主要有两方面的应用: 求方程的根: 求解最优化方法: 为什么要用牛顿法求方程的根? 问题很多,牛顿法是什么?目前还没有讲清楚,没关系,先直观理解为牛顿法是一种迭代求解方法(Newton童鞋 ...
Steger算法（Line_Gauss）-光条中心线提取（基于Hessian矩阵）
Steger算法(Line_Gauss)-光条中心线提取(基于Hessian矩阵) 算法背景介绍 Hessian 矩阵与泰勒多项式关于求t 导数与中心点.亚像素点高斯函数作用文献算法背景介绍 ...
梯度之上：Hessian 矩阵
原文链接:原文文章目录梯度之上:Hessian 矩阵梯度.雅克比矩阵海森矩阵海森矩阵应用梯度之上:Hessian 矩阵本文讨论研究梯度下降法的一个有力的数学工具:海森矩阵.在讨论海森矩阵 ...
多元函数极值、Hessian矩阵、正定矩阵
这篇笔记,来自我对支持向量机(SVM)算法原理的学习.支持向量机算法最终归结为二次规划问题,研究二次规划问题,必须先从一般的最优化问题开始分析.如无特别声明,本文最优化问题特指寻求目标函数最小值. 一 ...
协方差矩阵—Hessian矩阵—正定矩阵
文章目录一.基本概念 1.1 协方差矩阵及推导 1.2 Hessian矩阵 1.3 Hessian矩阵示例 1.3 正定矩阵定义及性质 1.4 正定矩阵示例一.基本概念 1.1 协方差矩阵 ...
hessian矩阵特征值
研究hessian矩阵去噪的过程中想了解下hessian矩阵特征值的意义及用法 Hessian矩阵的特征值:就是形容其在该点附近特征向量方向的凹凸性,特征值越大,凸性越强. 对于二维图像的某点的hes ...

矩阵的二次型，矩阵的迹、正定矩阵、Hessian矩阵、实对称