一、二次型:

1.1 定义

含有nnn个变量x1,x2,…,xnx_1,x_2,\dots,x_nx1​,x2​,…,xn​的二次齐次函数(如果变量乘以一个系数,则新函数会是原函数再乘上系数的某次方倍):

f(x1,x2,…,xn)=a11x12+a22x22+⋯+annxn2+2a12x1x2+2a13x1x3+⋯+2an−1,nxn−1xnf(x_1,x_2,\dots,x_n)=a_{11}x_1^2+a_{22}x_2^2+\dots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\dots+2a_{n-1,n}x_{n-1}x_nf(x1​,x2​,…,xn​)=a11​x12​+a22​x22​+⋯+ann​xn2​+2a12​x1​x2​+2a13​x1​x3​+⋯+2an−1,n​xn−1​xn​

称为二次型。

取aij=ajia_{ij}=a_{ji}aij​=aji​,则2aijxixj=aijxixj+ajixjxi2a_{ij}x_ix_j=a_{ij}x_ix_j+a_{ji}x_jx_i2aij​xi​xj​=aij​xi​xj​+aji​xj​xi​,于是上式可写成:

f=a11x12+a12x1x2+⋯+a1nx1xn+a21x2x1+a22x22+⋯+a2nx2xn+…+an1xnx1+an2xnx2+⋯+annxn2=∑i,j=1naijxixjf=a_{11}x_1^2+a_{12}x_1x_2+\dots+a_{1n}x_1x_n\\\quad\quad+a_{21}x_2x_1+a_{22}x_2^2+\dots+a_{2n}x_2x_n\\\quad\quad+\dots\\\quad\quad+a_{n1}x_nx_1+a_{n2}x_nx_2+\dots+a_{nn}x_n^2\\\quad=\sum\limits_{i,j=1}^na_{ij}x_ix_jf=a11​x12​+a12​x1​x2​+⋯+a1n​x1​xn​+a21​x2​x1​+a22​x22​+⋯+a2n​x2​xn​+…+an1​xn​x1​+an2​xn​x2​+⋯+ann​xn2​=i,j=1∑n​aij​xi​xj​

由上式,利用矩阵,二次型可表示为:

f=x1(a11x1+a12x2+⋯+a1nxn)+x2(a21x1+a22x2+⋯+a2nxn)+…+xn(an1x1+ax2x2+⋯+annxn)=(x1,x2,…,xn)[a11x1+a12x2+⋯+a1nxna21x1+a22x2+⋯+a2nxn⋮an1x1+ax2x2+⋯+annxn]=(x1,x2,…,xn)[a11a12…a1na21a22…a2n⋮an1ax2…ann][x1x2⋮xn]f=x_1(a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n)\\\quad\quad+x_2(a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n)\\\quad\quad+\dots\\\quad\quad+x_n(a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n)\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n \\ a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n \\ \vdots \\ a_{n1}x_1+a_{x2}x_2+\dots+a_{nn}x_n \end{bmatrix}\\\quad=(x_1,x_2,\dots,x_n)\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}f=x1​(a11​x1​+a12​x2​+⋯+a1n​xn​)+x2​(a21​x1​+a22​x2​+⋯+a2n​xn​)+…+xn​(an1​x1​+ax2​x2​+⋯+ann​xn​)=(x1​,x2​,…,xn​)⎣⎢⎢⎢⎡​a11​x1​+a12​x2​+⋯+a1n​xn​a21​x1​+a22​x2​+⋯+a2n​xn​⋮an1​x1​+ax2​x2​+⋯+ann​xn​​⎦⎥⎥⎥⎤​=(x1​,x2​,…,xn​)⎣⎢⎢⎢⎡​a11​a21​⋮an1​​a12​a22​ax2​​………​a1n​a2n​ann​​⎦⎥⎥⎥⎤​⎣⎢⎢⎢⎡​x1​x2​⋮xn​​⎦⎥⎥⎥⎤​

记:

A=[a11a12…a1na21a22…a2n⋮an1ax2…ann],x=[x1x2⋮xn]A=\begin{bmatrix} a_{11}&a_{12}&\dots&a_{1n} \\ a_{21}&a_{22}&\dots&a_{2n} \\ \vdots \\ a_{n1}&a_{x2}&\dots&a_{nn} \end{bmatrix},x=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}A=⎣⎢⎢⎢⎡​a11​a21​⋮an1​​a12​a22​ax2​​………​a1n​a2n​ann​​⎦⎥⎥⎥⎤​,x=⎣⎢⎢⎢⎡​x1​x2​⋮xn​​⎦⎥⎥⎥⎤​

则二次型可记作:

f=xTAxf=x^TAxf=xTAx

注意,对任何一个二次型函数,存在许多矩阵AAA,它们的二次型相同。但是,只有唯一的一个对阵矩阵AAA。因此,在讨论矩阵AAA的二次型时,通常都假定AAA为实对称矩阵或复共轭对称(即Hermitian)矩阵。

定义1.6.1:

一个复共轭对阵矩阵AAA称为:

  • 正定矩阵:二次型xHAx>0,∀x≠0x^HAx>0,\forall x\ne0xHAx>0,∀x​=0
  • 半正定矩阵:二次型xHAx≥0,∀x≠0x^HAx\ge0,\forall x\ne0xHAx≥0,∀x​=0(也称非负定的)
  • 负定矩阵:二次型xHAx<0,∀x≠0x^HAx<0,\forall x\ne0xHAx<0,∀x​=0
  • 非负定矩阵:二次型xHAx≤0,∀x≠0x^HAx\le0,\forall x\ne0xHAx≤0,∀x​=0(也称非正定的)
  • 不定矩阵:二次型xTAxx^TAxxTAx既可能取正值,也可能取负值

二、矩阵的迹

定义1.6.3

n×nn\times nn×n矩阵AAA的对角元素之和称为AAA的迹(trace),记作tr(A)tr(A)tr(A),即:

tr(A)=a11+a22+⋯+ann=∑i=1naii(1.6.5)tr(A)=a_{11}+a_{22}+\dots+a_{nn}=\sum\limits_{i=1}^na_{ii} \quad(1.6.5)tr(A)=a11​+a22​+⋯+ann​=i=1∑n​aii​(1.6.5)

2.1 关于迹的等式

2.2 关于迹的不等式

三、行列式

一个n×nn\times nn×n正方矩阵AAA的行列式记作det(A)det(A)det(A)或∣A∣|A|∣A∣,定义为:

det(A)=∣A∣=∣a11a12…a1na21a22…a2n⋮⋮⋮an1an2…ann∣det(A)=|A|=\begin{vmatrix}a_{11}&a_{12}&\dots&a_{1n}\\a_{21}&a_{22}&\dots&a_{2n}\\\vdots&\vdots&&\vdots\\a_{n1}&a_{n2}&\dots&a_{nn}\end{vmatrix}det(A)=∣A∣=∣∣∣∣∣∣∣∣∣​a11​a21​⋮an1​​a12​a22​⋮an2​​………​a1n​a2n​⋮ann​​∣∣∣∣∣∣∣∣∣​

二、正定矩阵:

2.1 定义

定义:

设有二次型f(x)=xTAxf(x)=x^TAxf(x)=xTAx,如果对任意x≠0x\ne0x​=0,都有f(x)>0f(x)>0f(x)>0(f(0)=0)f(0)=0)f(0)=0),则称fff为正定二次型,并称对称阵AAA是正定的;如果对任何x≠0x\ne0x​=0都有f(x)<0f(x)<0f(x)<0,则称fff为负定二次型,并称对称阵AAA是负定的。

推论:

对称阵AAA为正定的充分必要条件是:AAA的特征值全为正。

2.2 从几何意义理解正定二次型

对于最简单的一元二次函数,当x≠0x \neq 0x​=0 时f(x)>0f(x)>0f(x)>0恒成立。即一元二次正定型对应的图像是开口向上,顶点在原点的抛物线,同理二元二次正定型f(x,y)=x2+y2f(x,y)=x^2+y^2f(x,y)=x2+y2对应的图像是开口向上,顶点在原点的抛物面。

拓展到n元正定二次型的图像也对应着一个抛物线,保证当自变量取值非零向量时,对应的函数值大于零恒成立

2.3 半正定矩阵

2.3.1 图像

同样我们可以给出二元半正定二次型的图像,即当某个自变量的特征值为0从而保证当自变量取值为非零向量时,对应的函数值大于等于0恒成立。

2.3.2 性质
  1. 半正定矩阵的行列式非负
  2. 两个半正定矩阵的和是半正定的
  3. 非负实数与半正定矩阵的数乘是半正定的
  4. 半正定矩阵的特征值都是非负的

三、Hessian矩阵:

实值函数f(x)f(x)f(x)相对于m×1m\times1m×1实向量xxx的二阶偏导是一个由m2m^2m2个二阶偏导组成的矩阵(称为Hessian矩阵),定义为:

∂2f(x)∂x∂xT{\partial^2f(x)}\over{\partial x\partial x^T}∂x∂xT∂2f(x)​=∂∂xT\partial\over\partial x^T∂xT∂​[∂f(x)∂x\partial f(x)\over\partial x∂x∂f(x)​]

或者简写为梯度的梯度:

∇x2f(x)=∇x(∇xf(x))\nabla^2_xf(x)=\nabla_x(\nabla_xf(x))∇x2​f(x)=∇x​(∇x​f(x))

根据定义,Hessian矩阵的第jjj列是梯度∂f(x)∂x\partial f(x)\over\partial x∂x∂f(x)​=∇xf(x)\nabla_xf(x)∇x​f(x)第jjj个分量的梯度,即:

[∂2f(x)∂x∂xT\partial^2f(x)\over\partial x\partial x^T∂x∂xT∂2f(x)​]=∂2f(x)∂xi∂xj\partial^2f(x)\over\partial x_i\partial x_j∂xi​∂xj​∂2f(x)​

其方块矩阵如下所示:

[∂2f∂x12∂2f∂x1∂x2…∂2f∂x1∂xn∂2f∂x2∂x1∂2f∂x22…∂2f∂x2∂xn⋮⋮⋱⋮∂2f∂xn∂x1∂2f∂xn∂x2…∂2f∂xn2]\begin {bmatrix} {\partial ^2f \over \partial x_1^2}& {\partial ^2f \over \partial x_1 \partial x_2}& \dots & {\partial ^2f \over \partial x_1 \partial x_n} \\ {\partial ^2f \over \partial x_2 \partial x_1}& {\partial ^2f \over \partial x_2^2}& \dots & {\partial ^2f \over \partial x_2 \partial x_n}\\ \vdots & \vdots &\ddots & \vdots \\ {\partial ^2f \over \partial x_n \partial x_1}& {\partial ^2f \over \partial x_n \partial x_2} & \dots & {\partial ^2f \over \partial x_n^2} \end {bmatrix}⎣⎢⎢⎢⎢⎢⎡​∂x12​∂2f​∂x2​∂x1​∂2f​⋮∂xn​∂x1​∂2f​​∂x1​∂x2​∂2f​∂x22​∂2f​⋮∂xn​∂x2​∂2f​​……⋱…​∂x1​∂xn​∂2f​∂x2​∂xn​∂2f​⋮∂xn2​∂2f​​⎦⎥⎥⎥⎥⎥⎤​

因此,Hessian矩阵可以用两步法求出:

(1)求实值函数f(x)f(x)f(x)关于向量变元xxx的偏导数,得到实值函数的梯度∂f(x)∂x\partial f(x)\over \partial x∂x∂f(x)​
(2)再求梯度∂f(x)∂x\partial f(x)\over\partial x∂x∂f(x)​相对于1×n1\times n1×n行向量xTx^TxT的偏导数,得到梯度的梯度即Hessian矩阵

根据以上步骤,容易得到Hessian矩阵的下列公式:


设x∗x_*x∗​为目标函数的局部极小点,当目标函数fff光滑时,存在很多有效和实际的方法来识别一个点是否为局部极小点。特别地,如果fff是二次连续可微分的话,直接通过检验梯度∇xf(x∗)\nabla_xf(x_*)∇x​f(x∗​)和Hessian矩阵∇x2f(x∗)\nabla_x^2f(x_*)∇x2​f(x∗​),即可判断点x∗x_*x∗​是否为局部极小点(甚至是严格局部极小点)。

若(∇x)T∇x(\nabla x)^T\nabla x(∇x)T∇x很小,则函数f(x)f(x)f(x)的Taylor级数展开为:

f(x+∇x)=f(x)+(∇x)T∇xf(x)+12(∇x)T∇x2f(x)∇xf(x+\nabla x)=f(x)+(\nabla x)^T\nabla_xf(x)+\frac{1}{2}(\nabla x)^T\nabla_x^2f(x)\nabla xf(x+∇x)=f(x)+(∇x)T∇x​f(x)+21​(∇x)T∇x2​f(x)∇x

如果函数f是连续的,那么它的Hessian矩阵一定是对称阵,因为对函数求偏导的顺序不影响偏导的值。
Hessian矩阵可以用于多元函数极值的判定:

两个求Hessian矩阵的例子:



https://blog.csdn.net/jbb0523/article/details/50598523

四、实对称矩阵

如果有n阶矩阵A,其矩阵的元素都为实数,且矩阵A的转置等于其本身(aij=ajia_{ij}=a_{ji}aij​=aji​),则称A为实对称矩阵。

4.1 性质

4.1.1 定理一

对称矩阵的特征值为实数、特征向量是实向量。

4.1.2 定理二

设λ1,λ2是实对称矩阵A的两个特征值,p1,p2是对应的特征向量,若λ1≠λ2,则p1与p2正交设\lambda_1,\lambda_2是实对称矩阵A的两个特征值,p_1,p_2是对应的特征向量,若\lambda_1\ne\lambda_2,则p_1与p_2正交设λ1​,λ2​是实对称矩阵A的两个特征值,p1​,p2​是对应的特征向量,若λ1​​=λ2​,则p1​与p2​正交

证明:
λ1p1=Ap1,λ2p2=Ap2,λ1≠λ2\lambda_1p_1=Ap_1,\lambda_2p_2=Ap_2,\lambda_1\ne\lambda_2λ1​p1​=Ap1​,λ2​p2​=Ap2​,λ1​​=λ2​
∵A对称,A=AT\because A对称,A=A^T∵A对称,A=AT
∴λ1p1T=(λ1p1)T=(Ap1)T=p1TAT=p1TA\therefore \lambda_1p_1^T=(\lambda_1p_1)^T=(Ap_1)^T=p_1^TA^T=p_1^TA∴λ1​p1T​=(λ1​p1​)T=(Ap1​)T=p1T​AT=p1T​A
∴λ1p1Tp2=p1TAp2=p1T(λ2p2)=λ2p1Tp2\therefore \lambda_1p_1^Tp_2=p_1^TAp_2=p_1^T(\lambda_2p_2)=\lambda_2p_1^Tp_2∴λ1​p1T​p2​=p1T​Ap2​=p1T​(λ2​p2​)=λ2​p1T​p2​
∴(λ1−λ2)p1Tp2=0\therefore (\lambda_1-\lambda_2)p_1^Tp_2=0∴(λ1​−λ2​)p1T​p2​=0
∵λ1≠λ2\because \lambda_1\ne\lambda_2∵λ1​​=λ2​
∴p1Tp2=0,即p1与p2正交\therefore p_1^Tp_2=0,即p_1与p_2正交∴p1T​p2​=0,即p1​与p2​正交

4.1.3 定理三

设A为n阶对称矩阵,则必有正交矩阵P,使P−1AP=ΛP^{-1}AP=\LambdaP−1AP=Λ,其中Λ\LambdaΛ是以A的n个特征值为对角元素的对角矩阵
或:
若A=AT若A=A^T若A=AT
⟹∃∣p∣≠0且PT=P−1,使P−1AP=Λ=diag(λ1,λ2,...,λn)\implies \exist|p|\ne0且P^T=P^{-1},使P^{-1}AP=\Lambda=diag(\lambda_1,\lambda_2,...,\lambda_n)⟹∃∣p∣​=0且PT=P−1,使P−1AP=Λ=diag(λ1​,λ2​,...,λn​)

https://wenku.baidu.com/view/f04d366e58fafab069dc0256.html?sxts=1591661298009

矩阵的二次型,矩阵的迹、正定矩阵、Hessian矩阵、实对称相关推荐

  1. matlab 海塞矩阵 多元函数求极值,基于Hessian矩阵的多元函数极值问题.pdf

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp电子工程/通信技术&nbsp>&nbsp无线电电子学/电信技术 基于Hessian矩阵的多元 ...

  2. 极限和连续+偏导+方向导数+可微+梯度+链式法则+hessian矩阵

    文章目录 前言 一.极限和连续 二.偏导数 三.方向导数 四.可微 五.梯度 六.链式法则 七.Hessian矩阵 前言 多元函数 y对某一个变量的导数是偏导数: 偏导数的结果可以推广到任意方向,也就 ...

  3. 神经网络---Hessian矩阵

    2019独角兽企业重金招聘Python工程师标准>>> 对角近似 外积近似 Hessian矩阵的逆矩阵 有限差 Hessian矩阵的精确计算 Hessian矩阵的快速乘法 转载于:h ...

  4. 牛顿法, Jacobian矩阵 和 Hessian矩阵

    牛顿法 主要有两方面的应用: 求方程的根: 求解最优化方法: 为什么要用牛顿法求方程的根? 问题很多,牛顿法 是什么?目前还没有讲清楚,没关系,先直观理解为 牛顿法是一种迭代求解方法(Newton童鞋 ...

  5. Steger算法(Line_Gauss)-光条中心线提取(基于Hessian矩阵)

    Steger算法(Line_Gauss)-光条中心线提取(基于Hessian矩阵) 算法背景介绍 Hessian 矩阵与泰勒多项式 关于求t 导数与中心点.亚像素点 高斯函数作用 文献 算法背景介绍 ...

  6. 梯度之上:Hessian 矩阵

    原文链接:原文 文章目录 梯度之上:Hessian 矩阵 梯度.雅克比矩阵 海森矩阵 海森矩阵应用 梯度之上:Hessian 矩阵 本文讨论研究梯度下降法的一个有力的数学工具:海森矩阵.在讨论海森矩阵 ...

  7. 多元函数极值、Hessian矩阵、正定矩阵

    这篇笔记,来自我对支持向量机(SVM)算法原理的学习.支持向量机算法最终归结为二次规划问题,研究二次规划问题,必须先从一般的最优化问题开始分析.如无特别声明,本文最优化问题特指寻求目标函数最小值. 一 ...

  8. 协方差矩阵—Hessian矩阵—正定矩阵

    文章目录 一.基本概念 1.1 协方差矩阵 及推导 1.2 Hessian矩阵 1.3 Hessian矩阵 示例 1.3 正定矩阵定义及性质 1.4 正定矩阵 示例 一.基本概念 1.1 协方差矩阵 ...

  9. hessian矩阵特征值

    研究hessian矩阵去噪的过程中想了解下hessian矩阵特征值的意义及用法 Hessian矩阵的特征值:就是形容其在该点附近特征向量方向的凹凸性,特征值越大,凸性越强. 对于二维图像的某点的hes ...

最新文章

  1. 深入理解padding_idx(nn.Embedding、nn.Embedding.from_pretrained)
  2. 小的人工智能企业应如何解决算力服务器
  3. 切换器黑屏_机房的KVM切换器是什么,故障如何解决?
  4. dp凸优化/wqs二分学习笔记(洛谷4383 [八省联考2018]林克卡特树lct)
  5. ssm学习的第一个demo---crm(2)
  6. 摘抄 :methodology 怎么写
  7. 管理表空间和数据文件——维护表空间——设置默认表空间和删除表空间和删除数据文件盒临时文件...
  8. SpringBoot整合Shiro实现登录认证和授权CHCache
  9. linux weblogic 内存溢出,weblogic 安装升级补丁出现内存溢出问题解决
  10. PHP利用Mysql锁解决高并发
  11. Android 系统(153)--- M上默认接入点apn显示
  12. 中小卖家需要避开的三个坑
  13. linux docker状态,Linux之Docker
  14. 《linux核心应用命令速查》连载九:crontab:设置计时器
  15. Matlab------在Matlab中如何画圆
  16. 微管理——给你一个技术团队,你该怎么管
  17. 服装开源平台让女装血拼开始
  18. Apache ShenYu源码阅读系列-基于Http长轮询的数据同步
  19. 限流10万QPS、跨域、过滤器、令牌桶算法-网关Gateway内容乔哥都给你总结在这儿了...
  20. 关于修改ico图片位深度的方法

热门文章

  1. 计算机学习计划范文,【计算机学习计划范文】
  2. word插入图片,嵌入型,无效果
  3. 10. 检测域名是否到期
  4. 树(Tree)和二叉树
  5. 微信小程序获取地区code
  6. 【论文阅读】Federated Learning应用扩展合集
  7. 演化计算基准函数(Python版)
  8. Zeppelin-安装及使用
  9. 字节跳动无恒实验室首次亮相Black Hat 2021亚洲黑帽大会:全生命周期管理的隐私保护框架
  10. 怎样将语音文件转换成文字