东北大学最优化期末复习简答题总结

预备知识

极小点的判定条件

定理1（一阶必要条件）：设f:D⊆Rn→R1f:D \subseteq R^{n} \rightarrow R^{1}f:D⊆Rn→R1具有一阶连续偏导数，x∗x^{*}x∗是DDD的内点，若x∗x^{*}x∗是f(x)f(x)f(x)的局部极小点，则：

∇f(x∗)=0\nabla f(x^{*}) = 0 ∇f(x∗)=0

定理2（二阶必要条件）：设f:D⊆Rn→R1f:D \subseteq R^{n} \rightarrow R^{1}f:D⊆Rn→R1具有二阶连续偏导数，x∗x^{*}x∗是DDD的内点且为f(x)f(x)f(x)的局部极小点，则∇2f(x∗)\nabla^{2}f(x^{*})∇2f(x∗)是正半定的。
定理3（二阶必要条件）：设f:D⊆Rn→R1f:D \subseteq R^{n} \rightarrow R^{1}f:D⊆Rn→R1具有二阶连续偏导数，x∗x^{*}x∗是DDD的内点，且∇f(x∗)=0\nabla f(x^{*})=0∇f(x∗)=0，若∇2f(x∗)\nabla ^{2} f(x^{*})∇2f(x∗)正定，则x∗x^{*}x∗为f(x)f(x)f(x)的严格局部极小点。
定理4（二阶必要条件）：设f:D⊆Rn→R1f:D \subseteq R^{n} \rightarrow R^{1}f:D⊆Rn→R1具有二阶连续偏导数，x∗∈Rnx^{*} \in R^{n}x∗∈Rn且∇f(x∗)=0\nabla f(x^{*})=0∇f(x∗)=0，若存在x∗x^{*}x∗的领域N(x∗,δ)N(x^{*},\delta)N(x∗,δ)使对∀x∈N(x∗,δ)\forall x \in N(x^{*},\delta)∀x∈N(x∗,δ),都有∇2f(x)\nabla^{2} f(x)∇2f(x)半正定，则x∗x^{*}x∗为f(x)f(x)f(x)的局部极小点。
定理5：设f:D⊆Rn→R1f:D \subseteq R^{n} \rightarrow R^{1}f:D⊆Rn→R1为凸集DDD上的凸函数，则

(1)：f(x)f(x)f(x)的任一局部极小点x∗x^{*}x∗为全局极小点。

(2)：若f(x)f(x)f(x)可微，且存在x∗∈Dx^{*} \in Dx∗∈D，使∇f(x∗)=0\nabla f(x^{*})=0∇f(x∗)=0，则x∗x^{*}x∗为f(x)f(x)f(x)在DDD上的全局极小点；

(3)：若f(x)f(x)f(x)为严格凸函数，且全局极小点存在，则必唯一。

线性规划

最优性检验：
判别数σj\sigma_{j}σj：用非基变量表示目标函数式中，各非基变量的负系数，即称为各非基变量的判别数。

1 . 最优解判别定理：若在极小化问题中，对于某个基本容许解，所有判别数σj≤0\sigma_{j} \leq 0σj≤0，且人工变量为0，则该基本容许解是最优解。

2. 无穷多最优解判别定理：若在极小化问题中，对于某个基本容许解，所有判别数σj≤0\sigma_{j} \leq 0σj≤0，又存在某个非基变量的判别数为0，且人工变量为0，则该线性规划问题有无穷多最优解。

3. 无容许解判别定理：若在极小化问题中，对于某个基本容许解，所有判别数σj≤0\sigma_{j} \leq 0σj≤0，但人工变量不为0，则该线性规划问题无容许解。

4. 无有限最优解判别定理：若在极小化问题中，对于某个基本容许解，有一个非基变量的判别数σk>0\sigma_{k} >0σk>0，但pkp_{k}pk列中没有正元素，且人工变量为0，则该线性规划问题无有限最优解。

线性规划目标函数的等值面是 平行平面 。
(1) 用图解法求解下面问题；（2）将它化为标准线性规划问题.

max⁡z=x1+2x2{2x1+3x2≤6x1+x2≥1x2≥0\begin{aligned} \max z &=x_{1}+2 x_{2} \\ &\left\{\begin{aligned} 2 x_{1}+3 x_{2} & \leq 6 \\ x_{1}+x_{2} & \geq 1 \\ x_{2} & \geq 0 \end{aligned}\right.\end{aligned} maxz=x1+2x2⎩⎪⎨⎪⎧2x1+3x2x1+x2x2≤6≥1≥0

令x1=x3−x4x_{1}=x_{3}-x_{4}x1=x3−x4引入松弛变量x5x_{5}x5和剩余变量x6x_{6}x6，得标准形：

min⁡z=x3−x4+2x2\min z=x_{3}-x_{4}+2 x_{2} minz=x3−x4+2x2
2x3−2x4+3x2+x5=6x3−x4+x2−x6=1xj≥0,j=2,⋯,6\begin{aligned} 2 x_{3}-2 x_{4}+3 x_{2}+x_{5} &=6 \\ x_{3}-x_{4}+x_{2}-x_{6} &=1 \\ x_{j} \geq 0, j=2, \cdots, & 6 \end{aligned} 2x3−2x4+3x2+x5x3−x4+x2−x6xj≥0,j=2,⋯,=6=16

设一个求极小的线性规划的容许集D、目标函数的负梯度向量及初始点的位置如右图所示. 试在图上画出不少于3条等值线，及从初始点到最优点的迭代路径（要求标出各迭代点）.

要点: 求极小的线性规划目标函数为minf(x‾)=c‾Tx‾min f(\overline{x})=\overline{c}^{T}\overline{x}minf(x)=cTx:

则∇f(x⃗)=c⃗⇒−∇f(x⃗)=−c⃗\nabla f(\vec{x})=\vec{c} \Rightarrow-\nabla f(\vec{x})=-\vec{c}∇f(x)=c⇒−∇f(x)=−c。

凸规划极值判定条件

凸规划问题：非空凸集DDD上的凸函数的极小化问题。
凸函数(凹函数)的判定定理：

(1) f(x)f(x)f(x)在DDD内为凸函数⇔\Leftrightarrow⇔对∀x∈D\forall x \in D∀x∈D，∇2f(x)\nabla^{2}f(x)∇2f(x)是正半定的；

(2) f(x)f(x)f(x)在DDD内为凹函数⇔\Leftrightarrow⇔对∀x∈D\forall x \in D∀x∈D，∇2f(x)\nabla^{2}f(x)∇2f(x)是半负定的；

(3) 若∇2f(x)\nabla^{2}f(x)∇2f(x)正定，则f(x)f(x)f(x)在DDD内为严格凸函数。

无约束最优化方法

无约束最优化方法分为两大类：

一类是使用导数的方法，它是依据目标函数的梯度(即一阶导数)，有时还要根据Hesse矩阵(即二阶导数)所提供的信息而构造出来的方法，今后统称为导数方法。
另一类是不使用导数，仅仅利用目标函数的信息而构造出来的方法，今后统称为直接方法。像步长加速法。

两类方法各有利弊。前者收敛速度快，但需要计算梯度，甚至需要计算Hesse矩阵；后者不涉及导数，适应性强，但收敛速度较慢。

一般的经验是，在可以求得目标函数导数的情况下，尽可能使用前一类方法；不然的话就使用直接方法。

直接搜索的方法主要分为两类：一类为区间收缩法，另一类为函数逼近法。

最速下降法

锯齿现象出现的原因？：

最速下降法的迭代点在向极小点靠近的过程中，走的是曲折的路线：后一次搜索方向pk+1p_{k+1}pk+1与前一次搜索方向pkp_{k}pk总是相互垂直的。称它为锯齿现象。

在远离极小点的地方，每次迭代都有可能使目标函数值有较多的下降，但在接近极小点的地方，由于锯齿现象，每次迭代进行的距离变得越来越小，因而收敛速度不快。

Newton法

Newton法中用G(xk)(x−xk)=−g(xk)G(x_{k})(x-x_{k})=-g(x_{k})G(xk)(x−xk)=−g(xk)而未直接使用xk+1=xk−G(xk)−1g(xk)x_{k+1}=x_{k}-G(x_{k})^{-1}g(x_{k})xk+1=xk−G(xk)−1g(xk)的原因？

是因为前者的数值计算量比后者少很多，而且在编制程序时，前者也易于实现，甚至可以通过调用求解线性方程组的标准程序就可以实现。

如何修正Newton法？

由于目标函数的Hesse矩阵很难或不可能求出，这时不宜使用Newton法。

1. 如果Hesse矩阵奇异，取pk=−gkp_{k}=-g_{k}pk=−gk做直线搜索。

2. Hesse矩阵非奇异，这个时候需要考虑两点：方向是否为下降方向。步长因子总取1是不是有问题。

共轭梯度法(FR法)

F-R共轭梯度法是一种共轭方向法，具有二次终止性. 当目标函数为 3元正定二次函数，使用共轭梯度法至多迭代 3 次即可求到最优解。
tkt_{k}tk公式如何推导出来的？：

∇f(xk+1)=Qxk+1+b=Q(xk+tkpk)+b=∇f(x)+tkQpk\nabla f(x_{k+1})=Qx_{k+1}+b \\ = Q(x_{k}+t_{k}p_{k})+b \\ = \nabla f(x) + t_{k}Qp_{k} ∇f(xk+1)=Qxk+1+b=Q(xk+tkpk)+b=∇f(x)+tkQpk

等式两边同左乘以pkTp_{k}^{T}pkT从而得到tkt_{k}tk

共轭梯度法中α\alphaα公式如何推导出来的？：

pk+1=−gk+1+αpkp_{k+1}=-g_{k+1}+\alpha p_{k} pk+1=−gk+1+αpk

等式两边同右乘以Qpk−1Qp_{k-1}Qpk−1从而得到tkt_{k}tk，由∇f(xk+1)=∇f(x)+tkQpk\nabla f(x_{k+1})= \nabla f(x) + t_{k}Qp_{k}∇f(xk+1)=∇f(x)+tkQpk消去QQQ得到FR的α\alphaα。

共轭梯度法的优点？

共轭梯度法是收敛的，还有一个优点，就是存储量小，不涉及矩阵，仅仅存放向量，因此适用于维数较高的最优化问题。共轭梯度法不需要精确的直线搜索。

共轭梯度法的缺点？

不精确的直线搜索可能导致迭代出来的向量不再共轭，从而不再线性无关。这将降低方法的效能，克服的办法是重设初始点，即把经过n+1n+1n+1次迭代后得到的xn+1x_{n+1}xn+1作为初始点，再开始新一轮的迭代。

DFP法(拟Newton法)

DFP所解决的问题？

Newton法中每次迭代都要计算目标函数的Hesse矩阵和它的逆(或等价地求解一个线性方程组)所需计算量有n3n^{3}n3数量级那么大。当问题的维数nnn增大时，计算量将迅速增加，从而抵消了Newton法的优点。

步长加速法

步长加速法主要包括 探测搜索 和 模式移动 。如果有f(b‾k)<f(b‾k−1)f(\overline{b}_{k}) < f(\overline{b}_{k-1})f(bk)<f(bk−1)，则说明b‾k−b‾k−1\overline{b}_{k}-\overline{b}_{k-1}bk−bk−1是b‾k\overline{b}_{k}bk处 的 更有利的下降 方向。
步长加速法主要由 探测搜索 和 模式移动 组成，探测分 I型探测 和 II型探测。 I型探测失败，就开始 缩小步长 . 如果 II型 探测未能产生下降模式，那么上次的 模式移动 就作废，此时把上一个基点作为 参考点 ，然后又开始 I型探测.

约束最优化方法

KT条件

下图表示约束极小化问题minf(x)min f(x)minf(x)，RRR表示容许域, (1) 在图中画出点x‾1\overline{x}_{1}x1, x‾2\overline{x}_{2}x2的所有起作用约束函数的梯度方向; (2) x‾1\overline{x}_{1}x1, x‾2\overline{x}_{2}x2是否K-T点?

x‾1\overline{x}_{1}x1 , 是K-T点； x‾2\overline{x}_{2}x2不是K-T点。

Z容许法

Z-容许方向法的3个主要过程是 ①确定当前迭代点的 下降容许方向 ；②通过 直线搜索 确定 下一个迭代点 ；③判定新的迭代点 是否为问题的解。
简述迭代格式x‾k+1=x‾k+tkp‾k\overline{x}_{k+1}=\overline{x}_{k}+t_{k}\overline{p}_{k}xk+1=xk+tkpk对于Z-容许方向法与最速下降法的区别:

区别：(1)：最速下降法：pkp_{k}pk为最速下降方向，最佳步长因子：

tk:f(xk+tkpk)=min⁡tf(xk+tpk)t_{k}: f\left(x_{k}+t_{k} p_{k}\right)=\min _{t} f\left(x_{k}+t p_{k}\right) tk:f(xk+tkpk)=tminf(xk+tpk)

或无上界

(2)： Z-容许方向法: 为容许下降方向, 最佳步长因子

tk:f(xˉk+tkp⃗k)=min⁡0≤t<t~f(x⃗k+tp⃗k)t_{k}: f\left(\bar{x}_{k}+t_{k} \vec{p}_{k}\right)=\min _{0 \leq t<\tilde{t}} f\left(\vec{x}_{k}+t \vec{p}_{k}\right) tk:f(xˉk+tkpk)=0≤t<t~minf(xk+tpk)

或有上界

Z-容许方向法的迭代终止准则是什么？

i）xxx是容许点；

ii）A=[A′A′′],b=[b′b′′]A=\left[\begin{array}{c}{A^{\prime}} \\ {A^{\prime \prime}}\end{array}\right], \quad b=\left[\begin{array}{l}{b^{\prime}} \\ {b^{\prime \prime}}\end{array}\right]A=[A′A′′],b=[b′b′′]，使得A′x=b′A^{'}x=b^{'}A′x=b′，A′′x>b′′A^{''}x > b^{''}A′′x>b′′；

iii）p∗p^{*}p∗是线性规划问题的最优解。

min⁡z=∇f(x)Tp{A′p≥0Cp=0−e≤p≤e\begin{aligned} \min z &=\nabla f(x)^{\mathrm{T}} p \\ &\left\{\begin{array}{c}{A^{\prime} p \geq 0} \\ {C p} & {=0} \\ {-e \leq p \leq e}\end{array}\right.\end{aligned} minz=∇f(x)Tp⎩⎨⎧A′p≥0Cp−e≤p≤e=0

则点xxx为K-T点的充要条件是∇f(x)Tp∗=0\nabla f(x)^{T} p^{*} = 0∇f(x)Tp∗=0。

罚函数

乘子法中的罚因子与外部罚函数法中的罚因子的本质区别是：是否要求趋于无穷 .
外部罚函数法的惩罚方式是针对 非容许 点惩罚，而对容许点不予惩罚。罚因子的特点是 随着迭代次数的增加罚因子越来越大, 数值计算的稳定性越来越差 。
乘子法是外部罚函数法的改进方法，改进之处 是在约束问题的拉格朗日函数中加入相应的惩罚 ，使得乘子法的罚因子 不必趋于无穷大就能求到约束问题的最优解 ，保证数值计算的稳定性。
简述外部罚函数法的罚思想. 乘子法是外部罚函数法的改进方法，简述该“改进”的本质：

所谓的罚函数，它的特点是根据问题的约束函数和目标函数构造一个具有惩罚效果的目标函数序列，从而把对约束问题的求解过程中企图违反约束的那些迭代点给予很大的目标函数值，迫使这一系列无约束问题的极小点(即迭代点)或者无限地向容许集靠近，或者一直保持在容许集内移动，直到收敛到约束问题的极小点。

乘子法是外部惩罚函数的一种改进方法，其惩罚方式是在约束问题的Lagrange函数中加入相应的惩罚，从而既能保证迭代点会收敛到约束问题的极小点，还能保证数值计算的稳定性。