Levenberg-Marquardt算法浅谈

码字不易，转发请注明原文链接

一般来说我们利用牛顿法来求f(x)=0的解。求解方法如下：
先对f(x)一阶泰勒展开：
f(x0+Δ)=f(x0)+f′(x0)Δ=0(1)f(x_0+\Delta)=f(x_0)+f'(x_0)\Delta=0　　　　(1)f(x0+Δ)=f(x0)+f′(x0)Δ=0　　　　(1)
其中 Δ=x−x0\Delta=x-x_0Δ=x−x0, 所以我们有
Δ=x−x0=−f(x0)f′(x0),即x=x0−f(x0)f′(x0)(2)\Delta=x-x_0=-\frac{f(x_0)}{f'(x_0)},即x=x_0-\frac{f(x_0)}{f'(x_0)}　　　　(2)Δ=x−x0=−f′(x0)f(x0),即x=x0−f′(x0)f(x0)　　　　(2)

由式(2)可知，当 Δ\DeltaΔ 非常小时，我们可将 f(x)=0f(x)=0f(x)=0 的解析解近似于 x0x_0x0。但是由上图可知 x0x_0x0 是任意的初始值，所以可能会导致初始 Δ\DeltaΔ 非常大，因此可采用牛顿迭代公式逐步逼近解析解：
xn=xn−1−f(xn−1)f′(xn−1),until∣xn−xn−1∣<ϵ(3)x_n=x_{n-1}-\frac{f(x_{n-1})}{f'(x_{n-1})} ,\ until\ \ |x_n-x_{n-1}|< \epsilon　　　　(3)xn=xn−1−f′(xn−1)f(xn−1), until ∣xn−xn−1∣<ϵ　　　　(3)
接下来求解最优化问题minf(x)(4)min　f(x)　　　　(4)min　f(x)　　　　(4)
牛顿法首先则是将问题转化为求 f′(x)=0(5)f'(x) = 0 　　　　(5)f′(x)=0　　　　(5)这个方程的根。
一阶展开：f′(x)≈f′(x0)+(x－x0)f′′(x0)(6)f '(x) ≈ f '(x_0)+(x－x_0)f ''(x0)　　　　(6)f′(x)≈f′(x0)+(x－x0)f′′(x0)　　　　(6)
令 f′(x0)+(x－x0)f′′(x0)=0(7)f'(x_0)+(x－x_0)f ''(x_0) = 0 　　　　(7)f′(x0)+(x－x0)f′′(x0)=0　　　　(7)
求解得到x，相比于x0，f(x)<f(x0)(8)求解得到x，相比于x_0，f (x)<f(x0)　　　　(8)求解得到x，相比于x0，f(x)<f(x0)　　　　(8)

高斯牛顿法

由式(3)和式(7)可知，高维牛顿法解最优化问题又可写成：
Xn+1=Xn−Hf(xn)−1∇f(xn)(12)X_{n+1}=X_n-H_f(x_n)^{-1}\nabla f(x_n)　　　　(12)Xn+1=Xn−Hf(xn)−1∇f(xn)　　　　(12)

注：

雅可比矩阵代替了低维情况中的一阶导

Hessian矩阵代替了二阶导

求逆代替了除法

例：不妨设目标函数为：
s(x)=∑i=0nf2(xi)(13)s(x)=\sum_{i=0}^nf^2(x_i)　　　　(13)s(x)=i=0∑nf2(xi)　　　　(13)
所以梯度向量在方向上的分量：
gj=2∑i=0nfi∂fi∂xj(14)g_j=2\sum_{i=0}^nf_i\frac{\partial f_i}{\partial x_j}　　　　(14)gj=2i=0∑nfi∂xj∂fi　　　　(14)
Hessian 矩阵的元素则直接在梯度向量的基础上求导：
Hjk=2∑i=0n(∂fi∂xj∂fi∂xk+fi∂2fi∂xj∂xk)(15)H_{jk}=2\sum_{i=0}^n (\frac{\partial f_i}{\partial x_j}\frac{\partial f_i}{\partial x_k}+ f_i\frac{\partial^2 f_i}{\partial x_j\partial x_k})　　　　(15)Hjk=2i=0∑n(∂xj∂fi∂xk∂fi+fi∂xj∂xk∂2fi)　　　　(15)
高斯牛顿法的一个小技巧是，将二次偏导省略，于是：
Hjk≈2∑i=0nJijJik(16)H_jk\approx2\sum_{i=0}^nJ_{ij}J_{ik}　　　　(16)Hjk≈2i=0∑nJijJik　　　　(16)
其中 Jij表示雅可比矩阵的i行j列J_{ij} 表示雅可比矩阵的i行j列Jij表示雅可比矩阵的i行j列。需要注意的是，式(10) 的雅可比矩阵只有一行是因为它只有一个多维函数f(x0,x1,...,xn)f(x_0,x_1,...,x_n)f(x0,x1,...,xn)。而在式(15)中他有 n+1n+1n+1 个多维函数：f0(x0,x1,...,xn),f1(x0,x1,...,xn),...,fn(x0,x1,...,xn)f_0(x_0,x_1,...,x_n),f_1(x_0,x_1,...,x_n),...,f_n(x_0,x_1,...,x_n)f0(x0,x1,...,xn),f1(x0,x1,...,xn),...,fn(x0,x1,...,xn). 所以它的雅可比矩阵为：

Jf=[∂f0∂x0⋯∂f0∂xn⋮⋱⋮∂fn∂x0⋯∂fn∂xn](17)J_f=\begin{bmatrix} \frac{\partial f_0}{\partial x_0}&\cdots&\frac{\partial f_0}{\partial x_n}\\ \vdots&\ddots&\vdots\\ \frac{\partial f_n}{\partial x_0}&\cdots&\frac{\partial f_n}{\partial x_n} \end{bmatrix}　　　　(17)Jf=⎣⎢⎡∂x0∂f0⋮∂x0∂fn⋯⋱⋯∂xn∂f0⋮∂xn∂fn⎦⎥⎤　　　　(17)

将(14)(16)改写成矩阵相乘形式：
g=2JfTf(18)g=2J_f^Tf　　　　(18)g=2JfTf　　　　(18)
H≈2JfTJf(19)H\approx2J_f^TJ_f　　　　(19)H≈2JfTJf　　　　(19)
代入牛顿法高维迭代方程的基本形式，得到高斯牛顿法迭代方程：
xs+1=xs+Δ,其中Δ=−(JfTJf)−1JfTf(20)x^{s+1}=x^s+\Delta,其中\Delta=-(J_f^TJ_f)^{-1}J_f^Tf　　　　(20)xs+1=xs+Δ,其中Δ=−(JfTJf)−1JfTf　　　　(20)