内容导读:
1.最大似然法
2.最小二乘法
3.最大后验法
4.最大似然法和最小二乘法的统一
5.最大似然法和最大后验法的关系

一.最大似然法

最大似然法认为,我们多次观察到的结果就是最可能发生的结果,如我们抛一百次硬币,前99次抛的都是带数字的一面朝上,假定带数字面为正面,那么第100次抛硬币时,正面朝上的概率是多少呢?
按照正常概率来讲,如果此硬币是正常硬币,那么第100次抛出时正面朝上的概率为1/2;
然而在最大似然法中,前99次抛出的都是正面朝上,那么第100次抛出时,正面朝上的概率则为1.
即,最大似然法认为,我们观察到的样本概率最大参数即为整体分布的参数.
在上次的LR文章中,我们知道了最大似然的假设函数为: P(y∣x;θ)=hθ(x)y(1−hθ(x))1−yP(y∣x;θ)=h _{θ} (x) ^{y} (1−h θ (x)) ^{1−y}P(y∣x;θ)=hθ(x)y(1−hθ(x))1−y
其损失函数L(θ)=log⁡P(Y∣X,θ)=∑ilog⁡P(yi∣xi,θ)L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta)L(θ)=logP(Y∣X,θ)=∑ilogP(yi∣xi,θ)

二.最小二乘法

最小二乘法是数学家高斯在预测行星轨道时提出的。
它的核心思想是：构造误差平方和函数，对其求偏导，让误差平方和函数取得最小值的参数就是模型参数。
最小二乘法本质上是一种参数估计方法，它既可以用于线性回归模型的参数估计，也可以用于非线性回归模型(如曲线模型)的参数估计中。可以说最小二乘法=最小误差平方和参数估计方法，但最小二乘法≠线性回归。

三.最大后验法

前期中,我们讲过最小二乘法正则化的两种形式:
L1正则下的最小二乘估计:是曼哈顿距离的最优解，也称Lasso回归：

min⁡θ∑i(yi−fθ(xi))2+λ∣θ∣\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda|\theta|}}minθ∑i(yi−fθ(xi))2+λ∣θ∣

L2正则下的最小二乘估计:是欧式距离的最优解，也称Ridge回归：

min⁡θ∑i(yi−fθ(xi))2+λθ2\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda\theta^2}}minθ∑i(yi−fθ(xi))2+λθ2

Ridge是高斯先验下的最大后验估计，而Lasso是拉普拉斯先验下的最大后验估计。
对于Ridge回归的目标函数，看起来特别像带限制条件的凸优化问题进行拉格朗日变换之后的结果。因此我们反向变回去，还原成带限制条件的凸优化问题，那么就是

min⁡θ∑i(yi−fθ(xi))2且θ2≤r\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 \theta^2 \le rminθ∑i(yi−fθ(xi))2且θ2≤r

同理，Lasso回归可以变化为

min⁡θ∑i(yi−fθ(xi))2且∣θ∣≤r\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 |\theta|\le rminθ∑i(yi−fθ(xi))2且∣θ∣≤r
用图像表示为:

左图为Ridge回归,右图为Lasso回归.

四.最大似然法和最小二乘法的统一

我们知道，模型的似然函数是

L(θ)=log⁡P(Y∣X,θ)=∑ilog⁡P(yi∣xi,θ)L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta)L(θ)=logP(Y∣X,θ)=∑ilogP(yi∣xi,θ)

同时，有 yi∼N(fθ(xi),σ2)y_{i} \sim {N}(f_\theta(x_{i}), \sigma^{2}) yi∼N(fθ(xi),σ2)
那么可以得到

L(θ)=−12σ2∑i(yi−fθ(xi))2−Nlog⁡σ−N2log⁡2πL(\theta)= -\frac{1}{2\sigma^2}\sum_{i}(y_i-f_\theta(x_i))^2-N\log\sigma-\frac{N}{2}\log2\piL(θ)=−2σ21∑i(yi−fθ(xi))2−Nlogσ−2Nlog2π

因此，去掉后面两项不包含 θ\thetaθ的常数项，模型参数 θ\thetaθ 的最大似然估计 max⁡θL(θ)\max_\theta {L(\theta)}maxθL(θ) ，
就等价于最小二乘估计 min⁡θ∑i(yi−fθ(xi))2\min_\theta {\sum_i(y_i-f_\theta(x_i))^2}minθ∑i(yi−fθ(xi))2

即在总体或样本参数服从于正态分布的情况下,最大似然法和最小二乘法会趋于统一.
最小二乘（Least Square）的解析解可以用Gaussian分布以及最大似然估计求得

五.最大似然法和最大后验法的关系

f(x)=∑j=1dxjwj+ε=xwT+εf(x)=\sum\limits_{j=1}^d{{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilonf(x)=j=1∑dxjwj+ε=xwT+ε

其中x∈R1×d,w∈R1×dx\in{R^{1{\times}{d}}},w\in{R^{1{\times}{d}}}x∈R1×d,w∈R1×d,误差ε∈R\varepsilon{\in}{R}ε∈R

当前已知X=(x1...xn)T∈Rn×d,y∈Rn×1X={({x_1}...{x_n})^T}{\in}{R^{n{\times}{d}}},y{\in}{R^{n{\times}{1}}}X=(x1...xn)T∈Rn×d,y∈Rn×1,如何求w呢?
1.假设εi∼N(0,σ2)，wi∼N(0,τ2){\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2})，{w_i}{\sim}N(0,{\tau^2})εi∼N(0,σ2)，wi∼N(0,τ2)，那么用最大后验估计推导：

arg⁡max⁡wL(w)=ln⁡∏i=1n12πσexp⁡(−12(yi−xiwTσ)2).∏j=1d12πτexp⁡(−12(wjτ)2)−−−−(12)\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{\sqrt{2\pi}\tau}}\exp}(-\frac{1}{2}{(\frac{{{w_j}}}{\tau})^2}) ---- (12)argmaxwL(w)=lni=1∏n2πσ1exp(−21(σyi−xiwT)2).j=1∏d2πτ1exp(−21(τwj)2)−−−−(12)

arg⁡max⁡wL(w)=−12σ2∑i=1n(yi−xiwT)2−12τ2∑j=1dwj2−nln⁡σ2π−dln⁡τ2π−−−−(13)\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}----(13) argmaxwL(w)=−2σ21i=1∑n(yi−xiwT)2−2τ21j=1∑dwj2−nlnσ2π−dlnτ2π−−−−(13)

arg⁡min⁡wf(w)=∑i=1n(yi−xiwT)2+λ∑j=1dwj2=∣∣y−XwT∣∣22+λ∣∣w∣∣22−−−−(14)\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2----(14)argminwf(w)=i=1∑n(yi−xiwT)2+λj=1∑dwj2=∣∣y−XwT∣∣22+λ∣∣w∣∣22−−−−(14)

公式(14)式就是Ridge回归.

2.假设εi∼N(0,σ2)，wi∼Lapace(0,b){\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2})，{w_i}{\sim}Lapace(0,b)εi∼N(0,σ2)，wi∼Lapace(0,b)，同样采用后验估计推导：

arg⁡max⁡wL(w)=ln⁡∏i=1n12πσexp⁡(−12(yi−xiwTσ)2).∏j=1d12bexp⁡(−∣wj∣τ)−−−−(15)\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{2b}}\exp}(-\frac{{\left|{{w_j}}\right|}}{\tau}) ----(15)argmaxwL(w)=lni=1∏n2πσ1exp(−21(σyi−xiwT)2).j=1∏d2b1exp(−τ∣wj∣)−−−−(15)

arg⁡max⁡wL(w)=−12σ2∑i=1n(yi−xiwT)2−12τ2∑j=1d∣wj∣−nln⁡σ2π−dln⁡τ2π−−−−(16)\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}} ---- (16)argmaxwL(w)=−2σ21i=1∑n(yi−xiwT)2−2τ21j=1∑d∣wj∣−nlnσ2π−dlnτ2π−−−−(16)

arg⁡min⁡wf(w)=∑i=1n(yi−xiwT)2+λ∑j=1d∣wj∣=∣∣y−XwT∣∣22+λ∣∣w∣∣1−−−−(17)\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}----(17)argminwf(w)=i=1∑n(yi−xiwT)2+λj=1∑d∣wj∣=∣∣y−XwT∣∣22+λ∣∣w∣∣1−−−−(17)

公式（17）为Lasso回归.

最大似然法和最小二乘法,最大后验法之间的关系相关推荐

离散正(余)弦信号的时域与FFT变换后所得频域之间的关系（幅值和相角）
正弦信号在信号处理中是很常见的,比如通信领域的载波.由于正弦与余弦只是相差π/2的初相,因此这里统称正弦信号.给出连续正弦信号的表达式: 式中,A为振幅,Ω为模拟角频率(rad/s),φ为初相,f为模 ...
概率论：先验与后验与似然
1.我自己的理解 1.1 从时间角度理解: a.先验:根据以往的经验或者常识,总结当前事情发生某种结果的概率,又或者说是没有根据当前的事实,而只是对以往理论的研究进行推导,类似于选举中,专家在没有对当 ...
机器学习中的先验、后验和似然
机器学习中的先验.后验和似然的概念理解 1.我自己的理解: 1)先验:统计历史上的经验而知当下发生的概率: 2)后验:当下由因及果的概率: 2.网上有个例子说的透彻: 1)先验--根据若干年的统计(经 ...
一致先验分布后验分布_先验分布、后验分布、似然估计这几个概念是什么意思，它们之间的关系是什么？...
作为吃瓜群众,尝试回答下. 用"瓜熟蒂落"这个因果例子,从概率(probability)的角度说一下, 先验概率,就是常识.经验所透露出的"因"的概率,即瓜熟的 ...
最小二乘,最大似然,最大后验,查准率与查全率
最小二乘,最大似然,都带有最字,那他们之间有什么关系呢? 一.最大似然定义: 最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法. 最 ...
我们能从后验分布中学到什么?贝叶斯后验的频率解释
假设我们从未知分布 q 中观察到 N 个独立且同分布的 (iid) 样本 X = (x1, - , xN).统计学中的一个典型问题是"样本集 X 能告诉我们关于分布 q 的什么信息?&quo ...
最大后验（Maximum a Posteriori，MAP）概率估计详解
最大后验(Maximum A Posteriori,MAP)概率估计注:阅读本文需要贝叶斯定理与最大似然估计的部分基础最大后验(Maximum A Posteriori,MAP)估计可以利用经 ...
概率统计16——均匀分布、先验与后验
相关阅读: 最大似然估计(概率10) 重要公式(概率4) 概率统计13--二项分布与多项分布贝叶斯决策理论(1)基础知识 | 数据来自于一个不完全清楚的过程-- 均匀分布简单来说,均匀分布是指事件 ...
lyapunov指数求取时运用qr法与jacobi法之间的区别与联系【基于matlab的动力学模型学习笔记_10】
在进行lyapunov指数的求取时,需要知道离散动力学系统对应Jacobi矩阵的特征值,qr法与Jacobi法都可以求解矩阵特征值,其中qr法求解的是矩阵所有特征值,而Jacobi法求解的是矩阵的最大 ...

最大似然法和最小二乘法,最大后验法之间的关系