内容导读:
1.最大似然法
2.最小二乘法
3.最大后验法
4.最大似然法和最小二乘法的统一
5.最大似然法和最大后验法的关系

一.最大似然法

最大似然法认为,我们多次观察到的结果就是最可能发生的结果,如我们抛一百次硬币,前99次抛的都是带数字的一面朝上,假定带数字面为正面,那么第100次抛硬币时,正面朝上的概率是多少呢?
按照正常概率来讲,如果此硬币是正常硬币,那么第100次抛出时正面朝上的概率为1/2;
然而在最大似然法中,前99次抛出的都是正面朝上,那么第100次抛出时,正面朝上的概率则为1.
即,最大似然法认为,我们观察到的样本概率最大参数即为整体分布的参数.
在上次的LR文章中,我们知道了最大似然的假设函数为: P(y∣x;θ)=hθ(x)y(1−hθ(x))1−yP(y∣x;θ)=h _{θ} (x) ^{y} (1−h θ (x)) ^{1−y}P(y∣x;θ)=hθ​(x)y(1−hθ(x))1−y
其损失函数L(θ)=log⁡P(Y∣X,θ)=∑ilog⁡P(yi∣xi,θ)L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta)L(θ)=logP(Y∣X,θ)=∑i​logP(yi​∣xi​,θ)

二.最小二乘法

最小二乘法是数学家高斯在预测行星轨道时提出的。
它的核心思想是:构造误差平方和函数,对其求偏导,让误差平方和函数取得最小值的参数就是模型参数。
最小二乘法本质上是一种参数估计方法,它既可以用于线性回归模型的参数估计,也可以用于非线性回归模型(如曲线模型)的参数估计中。可以说最小二乘法=最小误差平方和参数估计方法,但最小二乘法≠线性回归。

三.最大后验法

前期中,我们讲过最小二乘法正则化的两种形式:
L1正则下的最小二乘估计:是曼哈顿距离的最优解,也称Lasso回归:

min⁡θ∑i(yi−fθ(xi))2+λ∣θ∣\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda|\theta|}}minθ​∑i​(yi​−fθ​(xi​))2+λ∣θ∣

L2正则下的最小二乘估计:是欧式距离的最优解,也称Ridge回归:

min⁡θ∑i(yi−fθ(xi))2+λθ2\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2+\lambda\theta^2}}minθ​∑i​(yi​−fθ​(xi​))2+λθ2

Ridge是高斯先验下的最大后验估计,而Lasso是拉普拉斯先验下的最大后验估计。
对于Ridge回归的目标函数,看起来特别像带限制条件的凸优化问题进行拉格朗日变换之后的结果。因此我们反向变回去,还原成带限制条件的凸优化问题,那么就是

min⁡θ∑i(yi−fθ(xi))2且θ2≤r\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 \theta^2 \le rminθ​∑i​(yi​−fθ​(xi​))2且θ2≤r

同理,Lasso回归可以变化为

min⁡θ∑i(yi−fθ(xi))2且∣θ∣≤r\min_{\theta} {\sum_i{(y_i-f_\theta(x_i))^2}} 且 |\theta|\le rminθ​∑i​(yi​−fθ​(xi​))2且∣θ∣≤r
用图像表示为:

左图为Ridge回归,右图为Lasso回归.

四.最大似然法和最小二乘法的统一

我们知道,模型的似然函数是

L(θ)=log⁡P(Y∣X,θ)=∑ilog⁡P(yi∣xi,θ)L(\theta)=\log P(Y|X, \theta)=\sum_{i}\log P(y_i|x_i,\theta)L(θ)=logP(Y∣X,θ)=∑i​logP(yi​∣xi​,θ)

同时,有 yi∼N(fθ(xi),σ2)y_{i} \sim {N}(f_\theta(x_{i}), \sigma^{2}) yi​∼N(fθ​(xi​),σ2)
那么可以得到

L(θ)=−12σ2∑i(yi−fθ(xi))2−Nlog⁡σ−N2log⁡2πL(\theta)= -\frac{1}{2\sigma^2}\sum_{i}(y_i-f_\theta(x_i))^2-N\log\sigma-\frac{N}{2}\log2\piL(θ)=−2σ21​∑i​(yi​−fθ​(xi​))2−Nlogσ−2N​log2π

因此,去掉后面两项不包含 θ\thetaθ的常数项,模型参数 θ\thetaθ 的最大似然估计 max⁡θL(θ)\max_\theta {L(\theta)}maxθ​L(θ) ,
就等价于最小二乘估计 min⁡θ∑i(yi−fθ(xi))2\min_\theta {\sum_i(y_i-f_\theta(x_i))^2}minθ​∑i​(yi​−fθ​(xi​))2

在总体或样本参数服从于正态分布的情况下,最大似然法和最小二乘法会趋于统一.
最小二乘(Least Square)的解析解可以用Gaussian分布以及最大似然估计求得

五.最大似然法和最大后验法的关系

f(x)=∑j=1dxjwj+ε=xwT+εf(x)=\sum\limits_{j=1}^d{{x_j}{w_j}+\varepsilon}=x{w^T}+\varepsilonf(x)=j=1∑d​xj​wj​+ε=xwT+ε

其中x∈R1×d,w∈R1×dx\in{R^{1{\times}{d}}},w\in{R^{1{\times}{d}}}x∈R1×d,w∈R1×d,误差ε∈R\varepsilon{\in}{R}ε∈R

当前已知X=(x1...xn)T∈Rn×d,y∈Rn×1X={({x_1}...{x_n})^T}{\in}{R^{n{\times}{d}}},y{\in}{R^{n{\times}{1}}}X=(x1​...xn​)T∈Rn×d,y∈Rn×1,如何求w呢?
1.假设εi∼N(0,σ2),wi∼N(0,τ2){\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}),{w_i}{\sim}N(0,{\tau^2})εi​∼N(0,σ2),wi​∼N(0,τ2),那么用最大后验估计推导:

arg⁡max⁡wL(w)=ln⁡∏i=1n12πσexp⁡(−12(yi−xiwTσ)2).∏j=1d12πτexp⁡(−12(wjτ)2)−−−−(12)\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{\sqrt{2\pi}\tau}}\exp}(-\frac{1}{2}{(\frac{{{w_j}}}{\tau})^2}) ---- (12)argmaxw​L(w)=lni=1∏n​2π​σ1​exp(−21​(σyi​−xi​wT​)2).j=1∏d​2π​τ1​exp(−21​(τwj​​)2)−−−−(12)

arg⁡max⁡wL(w)=−12σ2∑i=1n(yi−xiwT)2−12τ2∑j=1dwj2−nln⁡σ2π−dln⁡τ2π−−−−(13)\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{{w_j}^2-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}}----(13) argmaxw​L(w)=−2σ21​i=1∑n​(yi​−xi​wT)2−2τ21​j=1∑d​wj​2−nlnσ2π​−dlnτ2π​−−−−(13)

arg⁡min⁡wf(w)=∑i=1n(yi−xiwT)2+λ∑j=1dwj2=∣∣y−XwT∣∣22+λ∣∣w∣∣22−−−−(14)\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{w_j^2}=||y-X{w^T}||_2^2+\lambda||w||_2^2----(14)argminw​f(w)=i=1∑n​(yi​−xi​wT)2+λj=1∑d​wj2​=∣∣y−XwT∣∣22​+λ∣∣w∣∣22​−−−−(14)

公式(14)式就是Ridge回归.

2.假设εi∼N(0,σ2),wi∼Lapace(0,b){\varepsilon_i}\sim{\rm{N}}(0,{\sigma^2}),{w_i}{\sim}Lapace(0,b)εi​∼N(0,σ2),wi​∼Lapace(0,b),同样采用后验估计推导:

arg⁡max⁡wL(w)=ln⁡∏i=1n12πσexp⁡(−12(yi−xiwTσ)2).∏j=1d12bexp⁡(−∣wj∣τ)−−−−(15)\arg{\max{_w}}L(w)=\ln\prod\limits_{i=1}^n{\frac{1}{{\sqrt{2\pi}\sigma}}}\exp(-\frac{1}{2}{(\frac{{{y_i}-{x_i}{w^T}}}{\sigma})^2}).\prod\limits_{j=1}^d{\frac{1}{{2b}}\exp}(-\frac{{\left|{{w_j}}\right|}}{\tau}) ----(15)argmaxw​L(w)=lni=1∏n​2π​σ1​exp(−21​(σyi​−xi​wT​)2).j=1∏d​2b1​exp(−τ∣wj​∣​)−−−−(15)

arg⁡max⁡wL(w)=−12σ2∑i=1n(yi−xiwT)2−12τ2∑j=1d∣wj∣−nln⁡σ2π−dln⁡τ2π−−−−(16)\arg{\max{_w}}L(w)=-\frac{1}{{2{\sigma^2}}}\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}-\frac{1}{{2{\tau^2}}}\sum\limits_{j=1}^d{\left|{{w_j}}\right|-n\ln\sigma\sqrt{2\pi}}-d\ln\tau\sqrt{2\pi}} ---- (16)argmaxw​L(w)=−2σ21​i=1∑n​(yi​−xi​wT)2−2τ21​j=1∑d​∣wj​∣−nlnσ2π​−dlnτ2π​−−−−(16)

arg⁡min⁡wf(w)=∑i=1n(yi−xiwT)2+λ∑j=1d∣wj∣=∣∣y−XwT∣∣22+λ∣∣w∣∣1−−−−(17)\arg{\min{_w}}f(w)=\sum\limits_{i=1}^n{{{({y_i}-{x_i}{w^T})}^2}}+\lambda\sum\limits_{j=1}^d{\left|{{w_j}}\right|}=||y-X{w^T}||_2^2+\lambda||w|{|_1}----(17)argminw​f(w)=i=1∑n​(yi​−xi​wT)2+λj=1∑d​∣wj​∣=∣∣y−XwT∣∣22​+λ∣∣w∣∣1​−−−−(17)

公式(17)为Lasso回归.

最大似然法和最小二乘法,最大后验法之间的关系相关推荐

  1. 离散正(余)弦信号的时域与FFT变换后所得频域之间的关系(幅值和相角)

    正弦信号在信号处理中是很常见的,比如通信领域的载波.由于正弦与余弦只是相差π/2的初相,因此这里统称正弦信号.给出连续正弦信号的表达式: 式中,A为振幅,Ω为模拟角频率(rad/s),φ为初相,f为模 ...

  2. 概率论:先验与后验与似然

    1.我自己的理解 1.1 从时间角度理解: a.先验:根据以往的经验或者常识,总结当前事情发生某种结果的概率,又或者说是没有根据当前的事实,而只是对以往理论的研究进行推导,类似于选举中,专家在没有对当 ...

  3. 机器学习中的先验、后验和似然

    机器学习中的先验.后验和似然的概念理解 1.我自己的理解: 1)先验:统计历史上的经验而知当下发生的概率: 2)后验:当下由因及果的概率: 2.网上有个例子说的透彻: 1)先验--根据若干年的统计(经 ...

  4. 一致 先验分布 后验分布_先验分布、后验分布、似然估计这几个概念是什么意思,它们之间的关系是什么?...

    作为吃瓜群众,尝试回答下. 用"瓜熟蒂落"这个因果例子,从概率(probability)的角度说一下, 先验概率,就是常识.经验所透露出的"因"的概率,即瓜熟的 ...

  5. 最小二乘,最大似然,最大后验,查准率与查全率

    最小二乘,最大似然,都带有最字,那他们之间有什么关系呢? 一.最大似然 定义: 最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法. 最 ...

  6. 我们能从后验分布中学到什么?贝叶斯后验的频率解释

    假设我们从未知分布 q 中观察到 N 个独立且同分布的 (iid) 样本 X = (x1, - , xN).统计学中的一个典型问题是"样本集 X 能告诉我们关于分布 q 的什么信息?&quo ...

  7. 最大后验(Maximum a Posteriori,MAP)概率估计详解

    最大后验(Maximum A Posteriori,MAP)概率估计 注:阅读本文需要贝叶斯定理与最大似然估计的部分基础   最大后验(Maximum A Posteriori,MAP)估计可以利用经 ...

  8. 概率统计16——均匀分布、先验与后验

    相关阅读: 最大似然估计(概率10) 重要公式(概率4) 概率统计13--二项分布与多项分布 贝叶斯决策理论(1)基础知识 | 数据来自于一个不完全清楚的过程-- 均匀分布 简单来说,均匀分布是指事件 ...

  9. lyapunov指数求取时运用qr法与jacobi法之间的区别与联系【基于matlab的动力学模型学习笔记_10】

    在进行lyapunov指数的求取时,需要知道离散动力学系统对应Jacobi矩阵的特征值,qr法与Jacobi法都可以求解矩阵特征值,其中qr法求解的是矩阵所有特征值,而Jacobi法求解的是矩阵的最大 ...

最新文章

  1. OpenCV 贝叶斯分类器示例
  2. 计算机从网络上启动,如何设置计算机以从网络驱动器启动
  3. 前端篇--------1.css学习笔记
  4. JS实现Echarts的图表保存为图片功能
  5. Spring Boot 内置Tomcat——集成PHP解决方案
  6. YBTOJ洛谷P4074:糖果公园(树上莫队)
  7. 【系统架构理论】一篇文章精通:Spring Cloud Netflix Eureka
  8. CCIE-LAB-第十一篇-DMVPN+IPSEC+BGP
  9. php怎么从牌里找对子,php判断半顺,顺子, 对子实例代码
  10. java连接hive代码_Hive:用Java代码通过JDBC连接Hiveserver
  11. 读取csv文件中的IMU数据并以sensor_msgs/Imu格式发送
  12. 怎样搞研究的一套思路
  13. 利用rsyslog 对Linux用户进行审计
  14. 你们要的国内会议来了!部分截稿时间临近,入群享快速投稿服务
  15. keil4和烧录软件的基本使用
  16. FPGA开发板学习(1)
  17. NetCore mysql Connection open error . The given key ‘25971‘ was not present in the dictionary
  18. 网络与分布式计算复习
  19. Linux新世纪五笔
  20. C语言中强制数据类型转换

热门文章

  1. 【笔记】计算机网络-数据链路层
  2. Linux回收站的设计与实现
  3. jvm排查线上gc问题步骤
  4. 名帖190 米芾 行书《多景楼诗册》
  5. php解析微信接口,php微信公众平台交互与接口详解
  6. 快递代领--需求分析
  7. 流量回放-The Big Picture
  8. 概率论:条件概率与独立性
  9. 2.6 用一套万能文案公式来拆解4个小红书爆文案例【玩赚小红书】
  10. 笔记本电脑坏了,那些零件可以再利用