机器学习笔记1.矩估计、极大似然估计。
1.矩估计
1.1矩估计思想:
矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩
1.2矩估计理论:
矩估计的理论依据就是基于大数定律的,大数定律语言化表述为:当总体的k阶矩存在时,样本的k阶矩依概率收敛于总体的k阶矩,即当抽取的样本数量n充分大的时候,样本矩将约等于总体矩。
1.3矩
令k为正整数或0,a为任意实数,X为随机变量。则期望值E(x−a)kE(x-a)^kE(x−a)k,叫做随机变量X对a的k阶矩。如果有a=0,则E(x)kE(x)^kE(x)k叫做k阶原点矩,也叫k阶矩。
1.4矩的计算方法
样本k阶原点矩Ak=1/n∑i=1nXikA_k=1/n\sum_{i=1}^{n}X_i^kAk=1/n∑i=1nXik ===>> 总体k阶原点矩μk=E(Xk)\mu_k=E(X^k)μk=E(Xk)
样本k阶中心矩Bk=1/n∑i=1n(Xi−X‾)kB_k=1/n\sum_{i=1}^{n}(X_i-\overline{X})^kBk=1/n∑i=1n(Xi−X)k ===>>总体k阶原点矩mk=E([X−E(X)]k)m_k=E([ X-E(X)]^k)mk=E([X−E(X)]k)
即令样本k阶矩与总体k阶矩相等 (ps:矩估计理论)
1.5例子
设X的概率分布为
X | -1 | 0 | 1 |
---|---|---|---|
P | θ | 1-θ | θ |
其中θ是位置参数,利用总体X的如下样本值-1,0,0,1,1。求θ的矩估计量。
求解过程如下:
利用样本矩=总体矩求解:
−1+0+0+1+15=−1∗θ+0∗(1−θ)+1∗θ\frac{-1+0+0+1+1}{5}=-1*θ+0*(1-θ)+1*θ5−1+0+0+1+1=−1∗θ+0∗(1−θ)+1∗θ
由于等式右侧为0,所以一阶矩失效。因此求二阶矩:
−12+02+02+12+125=(−1)2∗θ+02∗(1−θ)+12∗θ\frac{-1^2+0^2+0^2+1^2+1^2}{5}=(-1)^2*θ+0^2*(1-θ)+1^2*θ5−12+02+02+12+12=(−1)2∗θ+02∗(1−θ)+12∗θ求解可得θ=310\frac{3}{10}103。
对于连续型函数,矩估计依然这样求解,这里不再多说了。
矩估计的优缺点:
优点:此法简单易行,不需要事先知道总体是什么分布。(仅需按照均值和方差计算即可)。
缺点:总体类型已知时,未充分利用提供的分布信息,有些情况下,矩估计的量不唯一(样本矩近似总体矩有一定的随意性)。
2.极大似然估计(maximum likelihood estimation ,MLE)
2.1似然函数
再说极大似然估计之前先说一下似然函数。在概率论中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。“似然性”与”概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。在这种意义上,似然函数可以理解为条件概率的逆反。在已知某个参数B时,事件A会发生的概率写作
利用贝叶斯定理,
因此,我们可以反过来构造表示似然性的方法:已知有事件A发生,运用似然函数L(B|A),我们估计参数B的可能性。形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了:此处关注的是影响B的参数大小。
2.2极大似然估计的目的
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
2.3原理
极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
2.4极大似然估计求解
记已知一个独立同分布的样本集为D{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn},已知其概率密度函数(连续分布)或概率质量函数(离散分布)为fdf_dfd,以及一个分布参数θ\thetaθ ,我们可以写严概率为.P{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn}=fdf_dfd{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn∣\rvert∣θ\thetaθ}.
所以似然函数(linkehood function):联合概率密度函数fdf_dfd称为相对于{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn}的θ的似然函数。
记为 L(θ)=P{X1,X2,X3,⋯,XnX_1,X_2,X_3,\cdots,X_nX1,X2,X3,⋯,Xn}=∏i=1nP(xi∣θ)\prod_{i=1}^{n}P(x_i|θ)∏i=1nP(xi∣θ)
如果θ^\hat{θ}θ^是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量
2.4.1求解L(θ)
求使得出现该组样本的概率最大的θ值
实际中为了便于计算,定义了对数似然函数(与线性函数单调性一致,取极值的时候点一样,且偏导时又方便计算)
未知参数只有一个(θ为标量),对θ求偏导令其为0求解即可得到θ^\hat{θ}θ^的值。即
一般都是利用对数似然计算(简化计算且不影响θ^\hat{θ}θ^的值)。
2.5总结
似然函数直接求导一般不太好求,一般得到似然函数L(θ)之后,都是先求它的对数,即ln L(θ),因为ln函数不会改变L的单调性,且计算更为简单,然后对ln L(θ)求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理为似然估计是已知结果去求未知参数,对于已经发生的结果(一般是一系列的样本值),既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.
求最大似然估计量的一般步骤:
(1)写出似然函数;(2)对似然函数取对数;(3)求导数;(4)解似然方程。最大似然估计的特点:1.比其他估计方法更加简单;2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
机器学习笔记1.矩估计、极大似然估计。相关推荐
- 机器学习笔记(四)——最大似然估计
一.最大似然估计的基本思想 最大似然估计的基本思想是:从样本中随机抽取n个样本,而模型的参数估计量使得抽取的这n个样本的观测值的概率最大.最大似然估计是一个统计方法,它用来求一个样本集的概率密度函数的 ...
- 统计学笔记1:截尾分布的矩估计与极大似然估计
截尾分布的矩估计与极大似然估计 在参数估计中,我们通常喜欢用极大似然估计来估计一个参数,这样估计的参数通常具有良好的性质,但有时其并不那么容易求解.在参数估计中,矩估计的计算方法较为简易,但其结果的偏 ...
- 机器学习笔记(VII)线性模型(III)对数几率回归和极大似然估计
背景知识 常见回归模型 线性回归(linear regression): y=wTx+b(1) y=\mathbf{w}^T\mathbf{x}+b\tag{1} 但是有时候预测值会逼近 y \mat ...
- 透彻理解机器学习中极大似然估计MLE的原理(附3D可视化代码)
文章目录 相关资料 一.什么是概率,什么是似然 二.极大似然估计 Maximum Likelihood Estimation (MLE) 的含义 2.1 机器学习中的极大化似然函数 2.2 极大似然估 ...
- 概率统计笔记:极大似然估计
极大似然估计,误差的高斯分布与最小二乘估计的等价性 极大似然估计的具体步骤 似然函数 假设样本观测值 求解方程 极大似然估计的具体步骤 假设有随机变量 X ∼ P ( x ; θ ) X\sim P( ...
- 千字讲解极大似然估计
上周有读者私信我说,面试被问到了极大似然估计没回答出来,虽然网上有很多讲解,但是不大能看得懂,而且有一些疑问没有解释清楚.经过一周的撰写,今天困哥就专门整理了一篇数千字的文章,来详细介绍一下极大似然估 ...
- 伽马分布极大似然估计_一文通俗解释极大似然估计
我们都知道机器学习的大致流程是通过建立一个合理的模型学习现有数据集,然后通过该模型去完成特定的任务.其中每个模型都包含自身的一组特定参数,而这组参数决定着模型的本身.但这里存在一个很关键的一个问题,就 ...
- LR为什么用极大似然估计,损失函数为什么是log损失函数(交叉熵)
首先,逻辑回归是一个概率模型,不管x取什么值,最后模型的输出也是固定在(0,1)之间,这样就可以代表x取某个值时y是1的概率 这里边的参数就是θ,我们估计参数的时候常用的就是极大似然估计,为什么呢?可 ...
- 什么是极大似然估计?
● 每周一言 坚持一定是有毅力,但有毅力不一定能坚持. 导语 统计学中,我们经常能听到极大似然估计,或者最大似然估计,它是一种参数估计方法.在机器学习中,逻辑回归就是基于极大似然估计来计算的损失函数. ...
最新文章
- 对称性破缺衰变与分类
- 量化投资交易 vn.py
- linux命令we,Linux 命令执行过程
- nbi可视化_教您通过NBI大数据可视化工具零编码轻松实现桑基图的制作
- labview与C数据类型的对应关系
- HP电脑的增霸卡功能操作详解
- android svn新建分支,android studio中创建、切换svn分支
- python成绩统计及格学平成_强化学习训练Chrome小恐龙Dino:最高超过4000分
- SAP中会计科目删除相关知识点
- 浮点数详解(一篇彻底学通浮点数)
- 老子,他有什么了不起
- 机甲Android on ios,全球首款iOS+Android双系统硬件机甲震撼上市
- 潮汐监测站点 api数据接口
- 基于c语言防盗系统,基于STC89C51的无线智能防盗报警系统.doc
- 论 *.pdm 文件的正确打开方式
- 腾讯政务协同解决方案:从微信生态到应用生态,从平台应用到应用中台
- 数据预处理-python实现
- 蓝牙中的四种音频编码:Apt-X、SBC、AAC、LDAC
- 在同事和老板眼里,你究竟是不是一个靠谱的程序员?
- gcc 优化选项 -O1 -O2 -O3 -Os 优先级,-fomit-frame-pointer(不积跬步无以至千里)