机器学习基础:极大似然估计高斯参数
机器学习基础:极大似然估计
- 数据
- 参数估计均值
- 参数估计方差
数据
设DataSet:X={(x1,y1),(x2,y2),(x3,y3)…(xn,yn))},其中xi∈Rpxi \in R^pxi∈Rp,yi∈Ryi \in Ryi∈R,也就是说X=(x1,x2,x3.....xn)T(x1,x2,x3.....xn)^T(x1,x2,x3.....xn)T,其中这里,每个元素x
都是一个p维的列向量,我们继续化简,X=[x11x12...x1px21x22...x2p......xn1xn2...xnp](1)\left[ \begin{matrix} x_{11} & x_{12} &... x_{1p} \\ x_{21} & x_{22} &... x_{2p} \\ \\...... \\x_{n1} & x_{n2} &... x_{_{np}} \end{matrix} \right]\tag{1} ⎣⎡x11x21......xn1x12x22xn2...x1p...x2p...xnp⎦⎤(1)
Y=[y1y2......yn](2)\left[ \begin{matrix} y_{1} \\ y_{2} \\ \\...... \\y_n \end{matrix} \right]\tag{2} ⎣⎡y1y2......yn⎦⎤(2)
xi∈Rpx_i\in R^pxi∈Rp,每个元素x_i服从独立同分布,本文当中,为了方便计算,我们令p=1。设θ=(μ,σ2)\theta=(\mu,\sigma^2)θ=(μ,σ2)一维标准高斯分布的pdf(概率密度函数):P(X∣θ)=1σ2Π+exp(−(X−μ)22σ2)P(X|\theta) = \frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(X-\mu)^2}{2\sigma^2})P(X∣θ)=σ2Π1+exp(−2σ2(X−μ)2)
参数估计均值
lnθMLE=argmaxlnP(X∣θ)\ln\theta _{MLE}=argmax \ln P(X|\theta)lnθMLE=argmaxlnP(X∣θ)
=argmax∏i=1NlnP(xi∣θ)=argmax\prod_{i=1}^N \ln P(x_i|\theta)=argmax∏i=1NlnP(xi∣θ)
=argnaxln∑i=1NP(xi∣θ)= argnax\ln\sum_{i=1}^NP(xi|\theta)=argnaxln∑i=1NP(xi∣θ)
=argmaxln∑i=1N(1σ2Π+exp(−(xi−μ)22σ2))=argmax\ln\sum_{i=1}^N(\frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(x_i-\mu)^2}{2\sigma^2}))=argmaxln∑i=1N(σ2Π1+exp(−2σ2(xi−μ)2))
=argmax∑i=1N(ln12Π−lnσ−(xi−μ)22σ2)))=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})))=argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)))
化简到这里,我们的目标函数L(θ)L(\theta)L(θ)就化简完成了。
下面我们分别对μ,σ\mu,\sigmaμ,σ进行参数估计。
lnμMLE==argmax∑i=1N(ln12Π−lnσ−(xi−μ)22σ2)))\ln\mu_{MLE}= =argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})))lnμMLE==argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)))
因为其他两项都和系数μ\muμ无关,在求解偏导数的时候可以约去,所以:
lnμMLE=argmax∑i=1N−(xi−μ)22σ2\ln\mu_{MLE}=argmax\sum_{i=1}^N-\frac{(x_i-\mu)^2}{2\sigma^2}lnμMLE=argmax∑i=1N−2σ2(xi−μ)2
=argmin∑i=1N(xi−μ)2=argmin\sum_{i=1}^N(x_i-\mu)^2=argmin∑i=1N(xi−μ)2
=∂∂μ∑i=1N(xi2−2xiμ+μ2)=0=\frac{\partial}{\partial \mu}\sum_{i=1}^N(x_i^2-2x_i\mu+\mu^2)=0=∂μ∂∑i=1N(xi2−2xiμ+μ2)=0
=∑i=1N(−2xi+2μ)=0=\sum_{i=1}^N(-2x_i+2\mu)=0=∑i=1N(−2xi+2μ)=0
∑i=1Nxi=Nμ\sum_{i=1}^Nx_i=N\mu∑i=1Nxi=Nμ
μMLE=1N∑i=1Nxi\mu_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_iμMLE=N1∑i=1Nxi
因为
E[μMLE]=1N∑i=1NE[xi]=1N∑i=1Nμ=μE[\mu_{MLE}]=\frac{1}{N}\sum_{i=1}^NE[x_i]=\frac{1}{N}\sum_{i=1}^N\mu=\muE[μMLE]=N1∑i=1NE[xi]=N1∑i=1Nμ=μ
所以此结果为无偏估计
参数估计方差
我们上面求出来的L(X)带入到这里
lnθMLE=argmaxlnP(X∣θ)\ln\theta _{MLE}=argmax \ln P(X|\theta)lnθMLE=argmaxlnP(X∣θ)
=argmax∏i=1NlnP(xi∣θ)=argmax\prod_{i=1}^N \ln P(x_i|\theta)=argmax∏i=1NlnP(xi∣θ)
=argnaxln∑i=1NP(xi∣θ)= argnax\ln\sum_{i=1}^NP(xi|\theta)=argnaxln∑i=1NP(xi∣θ)
=argmaxln∑i=1N(1σ2Π+exp(−(xi−μ)22σ2))=argmax\ln\sum_{i=1}^N(\frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(x_i-\mu)^2}{2\sigma^2}))=argmaxln∑i=1N(σ2Π1+exp(−2σ2(xi−μ)2))
=argmax∑i=1N(ln12Π−lnσ−(xi−μ)22σ2)=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})=argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)
σMLE2=argmax∑i=1N(ln12Π−lnσ−(xi−μ)22σ2)\sigma^2_{MLE}=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})σMLE2=argmax∑i=1N(ln2Π1−lnσ−2σ2(xi−μ)2)
=∂∂σ∑i=1N(12Π−lnσ−(xi−μ)22σ2)=0=\frac{\partial}{\partial \sigma}\sum_{i=1}^N(\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})=0=∂σ∂∑i=1N(2Π1−lnσ−2σ2(xi−μ)2)=0
=∑i=1N(−1σ−(−2)σ−3(xi−μ)22)=0=\sum_{i=1}^N(-\frac{1}{\sigma}-(-2)\sigma^{-3}\frac{(x_i-\mu)^2} {2})=0=∑i=1N(−σ1−(−2)σ−32(xi−μ)2)=0
左右同时✖️σ3\sigma^3σ3
=∑i=1N((−σ)2+(xi−μ)2)=0=\sum_{i=1}^N((-\sigma)^2+(x_i-\mu)^2)=0=∑i=1N((−σ)2+(xi−μ)2)=0
σMLE2=1N∑i=1N(xi−μ)2=0\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2=0σMLE2=N1∑i=1N(xi−μ)2=0
因为E[σMLE2]=N−1Nσ2因为E[\sigma_{MLE}^2]=\frac{N-1}{N}\sigma^2因为E[σMLE2]=NN−1σ2
所以此结果为有偏估计
机器学习基础:极大似然估计高斯参数相关推荐
- 机器学习之极大似然估计详解
文章目录 前言 极大似然原理 极大似然估计 极大似然估计的应用及推导 推导 联合概率是什么 求极大似然估计值$\hat\theta$的一般步骤 前言 极大似然估计在机器学习中很多模型都会用到,理解了极 ...
- 机器学习基础专题:高斯混合模型和最大期望EM算法以及代码实现
高斯混合模型 混合模型是潜变量模型的一种,是最常见的形式之一.而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种.zzz代表该数据点是由某一个高斯分布产 ...
- 【机器学习基础】支持向量机超参数的可视化解释
作者 | Soner Yıldırım 编译 | VK 来源 | Towards Datas Science 支持向量机(SVM)是一种应用广泛的有监督机器学习算法.它主要用于分类任务,但也适用于回归 ...
- 机器学习基础专题:高斯判别分析
高斯判别分析 全称是Gaussian Discriminant Analysis (GDA).大家不要被名字所误导,这是一种概率生成模型. 原理 对联合概率进行建模,我们假设y∼Bernoulli(Φ ...
- 2022-1-17第三章机器学习基础--网格搜索超参数优化、决策树、随机森林
交叉验证与网格搜索 ①交叉验证(训练集划分-训练集.验证集)–将所有数据分成n等分-并不具备调参能力 4等分就是4折交叉验证:一般采用10折交叉验证 ②网格搜索-调参数(与交叉验证一同使用) 如果有多 ...
- 机器学习: 简单讲极大似然估计和贝叶斯估计、最大后验估计
一.前言 我在概率论:参数估计里面提到了极大似然估计,不熟悉的可以看一下,本文重点介绍后两者估计方法. 在这里两种估计方法估计的是什么?我们使用一个较为泛化的问题表示: 考虑这样一个问题:总体X的概率 ...
- 第一课.极大似然估计与有偏性无偏性
目录 极大似然估计 问题背景 极大似然估计的计算方法 参数估计的有偏性和无偏性 极大似然估计 问题背景 以高斯分布引出问题,高斯分布的重要性体现于: 1.根据中心极限定理,当样本量足够大的时候,任意分 ...
- Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数
文章目录 一.逻辑回归参数估计基本思路 1. 构建损失函数 2. 损失函数求解 二.利用极大似然估计进行参数估计 三.熵.相对熵与交叉熵 1. 熵(entropy)的基本概念与计算公式 2. 熵的基本 ...
- 机器学习基础 LR学习
1 LR是什么? LR全称Logistic Regression,逻辑回归.虽然名称中带有回归.逻辑回归,可以做分类的事情,也可以做回归的事情. 通常来讲,机器学习分为分类和回归两种模型,分类做的是离 ...
最新文章
- 《HelloGitHub》第 19 期
- Go 语言web 框架 Gin 练习8
- WinDbg配置与下载
- 源码分析Thread
- python 跳过_python-pytest学习(九)-跳过用例skip
- centos下python编程工具_CentOS下python的下载及安装
- Python AI和机器学习库
- Spring核心——MessageSource实现国际化
- ArcGIS 判断坐标系是否正确
- oracle 简版客户端instantclient使用 oledb ODAC组件使用
- 关于Solidworks启动和office的VBA干涉解决方法
- 基于QPSK+LDPC的微波信道误码率matlab仿真
- WIN10找不到CMD命令提示符的简单解决办法
- 云南大学计算机在职硕士,云南大学信息学院硕士研究生教育
- 小米 2022校招 java后端一面凉经(55min)
- android手机 无电池开机,手机无法开机的6种解决方法
- java的mysql语句规范_mysql 规范
- e的根号x次方的不定积分:整体代换+分部积分法
- 地球引擎初级教程——JavaScript 简介(一文读懂如何使用GEE)
- 量化进阶——为何需要进行量化对冲