机器学习基础:极大似然估计

  • 数据
  • 参数估计均值
  • 参数估计方差

数据

设DataSet:X={(x1,y1),(x2,y2),(x3,y3)…(xn,yn))},其中xi∈Rpxi \in R^pxi∈Rp,yi∈Ryi \in Ryi∈R,也就是说X=(x1,x2,x3.....xn)T(x1,x2,x3.....xn)^T(x1,x2,x3.....xn)T,其中这里,每个元素x
都是一个p维的列向量,我们继续化简,X=[x11x12...x1px21x22...x2p......xn1xn2...xnp](1)\left[ \begin{matrix} x_{11} & x_{12} &... x_{1p} \\ x_{21} & x_{22} &... x_{2p} \\ \\...... \\x_{n1} & x_{n2} &... x_{_{np}} \end{matrix} \right]\tag{1} ⎣⎡​x11​x21​......xn1​​x12​x22​xn2​​...x1p​...x2p​...xnp​​​⎦⎤​(1)
Y=[y1y2......yn](2)\left[ \begin{matrix} y_{1} \\ y_{2} \\ \\...... \\y_n \end{matrix} \right]\tag{2} ⎣⎡​y1​y2​......yn​​⎦⎤​(2)

xi∈Rpx_i\in R^pxi​∈Rp,每个元素x_i服从独立同分布,本文当中,为了方便计算,我们令p=1。设θ=(μ,σ2)\theta=(\mu,\sigma^2)θ=(μ,σ2)一维标准高斯分布的pdf(概率密度函数):P(X∣θ)=1σ2Π+exp(−(X−μ)22σ2)P(X|\theta) = \frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(X-\mu)^2}{2\sigma^2})P(X∣θ)=σ2Π​1​+exp(−2σ2(X−μ)2​)

参数估计均值

ln⁡θMLE=argmaxln⁡P(X∣θ)\ln\theta _{MLE}=argmax \ln P(X|\theta)lnθMLE​=argmaxlnP(X∣θ)
=argmax∏i=1Nln⁡P(xi∣θ)=argmax\prod_{i=1}^N \ln P(x_i|\theta)=argmax∏i=1N​lnP(xi​∣θ)
=argnaxln⁡∑i=1NP(xi∣θ)= argnax\ln\sum_{i=1}^NP(xi|\theta)=argnaxln∑i=1N​P(xi∣θ)
=argmaxln⁡∑i=1N(1σ2Π+exp(−(xi−μ)22σ2))=argmax\ln\sum_{i=1}^N(\frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(x_i-\mu)^2}{2\sigma^2}))=argmaxln∑i=1N​(σ2Π​1​+exp(−2σ2(xi​−μ)2​))
=argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)))=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})))=argmax∑i=1N​(ln2​Π1​−lnσ−2σ2(xi​−μ)2​)))
化简到这里,我们的目标函数L(θ)L(\theta)L(θ)就化简完成了。
下面我们分别对μ,σ\mu,\sigmaμ,σ进行参数估计。
ln⁡μMLE==argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)))\ln\mu_{MLE}= =argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})))lnμMLE​==argmax∑i=1N​(ln2​Π1​−lnσ−2σ2(xi​−μ)2​)))
因为其他两项都和系数μ\muμ无关,在求解偏导数的时候可以约去,所以:
ln⁡μMLE=argmax∑i=1N−(xi−μ)22σ2\ln\mu_{MLE}=argmax\sum_{i=1}^N-\frac{(x_i-\mu)^2}{2\sigma^2}lnμMLE​=argmax∑i=1N​−2σ2(xi​−μ)2​
=argmin∑i=1N(xi−μ)2=argmin\sum_{i=1}^N(x_i-\mu)^2=argmin∑i=1N​(xi​−μ)2
=∂∂μ∑i=1N(xi2−2xiμ+μ2)=0=\frac{\partial}{\partial \mu}\sum_{i=1}^N(x_i^2-2x_i\mu+\mu^2)=0=∂μ∂​∑i=1N​(xi2​−2xi​μ+μ2)=0
=∑i=1N(−2xi+2μ)=0=\sum_{i=1}^N(-2x_i+2\mu)=0=∑i=1N​(−2xi​+2μ)=0
∑i=1Nxi=Nμ\sum_{i=1}^Nx_i=N\mu∑i=1N​xi​=Nμ
μMLE=1N∑i=1Nxi\mu_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_iμMLE​=N1​∑i=1N​xi​
因为
E[μMLE]=1N∑i=1NE[xi]=1N∑i=1Nμ=μE[\mu_{MLE}]=\frac{1}{N}\sum_{i=1}^NE[x_i]=\frac{1}{N}\sum_{i=1}^N\mu=\muE[μMLE​]=N1​∑i=1N​E[xi​]=N1​∑i=1N​μ=μ
所以此结果为无偏估计

参数估计方差

我们上面求出来的L(X)带入到这里
ln⁡θMLE=argmaxln⁡P(X∣θ)\ln\theta _{MLE}=argmax \ln P(X|\theta)lnθMLE​=argmaxlnP(X∣θ)
=argmax∏i=1Nln⁡P(xi∣θ)=argmax\prod_{i=1}^N \ln P(x_i|\theta)=argmax∏i=1N​lnP(xi​∣θ)
=argnaxln⁡∑i=1NP(xi∣θ)= argnax\ln\sum_{i=1}^NP(xi|\theta)=argnaxln∑i=1N​P(xi∣θ)
=argmaxln⁡∑i=1N(1σ2Π+exp(−(xi−μ)22σ2))=argmax\ln\sum_{i=1}^N(\frac{1}{\sigma \sqrt{2\Pi}}+exp(-\frac{(x_i-\mu)^2}{2\sigma^2}))=argmaxln∑i=1N​(σ2Π​1​+exp(−2σ2(xi​−μ)2​))
=argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})=argmax∑i=1N​(ln2​Π1​−lnσ−2σ2(xi​−μ)2​)

σMLE2=argmax∑i=1N(ln⁡12Π−ln⁡σ−(xi−μ)22σ2)\sigma^2_{MLE}=argmax\sum_{i=1}^N(\ln\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})σMLE2​=argmax∑i=1N​(ln2​Π1​−lnσ−2σ2(xi​−μ)2​)
=∂∂σ∑i=1N(12Π−ln⁡σ−(xi−μ)22σ2)=0=\frac{\partial}{\partial \sigma}\sum_{i=1}^N(\frac{1}{\sqrt2\Pi}-\ln\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})=0=∂σ∂​∑i=1N​(2​Π1​−lnσ−2σ2(xi​−μ)2​)=0
=∑i=1N(−1σ−(−2)σ−3(xi−μ)22)=0=\sum_{i=1}^N(-\frac{1}{\sigma}-(-2)\sigma^{-3}\frac{(x_i-\mu)^2} {2})=0=∑i=1N​(−σ1​−(−2)σ−32(xi​−μ)2​)=0
左右同时✖️σ3\sigma^3σ3
=∑i=1N((−σ)2+(xi−μ)2)=0=\sum_{i=1}^N((-\sigma)^2+(x_i-\mu)^2)=0=∑i=1N​((−σ)2+(xi​−μ)2)=0
σMLE2=1N∑i=1N(xi−μ)2=0\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2=0σMLE2​=N1​∑i=1N​(xi​−μ)2=0
因为E[σMLE2]=N−1Nσ2因为E[\sigma_{MLE}^2]=\frac{N-1}{N}\sigma^2因为E[σMLE2​]=NN−1​σ2
所以此结果为有偏估计

机器学习基础:极大似然估计高斯参数相关推荐

  1. 机器学习之极大似然估计详解

    文章目录 前言 极大似然原理 极大似然估计 极大似然估计的应用及推导 推导 联合概率是什么 求极大似然估计值$\hat\theta$的一般步骤 前言 极大似然估计在机器学习中很多模型都会用到,理解了极 ...

  2. 机器学习基础专题:高斯混合模型和最大期望EM算法以及代码实现

    高斯混合模型 混合模型是潜变量模型的一种,是最常见的形式之一.而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种.zzz代表该数据点是由某一个高斯分布产 ...

  3. 【机器学习基础】支持向量机超参数的可视化解释

    作者 | Soner Yıldırım 编译 | VK 来源 | Towards Datas Science 支持向量机(SVM)是一种应用广泛的有监督机器学习算法.它主要用于分类任务,但也适用于回归 ...

  4. 机器学习基础专题:高斯判别分析

    高斯判别分析 全称是Gaussian Discriminant Analysis (GDA).大家不要被名字所误导,这是一种概率生成模型. 原理 对联合概率进行建模,我们假设y∼Bernoulli(Φ ...

  5. 2022-1-17第三章机器学习基础--网格搜索超参数优化、决策树、随机森林

    交叉验证与网格搜索 ①交叉验证(训练集划分-训练集.验证集)–将所有数据分成n等分-并不具备调参能力 4等分就是4折交叉验证:一般采用10折交叉验证 ②网格搜索-调参数(与交叉验证一同使用) 如果有多 ...

  6. 机器学习: 简单讲极大似然估计和贝叶斯估计、最大后验估计

    一.前言 我在概率论:参数估计里面提到了极大似然估计,不熟悉的可以看一下,本文重点介绍后两者估计方法. 在这里两种估计方法估计的是什么?我们使用一个较为泛化的问题表示: 考虑这样一个问题:总体X的概率 ...

  7. 第一课.极大似然估计与有偏性无偏性

    目录 极大似然估计 问题背景 极大似然估计的计算方法 参数估计的有偏性和无偏性 极大似然估计 问题背景 以高斯分布引出问题,高斯分布的重要性体现于: 1.根据中心极限定理,当样本量足够大的时候,任意分 ...

  8. Lesson 4.2 逻辑回归参数估计:极大似然估计、相对熵与交叉熵损失函数

    文章目录 一.逻辑回归参数估计基本思路 1. 构建损失函数 2. 损失函数求解 二.利用极大似然估计进行参数估计 三.熵.相对熵与交叉熵 1. 熵(entropy)的基本概念与计算公式 2. 熵的基本 ...

  9. 机器学习基础 LR学习

    1 LR是什么? LR全称Logistic Regression,逻辑回归.虽然名称中带有回归.逻辑回归,可以做分类的事情,也可以做回归的事情. 通常来讲,机器学习分为分类和回归两种模型,分类做的是离 ...

最新文章

  1. 《HelloGitHub》第 19 期
  2. Go 语言web 框架 Gin 练习8
  3. WinDbg配置与下载
  4. 源码分析Thread
  5. python 跳过_python-pytest学习(九)-跳过用例skip
  6. centos下python编程工具_CentOS下python的下载及安装
  7. Python AI和机器学习库
  8. Spring核心——MessageSource实现国际化
  9. ArcGIS 判断坐标系是否正确
  10. oracle 简版客户端instantclient使用 oledb ODAC组件使用
  11. 关于Solidworks启动和office的VBA干涉解决方法
  12. 基于QPSK+LDPC的微波信道误码率matlab仿真
  13. WIN10找不到CMD命令提示符的简单解决办法
  14. 云南大学计算机在职硕士,云南大学信息学院硕士研究生教育
  15. 小米 2022校招 java后端一面凉经(55min)
  16. android手机 无电池开机,手机无法开机的6种解决方法
  17. java的mysql语句规范_mysql 规范
  18. e的根号x次方的不定积分:整体代换+分部积分法
  19. 地球引擎初级教程——JavaScript 简介(一文读懂如何使用GEE)
  20. 量化进阶——为何需要进行量化对冲

热门文章

  1. 舰r经验计算机,战舰少女R提督经验怎么得 提督快速升级攻略
  2. Android笔记系列--动画
  3. 4K投影仪为什么比1080P投影仪更值得买?答案显而易见!
  4. 新手学Python之练习题目第一弹(一)
  5. 成为伟大,影响伟大---张一鸣
  6. 带你全面解析Android框架体系架构view篇,隔壁都馋哭了
  7. 陕西师范大学第七届程序设计竞赛网络同步赛题解
  8. 小白学编程(CSS):会发光的边框
  9. MySQL从安装到精通(单表)
  10. live常见问题:如何降低Ableton Live Suite的CPU负载?