机器学习的许多公式推导都涉及了数理统计的内容,特别是参数估计对理解机器学习很重要。这里三篇文章就对三种参数估计方法进行简单介绍。

对一些数理统计的基本概念的介绍,可参考之前的文章“数理统计学的基本概念”。

参数的点估计问题

设有一个统计总体,以f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k)记其概率密度函数(若总体分布为连续型的)或其概率函数(若其总体分布为离散型的)。避免重复交代这两种情况,我们约定称f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k)为“总体分布”,其具体含义视其为连续型或离散型而定。这个分布包含k个位置参数θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k。例如,对正态总体分布N(μ,δ2)N(μ,δ2)N(\mu,\delta^2),有θ1=μθ1=μ\theta_1=\mu,θ2=δ2θ2=δ2\theta_2=\delta^2,而

f(x;θ1,θ2)=(2πθ2‾‾‾‾‾√)−1exp(−12θ2(x−θ1)2)(−∞<x<∞)f(x;θ1,θ2)=(2πθ2)−1exp⁡(−12θ2(x−θ1)2)(−∞<x<∞)

f(x;\theta_1,\theta_2)=(\sqrt{2\pi\theta_2})^{-1}\exp(-\frac{1}{2\theta_2}(x-\theta_1)^2)\qquad (-\infty\lt x\lt\infty)
若总体有二项分布 B(n,p)B(n,p)B(n,p),则 θ1=pθ1=p\theta_1=p,而

f(x;θ1)=(nx)θx1(1−θ1)n−k(x=0,1,⋯,n)f(x;θ1)=(nx)θ1x(1−θ1)n−k(x=0,1,⋯,n)

f(x;\theta_1)=\binom{n}{x}\theta_1^x(1-\theta_1)^{n-k}\qquad (x=0,1,\cdots,n)
当k=1,即只有一个参数时,就用 θθ\theta代替 θ1θ1\theta_1

参数估计问题的一般提法是:设有了从总体中抽出样本X1,⋯,XnX1,⋯,XnX_1,\cdots,X_n(独立同分布),要依据这些样本去对参数θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k的未知值做出估计。当然我们也可以只要求估计θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k中的一部分,或估计他们的某个已知函数g(θ1,⋯,θk)g(θ1,⋯,θk)g(\theta_1,\cdots,\theta_k)。例如,为要估计θ1θ1\theta_1,我们需要构造出适当的统计量θ1^=θ1^(X1,⋯,Xn)θ1^=θ1^(X1,⋯,Xn)\hat{\theta_1}=\hat{\theta_1}(X_1,\cdots,X_n)。每当有了样本X1,⋯,XnX1,⋯,XnX_1,\cdots,X_n,就代入函数θ1^(X1,⋯,Xn)θ1^(X1,⋯,Xn)\hat{\theta_1}(X_1,\cdots,X_n)中计算出一个值,用来作为θ1θ1\theta_1的估计值。为着这样的特定目的而构造的统计量θ1^θ1^\hat{\theta_1}叫做θ1θ1\theta_1的估计量。由于未知参数θ1θ1\theta_1是数轴上的一个点,用θ1^θ1^\hat{\theta_1}去估计θ1θ1\theta_1,等于用一个点估计另一个点,所以这样的估计叫做点估计,以别与区间估计。

矩估计法

矩估计法的思想比较简单:设总体分布为f(x;θ1,⋯,θk)f(x;θ1,⋯,θk)f(x;\theta_1,\cdots,\theta_k),则它的矩(原点矩和中心矩都可以,此处以原点矩为例)

αm=∫∞−∞xmf(x;θ1,⋯,θk)dx(或∑ixmi)f(x;θ1,⋯,θk))αm=∫−∞∞xmf(x;θ1,⋯,θk)dx(或∑ixim)f(x;θ1,⋯,θk))

\alpha_m=\int_{-\infty}^{\infty}x^mf(x;\theta_1,\cdots,\theta_k)dx\qquad(或\sum_{i}x_i^m)f(x;\theta_1,\cdots,\theta_k))
依赖于 θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k。另一方面,至少在样本大小n较大时,样本原点矩 amama_m应该接近于 αmαm\alpha_m。于是

αm=αm(θ1,⋯,θk)≈am=∑i=1nXmi/nαm=αm(θ1,⋯,θk)≈am=∑i=1nXim/n

\alpha_m=\alpha_m(\theta_1,\cdots,\theta_k)\approx a_m=\sum_{i=1}^{n}X_i^m/n
取 m=1,⋯,km=1,⋯,km=1,\cdots,k,并将上面的近似式改成等式,就得到一个方程组:

αm(θ1,⋯,θk)=am(m=1,⋯,k)αm(θ1,⋯,θk)=am(m=1,⋯,k)

\alpha_m(\theta_1,\cdots,\theta_k)=a_m\qquad (m=1,\cdots,k)
解此方程组,得起根 θ1^(X1,⋯,Xn)(i=1,⋯,k)θ1^(X1,⋯,Xn)(i=1,⋯,k)\hat{\theta_1}(X_1,\cdots,X_n)\quad(i=1,\cdots,k),就以 θ̂ iθ^i\hat\theta_i作为 θiθi\theta_i的估计 (i=1,⋯,k)(i=1,⋯,k)(i=1,\cdots,k)。如果要估计的是 θ1,⋯,θkθ1,⋯,θk\theta_1,\cdots,\theta_k的某函数 g(θ1,⋯,θk)g(θ1,⋯,θk)g(\theta_1,\cdots,\theta_k),则用 ĝ (X1,⋯,Xn)=g(θ̂ 1,⋯,θ̂ k)g^(X1,⋯,Xn)=g(θ^1,⋯,θ^k)\hat g(X_1,\cdots,X_n)=g(\hat \theta_1,\cdots,\hat \theta_k)去估计它。这样定出的估计量就叫做矩估计。

例子

设X1,⋯,XnX1,⋯,XnX_1,\cdots,X_n是从正态总体N(μ,δ2)N(μ,δ2)N(\mu,\delta^2)中抽取的样本,要估计μμ\mu和δ2δ2\delta^2。μμ\mu是总体的一阶原点矩,按矩估计,用样本的一阶原点矩,即样本均值X⎯⎯⎯⎯X¯\overline X去估计。δ2δ2\delta^2是总体方差,即总体的二阶中心矩,可用样本的二阶中心矩m2m2m_2去估计。一般地,在估计方差时,常用样本方差S2S2S^2而不用m2m2m_2,即对矩估计做了一定的修正。

参考书目
《概率论与数理统计》——陈希孺

参数的点估计问题与矩估计法相关推荐

  1. 【数理统计】参数估计及相关(点估计、矩估计法、最大似然估计、原点矩中心距)

    1 基础知识 1.1 常见分布的期望和方差 1.2 对数运算法则 log⁡a(MN)=log⁡aM+log⁡aNlog⁡a(M/N)=log⁡aM−log⁡aNlog⁡a(1/N)=−log⁡aNlo ...

  2. 018 参数估计之点估计法:矩估计法、最大似然估计

    018  参数估计之点估计法:矩估计法.最大似然估计

  3. 广义矩估计的一般步骤_广义矩估计法

    广义矩估计 一.背景 我们前面学了OLS 估计.工具变量估计方法,前面这几种方法都有重要假设就是需要知道分布才能估计,但是往往现实理论我们无法得到关于分布的信息,因此矩估计方法应运而生.矩估计方法的基 ...

  4. 统计学基础(四):矩估计

    此为本人学习笔记,不具备参考价值,禁止任何形式的传播 统计推断的基本问题参数估计点估计区间估计假设检验线性回归方差分析 参数通常是刻画总体某些概率特征的数量. 当该参数未知时,从总体中抽取一个样本,用 ...

  5. 【2020/07/16修订】概率论与数理统计(电子科技大学) 知识梳理 · 第一版(1到8章 · 度盘)

    概率论与数理统计 知 识 梳 理 (第一版) 建议先修课程:高等数学(微积分) 配套课程: 1.慕课(MOOC):概率论与数理统计(电子科技大学) 2.教材:概率论与数理统计 电子科技大学应用数学学院 ...

  6. 郝志峰《概率论与数理统计》期末复习笔记

    目录 前言 第一章        概率论的基础概念 知识大纲 随机试验 随机事件 事件概率 等可能概率模型 第二章        概率论的基本定理 知识大纲 条件概率 独立性 全概率公式 贝叶斯公式 ...

  7. matlab怎么做参数估计,[转载]参数估计(matlab)

    参数估计包含两种常用方式: 点估计和区间估计. Matlab统计工具箱给出了常用概率分布中参数的点估计 (采用最大似然估计法) 与区间估计, 另外还提供了部分分布的对数似然函数的计算功能. 由于点估计 ...

  8. 三、数据分析前,打下数据处理基础(下)

    @Author:Runsen @Writen Date:2019年11月26日 @modified Date:2020年5月12日 在处理数据前前,需要学会一些数据的基础. 这是数据分析前,打下数据处 ...

  9. 文科生必备计算机知识点,文科生计算机知识点调查报告.docx

    文科生计算机知识点调查报告 文科生计算机知识点调查报告 篇一:大学文科高等数学概率统计重难点 第三章第一节:随机事件及其运算 重点: 1. 事件间的关系. 2. 事件运算的性质. 难点: 1. 区分& ...

最新文章

  1. 安卓开发小知识 - 3
  2. Android 如何退出程序
  3. python OOP (1)
  4. JVM调优 dump文件怎么生成和分析
  5. C# 委托 / 跨线程访问UI / 线程间操作无效: 从不是创建控件“Form1”的线程访问它...
  6. java后台处理excel_java后台利用Apache poi 生成excel文档提供前台下载示例
  7. idea编辑器中使用@Data注解无效解决办法
  8. linux的启动流程和加载程序
  9. ubuntu 10.04下vmware tools安装和一些应用
  10. 黑洞内部垂直向上发射光子,会怎样
  11. 继电器接触器控制系统应用拓展实践——“玩转”双电机
  12. python表格控件_python--excel操作插件openpyxl
  13. CCF-CSP历年真题大全附题解(202209已更)
  14. 【一日一logo|day_8】坦格利安家族?修改什么的不存在的
  15. geoserver osm 导入_OSM导入PostGreSQL数据库 | 学步园
  16. Tc27x的MTCR与MFCR指令
  17. 弘辽科技:端午节拼多多有优惠吗?力度如何?
  18. 读书笔记 - -《Python网络编程》重点
  19. 什么是自底向上/自上而下的显著性目标检测?
  20. CHERRY G80-8113 软硬编程教程

热门文章

  1. 一只青蛙一次可以跳上1级台阶也可以跳上2级求该青蛙跳上一个n级的台阶总共有多少种跳法
  2. I'm coming now.
  3. [我参加NVIDIA Sky Hackathon](模型训练yolo系列)
  4. RobotFramework set global/suite/test variable
  5. 旅行商问题与蚁群算法
  6. matlab导入数据画二维云图,matlab中用xyz三组数据画出2维云图
  7. 21点游戏A计算方法
  8. 2020年微信怎么推刷脸支付
  9. 苏锡常镇一模数学试卷含官方答案
  10. 移动开发之三种近场通信