概念

所谓统计推断( statistical inference ),指的是给定样本 x1,x2,…,xnx_1, x_2,\dots, x_n 下,如何推断总体 FF ? 或者 FF 的数字特征,如均值、方差等。

统计模型

参数模型

参数模型,指的是一个分布集合 F\mathfrak{F}, 其中的参数可以由有限个参数给定。

例2.1 一维正态分布集

F={f(x;μ,σ2):f(x;μ,σ2)=12π−−√σexp{−12σ2(x−μ)2},μ∈R,σ2∈R+}

\mathfrak{F}=\{f(x; \mu, \sigma^2): f(x; \mu, \sigma^2)= \dfrac{1}{\sqrt{2\pi} \sigma} exp\{-\dfrac{1}{2\sigma^2}(x-\mu)^2\}, \mu\in \mathbb{R},\, \sigma^2\in \mathbb{R}^+\}
参数模型集通常可以表示为 F={f(x;θ);θ∈Ⓢ}\mathfrak{F}=\{f(x; \theta);\, \theta\in\circledS\}

非参数模型

非参数模型,分布集 F\mathfrak{F} 不能被参数化。

例2.2 FAll={allCDFs}\mathfrak{F}_{All}=\{all \, \, CDFs\}, CDFCDF 指的是累积分布函数( cumulative distribution function ).

例2.3 一维参数估计

设样本 x1,x2,…,xnx_1, x_2,\dots, x_n 来自 Bernoulli(p), 估计 pp.

例2.4 二维参数估计

设样本 x1,x2,…,xnx_1, x_2,\dots, x_n 来自一维正态分布族 F\mathfrak{F}, 估计 μ,σ2\mu, \sigma^2.

例2.5 非参数密度估计

设样本 x1,x2,…,xnx_1, x_2,\dots, x_n 来自某连续分布 FF, 密度为 ff, 估计 ff.
这里,不能仅假定 F∈FAllF\in\mathfrak{F}_{All}, 为了估计 ff, 需要进一步假定
f∈FDENS⋂FSOBf\in\mathfrak{F}_{DENS}\bigcap\mathfrak{F}_{SOB}.
其中,FDENS\mathfrak{F}_{DENS} 是所有概率密度函数集。
FSOB={f:∫(f′′(x))2dx<∞}\mathfrak{F}_{SOB}=\{f: \int (f^{''}(x))^2 {\rm d}x, 称FSOB\mathfrak{F}_{SOB}
为索伯列夫空间( Sobolev Space ), 该空间的函数具有一定的稳定性。

例2.6 非参数函数估计

设样本 x1,x2,…,xn∼Fx_1, x_2,\dots, x_n \sim F, 称 FF 的函数为统计泛函,记为 T(F)T(F). 例如,
均值 μ=∫xdF(x)\mu=\int x {\rm d}F(x), 方差 σ2=∫x2dF(x)−(∫xdF(x))2\sigma^2=\int x^2{\rm d}F(x)-(\int x {\rm d}F(x))^2,
中位数 median=F−1(12)median=F^{-1}(\frac{1}{2}).

点估计

设 x1,x2,…,xnx_1, x_2,\dots, x_n 是来自某分布 FF 的样本,参数 θ\theta 一个点估计 θ^n=g(x1,x2,…,xn)\hat{\theta}_n=g(x_1, x_2, \dots, x_n).

定义2.1 估计的偏差( bias )

bias(θ^n)=Eθ(θ^n)−θ

bias(\hat{\theta}_n)=E_{\theta}(\hat{\theta}_n)-\theta

定义2.2 称 θ^n\hat{\theta}_n 是无偏的( unbiased ), 如果 E(θ^n)=θE(\hat{\theta}_n)=\theta, 即 bias(θ^n)=0bias(\hat{\theta}_n)=0.

定义2.3 称 θ^n\hat{\theta}_n 是相合的或一致的( consistent ), 如果 θ^n−→pθ\hat{\theta}_n \xrightarrow{p} \theta, 当 n→∞n\rightarrow \infty 时,即

对∀ε>0,limn→∞P(|θ^n−θ|≥ε)=0

\mbox{对} \,\forall \,\,\varepsilon > 0,\,\, \lim_{n\to\infty}\mathcal{P}(|\hat{\theta}_n -\theta|\ge \varepsilon)=0

定义2.4 称估计量 θ^n\hat{\theta}_n 的分布为抽样分布。

定义2.5 称 θ^n\hat{\theta}_n 的标准差( standard deviation ) 为标准误差,简称标准误 ( standard error ), 即

se=se(θ^n)=Var(θ^n)−−−−−−−√

se=se(\hat{\theta}_n)=\sqrt{Var(\hat{\theta}_n)}

例3.1 设样本 x1,x2,…,xnx_1, x_2,\dots, x_n 来自 Bernoulli(p)Bernoulli(p), 则估计量
p^n=x¯=1n∑i=1nxi\hat{p}_n =\bar{x}=\dfrac{1}{n}\sum\limits_{i=1}^n x_i,
E(p^n)=1n∑i=1nE(xi)=pE(\hat{p}_n)=\dfrac{1}{n}\sum\limits_{i=1}^n E(x_i)=p,
se=Var(p^n)−−−−−−−√=p(1−p)n−−−−−−−√se=\sqrt{Var(\hat{p}_n)}=\sqrt{\dfrac{p(1-p)}{n}}.

定义2.6 称 Eθ(θ^n−θ)2E_{\theta}(\hat{\theta}_n -\theta)^2 为均方误差( mean squared error ), 记为 MSE, 即MSE(θ^n)=Eθ(θ^n−θ)2MSE(\hat{\theta}_n)=E_{\theta}(\hat{\theta}_n -\theta)^2.

定理2.1 MSE(θ^n)=bias2(θ^n)+Var(θ^n)MSE(\hat{\theta}_n)=bias^2(\hat{\theta}_n)+Var(\hat{\theta}_n).

证明: 令 θ¯n=Eθ(θ^n)\bar{\theta}_n=E_{\theta}(\hat{\theta}_n), 则

Eθ(θ^n−θ)2=Eθ(θ^n−θ¯n+θ¯n−θ)2=Eθ(θ^n−θ¯n)2+2(θ¯n−θ)Eθ(θ^n−θ¯n)+Eθ(θ¯n−θ)2

E_{\theta}(\hat{\theta}_n -\theta)^2=E_{\theta}(\hat{\theta}_n -\bar{\theta}_n +\bar{\theta}_n -\theta)^2= E_{\theta}(\hat{\theta}_n -\bar{\theta}_n)^2 + 2(\bar{\theta}_n -\theta)E_{\theta}(\hat{\theta}_n -\bar{\theta}_n) + E_{\theta}(\bar{\theta}_n -\theta)^2

=(θ¯n−θ)2+Eθ(θ^n−θ¯n)2=bias2(θ^n)+Var(θ^n)

=(\bar{\theta}_n -\theta)^2+E_{\theta}(\hat{\theta}_n-\bar{\theta}_n)^2 =bias^2(\hat{\theta}_n)+Var(\hat{\theta}_n) .

定理2.2 如果 bias→0bias\rightarrow 0, se→0se\rightarrow 0, 当n→∞n\rightarrow\infty 时, 则 θ^n\hat{\theta}_n 是 θ\theta 的相合估计。

证明: 依定理3.1, MSE=Eθ(θ^n−θ)2→0MSE=E_{\theta}(\hat{\theta}_n -\theta)^2\rightarrow 0, 当 n→∞n\rightarrow\infty 时,那么,对 ∀ε>0\forall \, \varepsilon>0, 由切比雪夫不等式

P(|θ^n−θ|>ε)=P(|θ^n−θ|2>ε2)≤Eθ(θ^n−θ)2ε2→0

\mathcal{P}(|\hat{\theta}_n-\theta|>\varepsilon)=\mathcal{P}(|\hat{\theta}_n-\theta|^2>\varepsilon^2)\le\dfrac{E_{\theta}(\hat{\theta}_n -\theta)^2}{\varepsilon^2}\rightarrow 0,

故 θ^n−→pθ\hat{\theta}_n \xrightarrow{p} \theta, 当 n→∞n\rightarrow \infty 时.
例3.2 接例3.1, bias(p^n)=E(p^n)−p=0bias(\hat{p}_n)=E(\hat{p}_n)-p=0, se=p(1−p)n−−−−−−−√→0se=\sqrt{\dfrac{p(1-p)}{n}}\rightarrow 0, 当 n→∞n\rightarrow \infty 时, 故依定理3.2, p^n\hat{p}_n 是相合的。

分布的估计

定义2.7 经验分布( empirical distribution )
称 F^n(x)=1n∑i=1nI(xi≤x),x∈R\hat{F}_n(x)=\dfrac{1}{n}\sum\limits_{i=1}^n I(x_i \le x),\, x\in \mathbb{R} 为经验分布(函数)。

定理2.3 对 ∀x∈R\forall \, x\in \mathbb{R}, 有
E(F^n(x))=F(x)E(\hat{F}_n(x))=F(x), Var(F^n(x))=F(x)(1−F(x))nVar(\hat{F}_n(x))=\dfrac{F(x)(1-F(x))}{n},
MSE(F^n(x))=F(x)(1−F(x))n→0MSE(\hat{F}_n(x))=\dfrac{F(x)(1-F(x))}{n}\rightarrow 0, 故
F^n(x)−→pF(x)\hat{F}_n(x)\xrightarrow{p} F(x), 其中, F(x)F(x) 为总体分布。

定理2.4 ( The Glivenko-Cantelli Theorem )
设样本 x_1, x_2, \dots, x_n 来自分布 FF, 则

supx|F^n(x)−F(x)|−→p0,n→∞

\mathop{sup}\limits_{x} |\hat{F}_n(x)-F(x)|\xrightarrow{p} 0,\, n\rightarrow\infty

精彩内容,请关注微信公众号“统计学习与大数据”!

统计学习(二):统计推断相关推荐

  1. 统计学习二:数据的描述性统计

    参加此统计学习小组主要是巩固 python 语言,故所有笔记都以 python 代码实现. 完整代码见 github : StatisticLearning 如何描述数据的分布?可以从以下三个方面来描 ...

  2. 统计学习(二)朴素贝叶斯分类

    一.什么是贝叶斯 英国数学家贝叶斯提出了贝叶斯公式用来描述两个条件概率之间的关系,抛出公式如下: 公式指出了在事件B发生的情况下事件A发生的概率,通过贝叶斯公式转换可以利用右边的P(A)和P(B|A) ...

  3. AI之路(二)——关于统计学习(statistical learning)Part 1 概论

    从今日起,正式开启AI之路,在人工智能学习领域,无论机器学习还是深度学习,统计学习是入门的最好参考教材,是不可或缺的.因此,这漫漫求索之路,就从统计学习开始吧. 我所选择的是李航所著的统计学习(第二版 ...

  4. 《深度学习,统计学习,数学基础》人工智能算法工程师手册:程序员写的AI书,50 章一网打尽...

    来源:专知 本文约3400字,建议阅读10+分钟. 免费开源人工智能手册,带你快速上手写代码! [ 导读 ]市面上很多人工智能相关的书籍.大部分的书,面向小白,内容深度不够:小部分教材书或者科研书,内 ...

  5. 发表了一篇英文长文:语义信息G理论和逻辑贝叶斯推理for统计学习

    来源:人机与认知实验室 [本文是鲁晨光老师发表的一篇关于语义信息论和统计学习的论文写后感,发表在科学网上,特摘录推荐] 2019-8-21 01:04 |个人分类:信息的数学和哲学|系统分类:论文交流 ...

  6. UA MATH574M 统计学习V Variable Selection: LASSO

    UA MATH574M 统计学习V Variable Selection: LASSO 基本概念 Oracle Property Penalized Regularization Framework ...

  7. UA MATH574M 统计学习II 高维数据的二元分类

    UA MATH574M 统计学习II 高维数据的二元分类 LDA的直观解释 NSC 上一讲提到了高维数据相比低维数据的特殊性,并介绍了处理高维数据二元分类最简单的一个模型independent rul ...

  8. UA MATH574M 统计学习II 二元分类例子与高维问题

    UA MATH574M 统计学习II 二元分类例子与高维问题 数值例子 高维数据的二分类问题 Independence Rule 数值例子 用模拟数值做一个二分类的例子. library(MASS)# ...

  9. UA MATH574M 统计学习II 二元分类

    UA MATH574M 统计学习II 二元分类基础 基础模型 Bayes分类器 均等成本 不等成本 线性概率模型 线性分类器 线性判别分析(LDA) Logistics回归 基础模型 假设一个二元分类 ...

  10. UA MATH574M 统计学习I 监督学习理论

    UA MATH574M 统计学习I 监督学习理论 统计决策理论 损失函数与风险函数 偏差-方差的权衡 最优估计量 贝叶斯规则 监督学习理论的基本概念 Optimal Learner 经验损失函数与ER ...

最新文章

  1. LeetCode简单题之删除一个元素使数组严格递增
  2. linux-进程的替换exec函数族
  3. 《中国人工智能学会通讯》——2.31 跨环境抽象(Abstracting Across Environments)
  4. kerberos认证_初识 Windows域认证体系 Kerberos认证
  5. 会按摩的充气颈枕,只占行李箱一个角,却能让你的脖子爽到爆
  6. sonar java_修复Sonar中常见的Java安全代码冲突
  7. 程序员如何理解Gmail“撤销发送”功能
  8. 第二阶段冲刺(第十天)
  9. swagger主页访问,返回报错500
  10. 崂山道士、Harry Potter和人脸识别
  11. 常用计算机 启动bios,常见电脑进入bios的方法
  12. 2013年大学英语专升本作文——Should One Expect a Reward When Doing a Good Deed?【标准答案、精品范文答案】
  13. 利用jdk使用WebService
  14. Vanishing gradient and activiation funcation(ReLU、Maxout)
  15. html5中float的用法,float的用法总结大全
  16. css3图片倾斜3D效果
  17. 颜色搭配,典型配色方案
  18. Python基础知识入门PartII
  19. 台灯显色指数多少比较好?2022双十一显色90以上的台灯推荐
  20. 2021年6月7日08点37分 渗透测试基础部分

热门文章

  1. aspose.word使用简单方法
  2. Percona XtraBackup 2.0.3 发布
  3. DIY协同办公平台(C/S)系列3之内部邮箱篇
  4. Java实现分类文件拷贝2
  5. 判断两字符串是否为逆序
  6. docker的安装与加速器的配置
  7. 解析Health端点数据获取异常数据
  8. fasfdfs安装记录(CentOS7)
  9. 安装部署elasticsearch过程详解
  10. Apache无法加载PHP模块的解决方案