传送门:数理统计|笔记整理(1)——引入,重要分布函数,特征函数及计算

——————————————————————————————————————

大家好!图文无关……

不知道大家对于上一节的感受如何,我们这一节会继续补充说完上一节剩下的一些更加高深的分布的内容,并开始引入正式的数理统计的部分。从这之后,我们就算正式进入了数理统计的大门。当然如果你对研究生的内容并不感兴趣,其实上一节你只需要掌握两个重要的分布(伽马分布和贝塔分布)即可。

考虑到高等数理统计与初等数理统计的架构和内容深度均不同,因此后期我们更新可能并不会按照与初等数理统计的课程相似的进度。但如果你是研究生或博士生,那情况就完全不一样了……

另外,作为文章本身的优化,我们开始在每一篇文章只保留上一篇与下一篇的链接,方便大家导引。如果需要这一系列笔记添加更多习题的同学麻烦和我说一下,若有需求我会再单独出文章介绍一些不错的题目的解法,虽然目前笔记会有习题,但是主要目的还是为了熟悉知识和提纲挈领,如果你需要锻炼做题熟练度,那一两道题显然是不足的。

那么我们开始吧。

目录

  • 样本与总体基本概念
  • 抽样分布与抽样定理
  • *非中心分布
  • 次序统计量

样本与总体基本概念

什么是总体?总体你可以理解为一个大的背景,或者理解为很多很多数据,但是它们都有相同的分布。或者你也可以理解为,我们学统计,是为了研究一个东西的不确定性,而这个不确定性的特征被附身在了很多物体上,所以我们一般把这很多物体的集合就称为总体,因为每一个个体的不确定性的存在,导致这个总体产生了很多变化,为了描述这些变化,我们就认为它符合一种分布。简单点说,你可以理解为,总体就是一个分布,是一个随机变量。当然研究这个分布并不一定特别容易,它可以是参数估计的活,也可以是半参,或者非参的活。当然我们重点关注的还是参数估计了。

那么什么是样本呢?样本你就可以理解为是总体的某一个小的子集。我为了研究这个总体的性质,我需要调查这个样本。很多时候对这个样本做检验,就可以推断出总体的性质。每一个样本都是一个随机变量,而每一个样本在观测之后也会有一个值。在我们不考虑薛定谔的猫之前,我们一般不区分这两个概念,所以标记一般都是

,用这个标记来表示我们抽样的
个样本。但是很多书上是区分的(严格的学术界也肯定会区分),这个时候如果表示的是“样本随机变量”,那么标记就要改成

要完成这个推断的任务自然需要样本满足一些性质:随机性独立性。也就是说样本必须为简单随机样本。也就是说,如果我在大背景下说“样本

”,那么必须要求

1. 样本具有和总体相同的分布
2. 样本两两独立

最后简单提一下样本联合密度的概念。因为独立性,所以一定会有下面这个式子成立

我们在这一节会用到它。具体的更详细的关于总体和样本的知识,在《抽样调查》中会有更详细的阐述,但是我自己没有学过,我们的重点也不在这里,所以就不再多言了。

抽样分布与抽样定理

我们先关注抽样分布

首先是卡方(

)分布,给定一个标准正态分布
,那么我们有
(考虑到篇幅,这个证明我们略过),也就是
的定义。那么如果我们有
个这样的标准正态分布的平方
加在一起,因为上一节我们有说过伽马分布的可加性,所以有
。你可以理解为我们定义了
然后根据可加性定义了
,也可以理解为我们直接定义
是一系列标准正态的平方和,但无论怎么理解,它的形式和结果都是那个和伽马分布一样的结构。这里

自由度

既然你都知道了它是一种伽马分布,那自然你容易知道它的密度函数,也就是

它的期望和方差分别是

。为了熟悉数理统计中的计算技巧,我们不如将期望的计算作为一个小的例题。

Problem 1:
证明

的期望为

我们先写出期望公式。

你还记得我们在上一节介绍的那个伽马函数的计算公式吗?不记得翻一下上一节“伽马分布”那一部分。通过这个公式可以得到

你看,有了公式,非常容易。

学过工科难度概率统计的肯定知道

分布的重要性,而使得它被重点关注的原因主要来源于下面这个定理。

Theorem 1:

为来自正态总体
的样本,样本均值与样本方差为
,那么

(1)

相互独立

(2)

(3)

这个证明是非常有技巧性的,我们一步步来看。首先是第一个,既然我们希望推导两个与样本所有信息均有关的统计量的独立性,我们当然要先考虑写出样本的联合密度函数

概率论学过推导独立的方法就是变量代换然后看密度函数是否可分离变量。那么这里很显然你需要变量代换,这里就相当于说你要考虑设置一个新的变量

,满足它是
的常数倍。但是这样就够了吗?好像不是。在正态分布中,常见的想法是配方,构造出可以分离变量的各个部分。那么既然要配方,

二次项的结构就不能够被破坏,也就是说刚开始是

,变完之后就得是
。将这两个条件合并在一起可以得到什么?

首先你肯定需要一组新的变量,不可能仅仅是一个

就vans的,那么第一考虑肯定是简单的线性变换
,其中
。这样的话不难得到,
,所以如果你想保持结构,你必须要满足的条件是

最简单的方法当然是

(注意,我们这里的目的是

寻找一个变换,不是证明变换唯一,当然可能存在别的

使得这个式子条件满足,但是why bother?),现在我告诉你这个方法叫作

正交变换法,你应该明白原因了吧?总结一下,我们需要一个标准正交矩阵,并且要帮助我们构造一个新的变量,满足

,如何做到呢?你只需要观察到,这个要求相当于说每一个

之前的系数相同,而标准正交阵它的行,列平方和都必须要求为1。所以你只需要要求正交矩阵的第一行都是

即可。

于是我们已经可以构造出正交矩阵来了,高代的定理保证了一定存在这样的正交矩阵。

你看,我们并不关注我们的矩阵其它元素长什么样。因为我们令

,目的只是想得到下面这些式子

这样就可以得到新的联合密度函数

你可以看到,因为可分离变量,所以各个变量是相互独立的,通过这个你还可以得到

的均值为
,而方差与其它变量相同,都是
。那么根据之前的
,就可以得到
的概率分布了,这就证明了我们的第二个结论。

哎?怎么先证明了第二个?不急,第一个也不难,因为我们可以推出来的是

所以独立性就得到保证了。而最后一个结论,其实转换成

就可以得到了,因为

到此,我们终于证完了这个定理。

关于t分布F分布,我们这里只给出它们的形式。因为初等数理统计中其实不需要记忆这些公式,推导也是概率论的内容(当然麻烦是肯定的),所以没有必要大费笔墨。

剩下的有关抽样定理的内容,我们在之前的《数理统计概要》(也就是工科数理统计)中都已经详细介绍过。

学弱猹:统计学笔记|数理统计知识点概要(2)​zhuanlan.zhihu.com

值得高兴的是,这笔记中间没有详细介绍的抽样定理的第二个,我们终于在这里补全了。

非中心分布

如果你看过《回归分析》的笔记,你就不会是第一次碰到这个名字。非中心分布主要是伽马分布,然后通过非中心伽马分布引出了非中心的三大抽样分布。那么它们究竟是什么呢?

Definition 1: Noncentral Gamma Distribution定义非中心伽马分布

的密度函数为

乍一看这个式子挺难理解的。其实

就是中心伽马分布
的密度函数,而
中,
就是泊松分布的离散密度,也就是说
,至于
,它被称为

计数测度。粗略一点理解,如果这个概率密度是在连续范围内定义,那么就是我们常见的

,这里因为泊松分布的定义是非负整数集合,那么就变成了求和。

那么你其实可以看出来,非中心伽马分布就是中心伽马分布的泊松加权和。因为每一个泊松系数的求和为1(不然的话,它就不是概率分布了)。另外,如果你清楚伽马分布与卡方分布的关系,那么你就应该会明白为什么我们定义非中心卡方分布

我们下面介绍一些关于它们的性质,帮助大家熟悉这船新的概念~

Proposition 1:

显然如果没有这个性质,那么它都不能作为一个密度函数。不难证明,我们先把它的定义写出来,并且把式子拆出来,有

学过级数的话你应该知道,如果这个关于

的幂级数是

绝对收敛的,那么即可以逐项积分(当然了实分析告诉你,实际上条件没那么严格)。这里我们需要做一些修改,也就是说把仅与

有关而与
无关的项挑出来,然后改成类似于这么一个样子

你容易验证这个级数绝对收敛,因为系数满足

。那么这样的话,交换积分和求和的顺序,我们就有

就证明了结论。

Proposition 2:

,则它也满足

这也是基本概念,注意到我们有

其中

,那么这样的话可以知道
,又因为
,所以由密度函数公式
,就证明了结论。

根据这个自然就不难得到下面这个结论。

Proposition 3:

,则它也满足

下面几个性质的证明方法比较类似,所以我们列出来,但只证明其中一部分。

Proposition 4:

Proposition 5:非中心伽马分布与非中心卡方分布特征函数为

,

如果要直接使用我们最开始的二元分布的形式,那有点太烦了,事实上有了我们的Proposition 2结合我们的重期望公式,一切就可以简单很多。我们以求特征函数(Proposition 5)为例子,只需要注意到

(这里再强调一下,

就是
的特征函数)

到了上面那一步,我们是针对

求的期望,所以需要代入
的密度函数,而我们之前说
服从泊松分布,所以有

最后是用了一个

的Taylor展开。所以我们就证明了结论。

有了特征函数这个结论,可加性相信你也不难推出。我们直接写出结论

Proposition 6:

且相互独立,那么

最后我们简单介绍一个多元统计中会用到的性质。详细的可以参考张尧庭,方开泰的《多元统计分析引论》P469。这个证明因为我没有看明白(大雾……),所以就不抄在这里了……

Proposition 7:

,那么

在回归分析中它被多次用到。

接下来我们简单提一下非中心F分布。

Definition 2: Non-centric F-distribution

且相互独立,那么称
服从非中心F分布

它的大部分性质都和非中心伽马分布的形式很相近,所以我们只证明一个,剩下的就不再证明了。

Proposition 8:

,那么
可视为
中的
的边缘分布,其中

这个证明其实要用的就是非中心伽马分布的另一种表达方式。设

,那么
可以视为
边缘分布,
,这样的话就会有

因为我们以

作为了条件,所以我们之后那个分式其实就是常数,而之前那个分式就是正常的F分布,所以这就很容易得到我们的结论了。

通过这个性质我们还可以得到它的分布函数,期望等性质。我们直接列在这里。

Proposition 9:

,则

Proposition 10:

分布函数为

最后简单提一下非中心t分布

Definition 3: Noncentric t-distribution

且相互独立,那么
服从非中心
分布

因为它们确实太像了,我们也没必要再多做讨论,这就太深了。

次序统计量

我没有先介绍基本的样本和总体的定义,而是事先提这个统计量,是因为它几乎贯穿了整个数理统计课程,同时它也给很多数理统计的计算带来了较大的难度。在给出这些统计量的定义之后,我们会给出一些计算题用于概率论知识的巩固。

次序统计量

的统计含义是:

一组样本中,第

小的数满足的概率分布。所以你也能看出来,如果你要做抽样模拟,那么对应的场景就是每一次都要取

个样本,然后抽出其中第
小的那个,这和“第
个”的含义当然是完全不同的。

Theorem 2: 设总体

的密度函数为
,分布函数为
,其中
为样本,那么第
个次序统计量
的密度函数为

一个类推的定理就是多个次序统计量的分布,我们也写在下面。

Theorem 3: 条件同上,则次序统计量

的密度函数为

它的证明书本上说的很清楚了,因此我们这里不再赘述。这里贴一个链接以供参考。

次序统计量及其分布​www.doc88.com

最后,我们用几道依赖概率论知识的计算题结束这一节。我们也可以通过它来简单的窥探到数理统计所需要的微积分的相关技巧。

Problem 2: 设总体为韦布尔分布,其密度函数为

现从中拿到样本
,证明
仍服从韦布尔分布,并指出参数。

首先既然是要求

的分布,那么它的密度函数自然不可忽视了。我们根据上面的公式可以得到结果为
(
为样本数)

为了完成这个任务,我们需要先计算

,再计算
。这就需要我们万能的微积分了。

这里我们需要注意提醒的一点是需要观察到

,所以这样就可以方便通过变量代换得到我们的积分结果。根据这个,我们再代入就可以得到

而为了判断它是和总体同分布的,你就需要保证它的密度函数在结构上是保持一致的。这里我们可以看到,针对

,它的指数部分和非指数因子相对比
来说都多了一个
,因此如果我们把指数部分拿出来再求导,依然可以得到我们的非指数因子。这就说明如果我们求积分得到
,它的结构也是
这样的一个形式,那就说明同分布了。至于参数,稍微变换一下即发现参数中
未变,而
变成了

Problem 3: 设总体

密度函数为
为容量为5的次序统计量,证明
相互独立。

如果要证明两个统计量相互独立,我相信你在概率论中一定听说过所谓的变量替换法。也就是说通过构造一个联合分布

,先通过变量代换弄出
,然后再分别求出边缘分布

首先根据这个思路,先求出

,这样的话,根据多元次序统计量公式就可以得到

考虑下面这个变量代换

根据这个,我们还需要算出变换的雅可比(Jacobi)行列式,它的公式是

根据我们的变量代换公式,我们需要首先用

代入,再乘上雅可比行列式的

绝对值,这样就可以得到我们的结果为

既然已经有了我们要的联合密度,那么下一步就是求一下边际密度就好。如果可以得到

就可以得到我们的结论。如果要求

,那么就对
求积分即可,反之亦然。你也可以看出来,这个分布函数是可分离变量的,因此我们主要还是观察

边缘分布的系数。所以其实只需要计算这两部分

你可以看到,根据这两个积分,你就可以知道,两个边缘分布其实就是

所以如果将边缘分布相乘,你是不必要担心非系数部分有差异的。而系数部分你可以看到相乘起来也正好都是

,这样就可以得到我们的结论了。

于是,我们用这两个题,结束了这一节。

小结

这一节我们主要关注了常见的统计量与抽样分布。其重点在于次序统计量的相关计算与抽样定理的相关证明。需要提醒的是这一节内容量很大,消化可能需要一段时间。如果你之前没有接触过工科数理统计,那么其实这一节就有点像两节的意思2333……

关于指数族分布我们没有在这里提,虽然它也是高等数理统计中重要的一部分,但是书本介绍的内容过于理论和抽象。考虑到我们的应用性,我们会在之后使用它的时候再涉及这些内容。

进入申请季,笔记更新速度会变慢一些,恳请大家谅解~

下一节传送门:数理统计|笔记整理(3)——充分统计量

——————————————————————————————————————

本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃

个人微信公众号:cha-diary,你可以通过它来获得最新文章更新的通知。

《一个大学生的日常笔记》专栏目录:笔记专栏|目录

《GetDataWet》专栏目录:GetDataWet|目录

想要更多方面的知识分享吗?可以关注专栏:一个大学生的日常笔记。你既可以在那里找到通俗易懂的数学,也可以找到一些杂谈和闲聊。也可以关注专栏:GetDataWet,看看在大数据的世界中,一个人的心路历程。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~

两个卡方分布之和_数理统计|笔记整理(2)——样本与总体概念,抽样分布,次序统计量...相关推荐

  1. c++求n的几次方_数理统计|笔记整理(E)——Ch7-C习题课

    上一节笔记传送门:数理统计|笔记整理(D)--Ch1-6习题课 -------------------------------------- 大家好!这一节我们依然会补充一些习题,内容则是正文的后半部 ...

  2. 两个卡方分布之和_正态分布样本均值和样本方差的独立性

    前记:假期开始后,主要精力放在了科研上,最近终于抽点时间写点更新. 在数理统计的学习中,有一个重要的结论,即对于正态分布而言,样本均值和样本方差是独立的.这个结论初看起来是有些让人吃惊的,因为直观上样 ...

  3. 两个卡方分布之和_推荐基础算法之矩阵分解PFM

    推荐基础算法之矩阵分解PFM PFM被称为概率因子模型(Probabilistic Factor Model)或泊松因子模型(Poission factor model).PFM本质上和概率矩阵分解( ...

  4. 两个卡方分布之和_机器学习算法数学基础之 —— 统计与概率论篇(3)

    核心问题 发现数字的隐藏规律,完成分类. 核心技能 最大似然估计 给定一个概率分布 ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数 ,我们可以从这个分布中抽出一个具有 ...

  5. 一元线性回归决定系数_回归分析|笔记整理(1)——引入,一元线性回归(上)...

    大家好! 新学期开始了,不知道大家又是否能够适应新的一学期呢?先祝所有大学生和中小学生开学快乐! 本学期我的专业课是概率论,回归分析,偏微分方程,数值代数,数值逼近,金融时间序列分析,应用金融计量学和 ...

  6. 数理统计内容整理(一)基本概念

    总体(或母体) 所研究的对象的全体. 个体 这里是引用 总体中的元素. 有限总体 总体中的个体数目为有限. 无限总体 总体中的个数数目为无线. 数理统计 关心的是某一项或若干项数量指标X(向量)和该数 ...

  7. 主成分回归之后预测_回归分析|笔记整理(B)——主成分回归(下),偏最小二乘回归...

    大家好! 上一节我们给主成分回归开了一个头,这一节我们会继续介绍它的有关内容,并且同时会介绍另一种新的回归方法:偏最小二乘回归.这一节的理论性也比较强,主要关注了相关回归的理论上的性质与相关证明. 提 ...

  8. 多元线性回归的缺陷_回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况...

    大家好!我又出现了(*^__^*) 嘻嘻.刚结束PDE考试(不可避免的凉凉)我就赶紧过来完成了这一篇文章. 这一节我们会结束多元线性回归的内容,并且会努力结束下一个部分--违背基本假设的情况的相关内容 ...

  9. python偶数分解成两个素数之和_偶数 2021218918 ,有多少种方法分解成两个素数之和?...

    对于上面问题2N=2021218918,满足"p+q=2N"的素数对(p,q)的个数真值为3289208个.下面对这个值进行理论探求分析,请大家不吝赐教! 下面先来进行基于小素数因 ...

  10. 四阶代数余子式怎么求_老笔记整理五:C实现10阶内通过展开代数余子式求行列式的值...

    这个分为两部分,先是写出了C实现计算三阶行列式,然后过了一段时间突然有了思路才写下了10阶内这段代码.真怀念那段写代码的日子. 一:C实现计算三阶行列式 最近高数课在上线性代数,二阶的还能口算,三阶的 ...

最新文章

  1. Docker构建YApi镜像, Docker安装YApi, Docker部署YApi
  2. 最好的电脑系统_安装电脑系统不求人,教你如何自己动手装系统!值得收藏学习...
  3. CTFshow 文件上传 web162
  4. UVA 10601 Cubes
  5. linux 字符串转数字排序,linux中sort命令排序功能实现方法
  6. 10个遥远但近在人间的天堂!
  7. Linux tar命令高级用法——备份数据
  8. kvmweb管理工具_KVM web管理工具——WebVirtMgr(一)
  9. php可逆加密函数,简洁的PHP可逆加密函数
  10. html hint标签,htmlhint
  11. 【报告分享】万达文旅项目新媒体营销操作手册.pdf(附下载链接)
  12. 5个被忽视的习惯,决定了你无法成为高级开发工程师
  13. 如何学习一个新的PHP框架
  14. 常用#免费%代理IP库整理*收藏——实时@更新(大概)
  15. 华为设备配置基于MSDP的Anycast RP
  16. 我的世界java追踪光影_探索MC的光线追踪 真实光影下的马赛克世界
  17. 下载 沙耶之歌Android_沙耶之歌安卓版
  18. 注意区分及优化销售管道和销售预测
  19. 软件需求包括3个不同的层次 业务需求 用户需求和功能需求
  20. mysql格式化到年月日_格式化MySQL日期并转换为年-月-日

热门文章

  1. 编译go版本的supervisord
  2. 胡适先生1934年《赠与大学毕业生的话》
  3. 用扫码枪收款钱到哪里_微信官方收款音箱,智能语音播报器,不受来电和信息干扰,老板不在也能正常播报,0费率无需蓝牙,面送赠送流量,真正的摆摊神器...
  4. ISBN码书籍信息查询
  5. 分治算法详解及经典例题
  6. 什么是云服务器ECS
  7. 服务器响应为 5.7.0 dt spm,常见邮箱客户端发送失败的错误代码解析
  8. 百度排名批量查询_企业网站建设,核心关键词排名丢失,怎么办?
  9. 网络广告的效果测定与评估
  10. 如何使用 Putty 以密钥 private key 的方式登录腾讯云主机