【概率论与数理统计】小结7 - 统计学中的基本概念
注:概率论方面就暂时告一段落,终于可以说说统计方面的事情了。如果说概率论中主要是研究随机变量的方法学和理论模型,那么统计学就是利用概率论这一强大的工具来研究具有随机性的现象(结果的不确定性)。而研究这些随机现象最重要的方法就是,大量重复试验进而找到其统计规律性。一般步骤为:重复试验(例如反复测量,多次观察等)并记录试验结果,然后对这些实验数据进行整理、分析和建模。最终达到对随机现象的某些规律进行预测并指导我们的决策的目的。下面对一些基本概念做一个总结。
0. 概率论与数理统计的异同
概率论、数理统计都是研究随机现象的统计规律性的数学分支,但两者研究角度不同。
概率论:从已知分布出发,研究随机变量$X$的性质、规律、数学特征等;
数理统计:研究对象$X$的分布未知或只知道部分信息,需要观察它的取值(数据采集),通过分析数据来推断$X$服从什么分布或确定未知参数。
数理统计研究问题的主要方法:以部分数据信息来推断整体相关信息
1. 样本与总体
样本与总体的概念,在前面已经多次接触到,只是没有非常明确的给出定义。例如我们一般假设某个学校全体学生的身高,用随机变量$X$表示,近似服从正态分布,这里的正态分布就是"总体"的分布,字面意思就是所有待研究对象的集合。在实际的数据分析中,我们通过观察或其他测量方式得到的数据一般都只是待研究对象的一个子集,这个子集就是一个样本(可以包含多个个体)。例如通过某种方式,从全体学生中找出100名学生,这100名学生就是一个样本。样本与总有之间的关系,有两种可能的情况:
- 如果这种方式是完全随机的(例如抽签),那么这个样本就是全体学生的一个非常好的代表,我们可以利用这个100个学生的平均身高、体重、家庭收入等来估计全体学生的平均身高、体重以及家庭收入。这时候样本的分布应该与总体的分布类似,都近似服从正态分布。
- 但如果我们找出这100名学生的方式不是完全随机的,那么这个样本就不具有代表性,此时样本的分布与总体的分布可能会有非常大的差异。
总体:研究对象的全体;
个体:总体中的成员;
总体的容量:总体中包含的个体数;
有限总体:容量有限的总体;
无限总体:容量无限的总体,通常将容量非常大的有限总体也按无限总体处理。
样本,总体&随机变量
- 实际中人民通常只关注总体的某个(或几个)指标;
- 总体的某个指标$X$,例如全体学生的身高,对于不同的个体来说有不同的取值,这些取值构成一个分布,因此$X$可以看成一个随机变量;
- 有时候直接将$X$称为总体,假设$X$的分布函数为$F(x)$,也称总体$X$具有分布$F(x)$。
样本容量:样本中所含个体的数目;
抽样:抽取样本的过程;
由于抽样的随机性,样本也具有随机性,通常容量为n的样本用随机变量 $X_1, ..., X_n$ 来表示,
简单随机样本:若 $X_1, X_2, ..., X_n$ 是相互独立的(独立性)且与总体 $X$ 有相同的分布(代表性),则称 $X_1, X_2, ..., X_n$ 为来自总体 $X$ 的一个容量为n的简单随机样本,简称为 $X$ 的一个样本。获得简单随机样本的抽样称为简单随机抽样。如果没有特殊说明,统计里面所说的样本都指的是简单随机样本。
样本($X_1, X_2, ..., X_n$)的每一个观察值($x_1, x_2, ..., x_n$)称为样本值或样本的一次实现。
样本值的集合称为样本空间。
总体分布决定了样本取值的概率规律,因而可以由样本值去推断总体。数理统计的主要任务之一就是研究如何根据样本推断总体。
联合分布函数:若总体 $X$ 的分布函数为 $F(x)$,$X_1, X_2, ..., X_n$ 为来自 $X$ 的一个样本,则样本($X_1, X_2, ..., X_n$) 的联合分布函数为:
$$F(x_1, x_2, ..., x_n) = \displaystyle \prod_{ i = 1 }^nF(x_i)$$
2. 统计量
统计量的概念存在于样本中,是对样本某个指标的概括,例如上面例子中选出来的100位学生的平均身高就是一个统计量。统计量区别于"个体量"(我自己生造的词),具有以下两个特点:
- 不包含任何未知数;
- 包含所有样本的信息。
因此只要样本确定,统计量的值就可以直接计算出来。例如一旦选定100位学生,他们的平均身高就可以计算出来。
定义
样本的不包含任何未知参数的函数。通常可以通过构造统计量的方式,从样本中提取有用的信息来研究总体的分布以及各种特征数。
常用统计量
- 样本均值 $\bar{X} = \displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i$;
- 样本方差 $S^2 = \displaystyle \frac{1}{n - 1} \sum_{i=1}^{n}(X_i - \bar{X})^2$;
- 样本标准差 $S = \sqrt{S^2}$;
- 样本k阶原点矩 $A_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}X_{i}^k$;
- 样本k阶中心距 $B_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^k$, k = 1, 2, ...
从上面可以看到:样本的均值等于样本的1阶原点矩;但是样本的方差不等于样本的2阶中心距(在总体中这两者是相等的);
用统计量估计总体的数字特征
当总体数字特征未知时,
- 用样本均值$\bar{X}$估计总体均值$\mu = E(X)$;
- 用样本方差$S^2$估计总体方差$\sigma^2 = E(X - \mu)^2$;
- 用样本原点矩$A_k$估计总体原点矩$\alpha_k = E(X^k)$;
- 用样本中心距$B_k$估计总体中心距$\beta_k = E(X - \mu)^k$。
上面用到的表示矩的符号,请参考小结5中,矩那部分的符号说明。
以上估计的理论基础就是大数定律。值得注意的是,总体的均值$\mu$是一个数,可能已知,也可能未知;而样本均值$\bar{X}$是一个随机变量,依赖于样本值。
3. 抽样分布
统计量的分布被称为抽样分布。
当总体$X$服从一般分布(如指数分布、均匀分布等),要得出统计量的分布是很困难的;当总体$X$服从正态分布时,统计量$\bar{X}$、$S^2$是可以计算的,且服从一定的分布。这些分布就是下面要介绍的三大抽样分布——$\chi^2$分布,$t$分布,$F$分布。
欢迎阅读“概率论与数理统计及Python实现”系列文章
Reference
中国大学MOOC:浙江大学&哈工大,概率论与数理统计
转载于:https://www.cnblogs.com/Belter/p/8029712.html
【概率论与数理统计】小结7 - 统计学中的基本概念相关推荐
- 概率论在实际生活的例子_概率论与数理统计在实际生活中的应用-论文.doc
您所在位置:网站首页 > 海量文档  > 学术论文 > 大学论文 概率论与数理统计在实际生活中的应用-论文.doc19 ...
- 互斥事件的概念和公式_统计学中的基本概念和重要公式(一)
统计学中的基本概念和重要公式 一.基本概念 二.重要公式 一.基本概念 1.描述统计学 2.推断统计学 3.数据的几种尺度和类型 4.条形图 5.直方图 6.茎叶图 7.箱线图 8.累积频数 9.累积 ...
- 在统计学中参数的含义是指_第一篇 理解统计学中的基本概念
统计学(stastics)是收集.分析和解释数据的科学. 描述统计(descriptive statistics)是研究数据还搜集.整理和描述的统计分支.描述统计的内容包括取得所需要的数据.用图表形式 ...
- 宋浩概率论与数理统计-第八章-笔记
概率论与数理统计 第八章 假设检验 8.1 基本概念 一.假设检验问题 二.假设检验基本概念 三.假设检验的思想与步骤 1. 思想 2. 步骤 四.两类错误 8.2 一个正态总体的参数假设检验 一.μ ...
- 概率论与数理统计考研复习
概率论与数理统计考研复习 1 随机试验的特点 概念 2样本空间.随机事件 概念 事件关系与事件的运算 定律 3 频率与概率 频率 概率 1 随机试验的特点 概念 可以在相同的条件下重复地进行: 每次试 ...
- 概率论与数理统计中的算子半群 第一讲 Banach-Steinhaus定理2 Banach-Steinhaus定理的应用
概率论与数理统计中的算子半群 第一讲 Banach-Steinhaus定理2 Banach-Steinhaus定理的应用 上一讲我们介绍了Banach-Steinhaus定理: Banach-Stei ...
- 概率论与数理统计中的算子半群 第一讲 Banach-Steinhaus定理1 Baire‘s Category与Banach-Steinhaus定理的证明
概率论与数理统计中的算子半群 第一讲 Banach-Steinhaus定理1 Baire's Category与Banach-Steinhaus定理的证明 Baire's Category Theor ...
- 概率与统计在计算机应用,计算机技术在概率论和数理统计中的应用
计算机技术在概率论和数理统计中的应用 (5页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.90 积分 概率论与数理统计 期中论文计算机技术在概率论和 ...
- 【概率论与数理统计】小结8 - 三大抽样分布
注:抽样分布就是统计量的分布,其特点是不包含未知参数且尽可能多的概括了样本信息.除了常见的正态分布之外,还有卡方分布.t分布和F分布为最常见的描述抽样分布的分布函数.这几个分布函数在数理统计中也非常有 ...
- python在概率论与数理统计中的作用
概率论与数理统计 一.描述性统计和统计图 1.用Pandas来计算统计量 使用 pandas的describe方法计算相关统计量,并计算身高和体重的偏度,峰度,样本的25%,50%,90%分位数 数据 ...
最新文章
- Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
- svg animation应用之-描边效果
- c4d完全学习手册_动态视觉设计就业班,全商业项目实训,一线制作团队10人小班授课,持续提升学习...
- 打造GTD style的办公环境 V1.0
- 深度思考 | 从BERT看大规模数据的无监督利用
- msf实战提权windows_ATTamp;CK实战 | 红队评估一(上)
- Docker学习笔记1 :镜像制作
- 淮安掼蛋源码之--选牌与出牌
- python3 运行you get_一个基于Python3的神奇插件——you-get
- 超好看的二次元个人主页源码
- iec104点号_IEC104规约流程
- 霍普金斯计算机专业研究生如何,约翰·霍普金斯大学电气和计算机工程硕士研究生...
- 阿里云大数据开发一面面经,已过,面试题已配答案
- html汉字间的间距,div字间距-div内文字之间间距设置方法
- 优秀员工的十二种品质 - 马云在上海演讲说的话
- Gunicorn-配置详解
- python-获取当前目录/上级目录/上上级目录...
- 调试JS获得动态视频地址
- 从新手到Flutter架构师,一篇就够!深度解析,值得收藏
- 关于win10系统重置后出现鼠标右键桌面一直转圈问题的解决办法
热门文章
- apache编译出错 error: mod_deflate has been requested
- 第十七周项目4 - 日期结构体(是当年的第几天)
- VMware知识库中文文章列表 (更新2013年6月)
- 我中招了:解喝汽水问题
- ES aggr terms nested study
- 解决问题---docker:transport: dial unix:///var/run/docker/containerd/docker-containerd.sock: time
- RedisJson 横空出世,性能碾压ElasticSearch 和Mongo!
- SpringBoot项目优雅的http客户端工具,太香了!
- 掌握中台系统,需要了解哪些技术?
- 从微服务跨越到中台,架构领域年度盘点!