大数据之统计学基础(二):随机变量及其概率分布
随机变量及其概率分布
随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定。
1.随机变量的类型:
1.1离散型:
1.1.1 离散型r.v.X :离散型 r.v.X取有限或可数多个值:
- 离散型随机变量的分布 (1)
P(X=xk)=Pkk=1,2,3...nP(X=x_k) = P_k \ \ k=1,2,3...n P(X=xk)=Pk k=1,2,3...n
- 离散型随机变量的分布 (2)
X | x1 | x2 | … | xn |
---|---|---|---|---|
P | P1 | p2 | … | pn |
1.2 连续型
若df满足如下条件:存在非负函数f(x),且∫f(x)dx=1,F(x)=∫−∞xf(x)dx若df满足如下条件:存在非负函数f(x),且 \int f(x)dx =1 , F(x) =\int_{-\infty}^x f(x)dx 若df满足如下条件:存在非负函数f(x),且∫f(x)dx=1,F(x)=∫−∞xf(x)dx
则称F(x)为连续型df,对应的r.v X称为连续型随机变量。
2 随机变量的概括性度量:
2.1 期望值:描述随机变量水平的统计量
2.1.1 离散型随机变量的期望:
μ=E(x)=∑xipi\mu = E(x) = \sum{x_ip_i} μ=E(x)=∑xipi
2.1.2 连续型随机变量的期望:
μ=E(x)=∫−∞∞xf(x)dx\mu = E(x) = \int_{-\infty}^{\infty}xf(x)dx μ=E(x)=∫−∞∞xf(x)dx
2.2 方差: 描述随机变量离散程度的统计量
2.2.1 离散型随机变量的方差:
σ2=D(x)=∑(xi−μ)2pi\sigma^2 = D(x) = \sum{(x_i-\mu)^2p_i} σ2=D(x)=∑(xi−μ)2pi
2.2.2 连续型随机变量的方差:
σ=D(x)=∫−∞∞(x−u)2f(x)dx\sigma = D(x) = \int_{-\infty}^{\infty}(x-u)^2f(x)dx σ=D(x)=∫−∞∞(x−u)2f(x)dx
3 几种常见的分布
3.1 常见的离散型分布:二项分布、泊松分布、超几何分布
3.2 常见的连续型分布:正态分布、均匀分布、指数分布
3.3 其他几个重要的分布卡方分布、t分布、F分布
关于以上分布的分布函数、概率密度函数、描述性统计量、函数图像等信息在任何一本统计学教材均可查看,本文就不再赘述。
4 样本统计量及其概率分布的相关概念
参数:对总体特征的某个度量,通常情况下总体参数的值是未知的,需要通过样本信息进行推断;
统计量:根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量;样本统计量是一个随机变量。
统计量的概率分布:统计量是一个随机变量,它有一定的概率分布,样本统计量的概率分布也称为抽样分布,它是由样本统计量的所有可能取值形成的相对评率分布。统计量的概率分布实际上是一种理论分布。
比例:比例是指总体中具有某种属性的个体与全部个体之和的比值。
标准误:统计量的标准误是指统计量分布的标准差,也称为标准误差,标准误差用于衡量样本统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度; 例如:对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。
标准误的计算公式如下
SE=σxˉ=σ/nSE =\sigma_{\bar{x}} = \sigma/\sqrt{n} SE=σxˉ=σ/n
参考资料:
贾俊平.《统计学-基于R》 第三版
茆诗松.《概率论与数理统计教程》 第二版
大数据之统计学基础(二):随机变量及其概率分布相关推荐
- 大数据之统计学基础(一)
1. 统计学 统计学可以分为:描述统计学与推断统计学 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度.例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围. ...
- 大数据之统计学基础(一) -- 描述统计
描述统计 1.描述数据水平的统计量 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数: 算 术 平 均 数 x ˉ = ∑ i = 1 n x i n 算术 ...
- Thinking in BigData(五)大数据之统计学与数据挖掘
今天回来,在原来的文章中,添加了一些数据挖掘方面的概念. 上篇博客,我们从"大","价值"两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛.在最后,我么指 ...
- 【2017年第4期】大数据平台的基础能力和性能测试
姜春宇1,2,魏凯1,2 1.中国信息通信研究院移动互联网与大数据部,北京 100191 2. 数据中心联盟大数据发展促进委员会,北京 100045 摘要:目前整个大数据技术还处于以开源方式为主导.多 ...
- ApacheCN 大数据译文集(二) 20211206 更新
Hadoop3 大数据分析 零.前言 一.Hadoop 简介 二.大数据分析概述 三.MapReduce 大数据处理 四.基于 Python 和 Hadoop 的科学计算和大数据分析 五.基于 R 和 ...
- SQL Server 大数据群集 部署(二)工具篇
SQL Server 大数据群集 部署(二)工具篇 在进行部署大数据群集之前,先要安装一系列的工具,下表列出了常用的大数据群集工具以及如何安装它们: 工具 Required Description 安 ...
- 大数据时代统计学面临的机遇与挑战
(2016-10-15 银河统计) 大数据时代的到来, 使我回想起上个世纪80年代大学时期非常流行的一本书: <第三次浪潮>(The Third Wave) 美国著名未来学家阿尔温.托夫勒 ...
- 大数据第二阶段Python基础编程学习笔记(待完善)
大数据第二阶段Python基础编程学习笔记(待完善) 第一章 Python基础语法 3.8 1-1Python概述 python基础部分: ●Python基础语法: 标识符,关键字,变量,判断循环.. ...
- Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装
Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装 今日课程学习目标 1.掌握Linux用户.权限管理 2.掌握Linux常用系统命令 3.掌握服务器集群环境搭建 4.了解sh ...
最新文章
- python命令式编程的概念,【Python】十分钟学会函数式编程
- 速卖通物流发货怎么操作?“解读”重点国家市场物流状况
- html 自定义字段,HTML 标签自定义属性的问题
- python接口测试框架实战与自动化进阶(三)
- switch 条件判断_C语言学习第7篇---C语言三大结构之一判断结构
- Google谷歌通过地址计算两地距离 HOW TO CALCULATE DRIVING DISTANCE BETWEEN 2 LOCATIONS
- 怎样才算精通Linux
- IOS 项目中遇到的问题
- 计算机组成原理试题解析答案,计算机组成原理习题答案解析(蒋本珊)
- Nexus3 私服搭建和配置
- ROP攻击:Challenge 0x14: Horcruxes
- 极客日报第 21 期:360 安全浏览器尝试收费;苹果macOS首次出现在云端
- 确定性知识推理方法--产生式推理
- 20145240 《信息安全系统设计基础》第六周同学问题总结
- 自制APP连接OneNET---实现数据监控和下发控制(HTTP)
- 电音风格之Future Bass【待续】
- 微信小程序调用json数据接口并解析
- VS(Visual studio)各版本密钥汇总
- 汉诺塔matlab实现
- 西门子热水器替换疑问配件后持续卖 公司称安全