随机变量及其概率分布

随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定。

1.随机变量的类型:

1.1离散型:
1.1.1 离散型r.v.X :离散型 r.v.X取有限或可数多个值:
  • 离散型随机变量的分布 (1)

P(X=xk)=Pkk=1,2,3...nP(X=x_k) = P_k \ \ k=1,2,3...n P(X=xk​)=Pk​  k=1,2,3...n

  • 离散型随机变量的分布 (2)
X x1 x2 xn
P P1 p2 pn
1.2 连续型

若df满足如下条件:存在非负函数f(x),且∫f(x)dx=1,F(x)=∫−∞xf(x)dx若df满足如下条件:存在非负函数f(x),且 \int f(x)dx =1 , F(x) =\int_{-\infty}^x f(x)dx 若df满足如下条件:存在非负函数f(x),且∫f(x)dx=1,F(x)=∫−∞x​f(x)dx
则称F(x)为连续型df,对应的r.v X称为连续型随机变量。


2 随机变量的概括性度量:

2.1 期望值:描述随机变量水平的统计量
2.1.1 离散型随机变量的期望:

μ=E(x)=∑xipi\mu = E(x) = \sum{x_ip_i} μ=E(x)=∑xi​pi​

2.1.2 连续型随机变量的期望:

μ=E(x)=∫−∞∞xf(x)dx\mu = E(x) = \int_{-\infty}^{\infty}xf(x)dx μ=E(x)=∫−∞∞​xf(x)dx

2.2 方差: 描述随机变量离散程度的统计量
2.2.1 离散型随机变量的方差:

σ2=D(x)=∑(xi−μ)2pi\sigma^2 = D(x) = \sum{(x_i-\mu)^2p_i} σ2=D(x)=∑(xi​−μ)2pi​

2.2.2 连续型随机变量的方差:

σ=D(x)=∫−∞∞(x−u)2f(x)dx\sigma = D(x) = \int_{-\infty}^{\infty}(x-u)^2f(x)dx σ=D(x)=∫−∞∞​(x−u)2f(x)dx


3 几种常见的分布

3.1 常见的离散型分布:二项分布、泊松分布、超几何分布
3.2 常见的连续型分布:正态分布、均匀分布、指数分布
3.3 其他几个重要的分布卡方分布、t分布、F分布

关于以上分布的分布函数、概率密度函数、描述性统计量、函数图像等信息在任何一本统计学教材均可查看,本文就不再赘述。


4 样本统计量及其概率分布的相关概念

参数:对总体特征的某个度量,通常情况下总体参数的值是未知的,需要通过样本信息进行推断;

统计量:根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量;样本统计量是一个随机变量。

统计量的概率分布:统计量是一个随机变量,它有一定的概率分布,样本统计量的概率分布也称为抽样分布,它是由样本统计量的所有可能取值形成的相对评率分布。统计量的概率分布实际上是一种理论分布。

比例:比例是指总体中具有某种属性的个体与全部个体之和的比值。

标准误:统计量的标准误是指统计量分布的标准差,也称为标准误差,标准误差用于衡量样本统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度; 例如:对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。

标准误的计算公式如下
SE=σxˉ=σ/nSE =\sigma_{\bar{x}} = \sigma/\sqrt{n} SE=σxˉ​=σ/n​


参考资料:

贾俊平.《统计学-基于R》 第三版
茆诗松.《概率论与数理统计教程》 第二版

大数据之统计学基础(二):随机变量及其概率分布相关推荐

  1. 大数据之统计学基础(一)

    1. 统计学 统计学可以分为:描述统计学与推断统计学 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度.例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围. ...

  2. 大数据之统计学基础(一) -- 描述统计

    描述统计 1.描述数据水平的统计量 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数: 算 术 平 均 数 x ˉ = ∑ i = 1 n x i n 算术 ...

  3. Thinking in BigData(五)大数据之统计学与数据挖掘

    今天回来,在原来的文章中,添加了一些数据挖掘方面的概念. 上篇博客,我们从"大","价值"两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛.在最后,我么指 ...

  4. 【2017年第4期】大数据平台的基础能力和性能测试

    姜春宇1,2,魏凯1,2 1.中国信息通信研究院移动互联网与大数据部,北京 100191 2. 数据中心联盟大数据发展促进委员会,北京 100045 摘要:目前整个大数据技术还处于以开源方式为主导.多 ...

  5. ApacheCN 大数据译文集(二) 20211206 更新

    Hadoop3 大数据分析 零.前言 一.Hadoop 简介 二.大数据分析概述 三.MapReduce 大数据处理 四.基于 Python 和 Hadoop 的科学计算和大数据分析 五.基于 R 和 ...

  6. SQL Server 大数据群集 部署(二)工具篇

    SQL Server 大数据群集 部署(二)工具篇 在进行部署大数据群集之前,先要安装一系列的工具,下表列出了常用的大数据群集工具以及如何安装它们: 工具 Required Description 安 ...

  7. 大数据时代统计学面临的机遇与挑战

    (2016-10-15 银河统计) 大数据时代的到来, 使我回想起上个世纪80年代大学时期非常流行的一本书: <第三次浪潮>(The Third Wave) 美国著名未来学家阿尔温.托夫勒 ...

  8. 大数据第二阶段Python基础编程学习笔记(待完善)

    大数据第二阶段Python基础编程学习笔记(待完善) 第一章 Python基础语法 3.8 1-1Python概述 python基础部分: ●Python基础语法: 标识符,关键字,变量,判断循环.. ...

  9. Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装

    Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装 今日课程学习目标 1.掌握Linux用户.权限管理 2.掌握Linux常用系统命令 3.掌握服务器集群环境搭建 4.了解sh ...

最新文章

  1. python命令式编程的概念,【Python】十分钟学会函数式编程
  2. 速卖通物流发货怎么操作?“解读”重点国家市场物流状况
  3. html 自定义字段,HTML 标签自定义属性的问题
  4. python接口测试框架实战与自动化进阶(三)
  5. switch 条件判断_C语言学习第7篇---C语言三大结构之一判断结构
  6. Google谷歌通过地址计算两地距离 HOW TO CALCULATE DRIVING DISTANCE BETWEEN 2 LOCATIONS
  7. 怎样才算精通Linux
  8. IOS 项目中遇到的问题
  9. 计算机组成原理试题解析答案,计算机组成原理习题答案解析(蒋本珊)
  10. Nexus3 私服搭建和配置
  11. ROP攻击:Challenge 0x14: Horcruxes
  12. 极客日报第 21 期:360 安全浏览器尝试收费;苹果macOS首次出现在云端
  13. 确定性知识推理方法--产生式推理
  14. 20145240 《信息安全系统设计基础》第六周同学问题总结
  15. 自制APP连接OneNET---实现数据监控和下发控制(HTTP)
  16. 电音风格之Future Bass【待续】
  17. 微信小程序调用json数据接口并解析
  18. VS(Visual studio)各版本密钥汇总
  19. 汉诺塔matlab实现
  20. 西门子热水器替换疑问配件后持续卖 公司称安全

热门文章

  1. 人工蜂群算法(Artificial Bee Colony Algorithm,ABC)
  2. 矩阵向量求导-刘建平Pinard|笔记
  3. 虚拟机安装redhat 9.0后,解决屏幕不能全屏以及避免鼠标来回切换的方法
  4. Python if语句嵌套(入门必读)
  5. Bootstrap框架(一)
  6. 耳朵是如何听到声音的
  7. 基本项目_家庭记录收支程序
  8. java翻转树_【LeetCode(Java) - 156】上下翻转二叉树
  9. GPT最新免费网站分享(持续更新)
  10. 伏羲次序与方位图及河图河书的时空模式(事)