均匀分布取某一点概率_统计概率思维
一、随机变量
对一次事件结果的数值性描述。
1、离散型随机变量:指有穷个的数值或无穷个有间隔数值系列的随机变量。
2、连续型随机变量:代表某一区间或多个区间中的任意数值的随机变量称为连续型随机变量。建立在时间、温度这样的度量单位上的实验结果用连续型随机变量表示。
举个实例:
1) 明天是否下雨,是离散型随机变量,
2) 明天下雨雨量多少,是连续型随机变量。
二、概率分布
数据在统计图中的形状叫做它的分布。
1、概率质量函数和概率密度函数
概率质量函数(probability mass function,简写为PMF):是离散随机变量在各特定取值上的概率。
概率密度函数:(probability density function,PDF):是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。
不同之处:概率质量函数是对离散随机变量定义的,本身代表该值的概率;概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的概率密度函数在某区间内进行积分后才是概率。
2、常见概率分布:
python中实现:scipy库中的stats模块。
from scipy import stats
a.均匀分布
对于投骰子来说,结果是1到6。得到任何一个结果的概率是相等的,这就是均匀分布的基础。与伯努利分布不同,均匀分布的所有可能结果的n个数也是相等的。
变量X是均匀分布的,则密度函数可以表示为:
均匀分布的曲线是这样的:
你可以看到,均匀分布曲线的形状是一个矩形,这也是均匀分布又称为矩形分布的原因。其中,a和b是参数。
X的平均值和方差为:
平均值 -> E(X) = (a+b)/2
方差 -> V(X) = (b-a)²/12
标准均匀密度的参数 a = 0 和 b = 1,因此标准均匀密度如下:
b.伯努利分布
伯努利分布只有两种可能的结果:1(成功)和0(失败)。因此,具有伯努利分布的随机变量X可以取值为1,也就是成功的概率,可以用p来表示,也可以取值为0,即失败的概率,用q或1-p来表示。 概率质量函数
来自伯努利分布的随机变量X的期望值如为: E(X) = 1*p + 0*(1-p) = p 随机变量与二项分布的方差为: V(X) = E(X²) – [E(X)]² = p – p² = p(1-p)。
c.二项分布
抛硬币只有两种可能的结果(姑且这么认为),成功和失败。因此,成功的概率 = 0.5,失败的概率可以很容易地计算得到:q = p – 1 = 0.5。 二项式分布就是只有两个可能结果的分布,比如成功或失败、得到或者丢失、赢或败,每一次尝试成功和失败的概率相等。
二项式分布的属性包括:
1. 每个试验都是独立的。
2. 在试验中只有两个可能的结果:成功或失败。
3. 总共进行了n次相同的试验。
4. 所有试验成功和失败的概率是相同的。 (试验是一样的)
概率质量函数如下:
成功概率不等于失败概率的二项分布图:
现在,当成功的概率 = 失败的概率时,二项分布图如下 :
二项分布的均值和方差由下式给出:
平均值 -> µ = n*p
方差 -> Var(X) = np(1-p).
d.正态分布
正态分布代表了宇宙中大多数情况的运转状态。大量的随机变量被证明是正态分布的。任何一个分布只要具有以下特征,则可以称为正态分布:
1. 分布的平均值、中位数和模式一致。
2. 分布曲线是钟形的,关于线 x = μ 对称。
3. 曲线下的总面积为1。
4. 有一半的值在中心的左边,另一半在右边。 正态分布与二项分布有着很大的不同。然而,如果试验次数接近于无穷大,则它们的形状会变得十分相似。
概率密度函
均值 -> E(X) = µ 方差 -> Var(X) = σ^2 其中,μ(平均)和σ(标准偏差)是参数。 随机变量X〜N(μ,σ)的图如下所示。
标准正态分布定义为平均值等于0,标准偏差等于1的分布:
e.泊松分布
泊松分布适用于在随机时间和空间上发生事件的情况,其中,我们只关注事件发生的次数。
当以下假设有效时,则称为“泊松分布”:
1. 任何一个成功的事件都不应该影响另一个成功的事件。
2. 在短时间内成功的概率必须等于在更长的间内成功的概率。
3. 时间间隔变小时,在给间隔时间内成功的概率趋向于零。
泊松分布中使用了这些符号:
λ是事件发生的速率 ,t是时间间隔的长, X是该时间间隔内的事件数。
其中,X称为泊松随机变量,X的概率分布称为泊松分布。 令μ表示长度为t的间隔中的平均事件数。那么,µ = λ*t。 泊松分布的X由下式给出:
平均值μ是该分布的参数。 μ也定义为该间隔的λ倍长度。泊松分布图如下所示:
下图显示了随着平均值的增加曲线的偏移情况:
可以看出,随着平均值的增加,曲线向右移动。 泊松分布中X的均值和方差:
均值 :E(X) = µ
方差 :Var(X) = µ
f.指数分布
让我们再一次看看呼叫中心的那个例子。不同呼叫之间的时间间隔是多少呢?在这里,指数分布模拟了呼叫之间的时间间隔。
其他类似的例子有:
1. 地铁到达时间间隔
2. 到达加油站的时间
3. 空调的寿命
指数分布广泛用于生存分析。从机器的预期寿命到人类的预期寿命,指数分布都能成功地提供结果。
具有**的指数分布**的随机变量X:
f(x) = { λe-λx, x ≥ 0
参数 λ>0 也称为速率。
对于生存分析,λ被称为任何时刻t的设备的故障率,假定它已经存活到t时刻。
遵循指数分布的随机变量X的均值和方差为:
平均值 -> E(X) = 1/λ
方差 -> Var(X) = (1/λ)²
此外,速率越大,曲线下降越快,速率越慢,曲线越平坦。下面的图很好地解释了这一点。
泊松分布与指数分布的区别:
泊松分布与指数分布的本质区别blog.csdn.net
一句话总结:泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布。
三、总体和抽样
概念:总体是研究对象的全体构成集合,样本是总体的一个子集。统计推断的目的就是从样本中含有的信息中提取总体的信息。
1、抽样分布:
回想随机变量的定义,一个实验结果的数值性描述。我们将抽取随机样本的过程视作一个实验,则抽取出的样本的均值
抽样分布。
样本期望:
样本标准差:
σ为总体标准差。
三大抽样分布:卡方分布、t分布、和F分布。
2、中心极限定理
定义:从总体中抽取样本容量为m的简单随机样本,当样本容量很大(m>=30)时,样本均值的抽样分布可用正态分布近似。
其特征可以理解为:
1)样本平均值约等于总体平均值。
2)不管总体是什么分布,任意一个样本平均值都会围绕在总体平均值周围,并且呈正态分布。
如下图:
3、如何用样本估计总体?
通过中心极限定理我们理解了如何通过样本估计总体的均值,那么如何通过样本估计总体的标准差呢?如下图:
4、 偏见:
样本偏差有两种:一种是所抽取的样本不是随机的,另一种是抽取的样本数量不够多。
幸存者偏差:指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。在“沉默的数据”、“死人不会说话”等等日常表达中,涉及幸存者偏差。比如飞机问题。
举一个与之相同的例子,经过枪击案而活下来的人当中,手部和腿部中弹的居多,而击中头部和心脏的少之又少,正说明了人的头部和心脏对死亡率的影响更大而不是手和腿。
概率偏见:心理概率,和客观概率的不吻合,就叫做概率偏见。行为经济学家把人类自以为的概率,称之为:心理概率。
诺贝尔经济学奖得主、行为经济学家丹尼尔.卡尼曼认为,这种偏见主要来自于三个原因:
1、代表性偏差。很拗口的名字,其实就是说:以偏概全。比如,你发现几个好朋友都是双鱼座的,就会觉得,我和双鱼座比较合得来。这也许无伤大雅,但也是以偏概全。你在赌场连赢三把,觉得今天运气真好,如果你因此坚持玩下去,代表性偏差就会请真实的概率,狠狠教训你一顿。
2、可得性偏差。也是很拗口的名字。我把它称之为:眼见为实。比如,如果飞机失事,必然引起关注,这时,你多半会觉得飞机很危险。但事实上,论每公里死亡率,坐飞机比坐汽车安全22倍。
3、沉锚效应。还是很拗口。我叫它:先入为主。也就是说,第一印象,会导致你对一些人的喜好的判断,对一些事的好坏的判断,脱离现实,甚至不可撼动。比如,你第一个男友是渣男,你就会觉得:男人没一个好东西。
5、信息茧房
信息茧房是指人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。由于信息技术提供了更自我的思想空间和任何领域的巨量知识,一些人还可能进一步逃避社会中的种种矛盾,成为与世隔绝的孤立者。
当个人长期禁锢在自己所建构的信息茧房中,久而久之,个人生活呈现一种定式化、程序化。长期处于过度的自主选择,沉浸在个人日报的满足中,失去了解不同事物的能力和接触机会,不知不觉间为自己制造了一个信息茧房。
均匀分布取某一点概率_统计概率思维相关推荐
- 均匀分布取某一点概率_概率和概率分布
概率与概率分布是统计学中的基础概念,在我们的高中的课本中就接触过了,如果有遗忘,一起来回顾一下吧! 知识点: 概率 概率分布 一.概率 说到概率,需要先了解一个概念,叫做随机试验.随机试验是指在相同条 ...
- 均匀分布取某一点概率_概率分布,先懂这6个
此文是<10周入门数据分析>系列的第9篇 想了解学习路线,可以先阅读" 学习计划 | 10周入门数据分析 " 本文重点介绍分析中常用的六个重要分布,并解释它们的应用. ...
- python依照概率抽样_统计概率思维之总体与抽样
统计概率思维--无偏差抽样及总体和样本的估计 一.进行无偏差抽样 1.如何进行抽样设计: 注意:抽样空间是样本的基础,但不是样本本身,它列出了总体中的所有独立单位,因为我们不会去抽取抽样空间中的所有对 ...
- 药品进销存管理系统_药一点软件_连锁版介绍符合GSP最新要求
药品进销存管理系统_药一点软件_连锁版介绍符合GSP最新要求 ● 各证照到期预警及自动过期停用,首营企业.品种及不合格药品管理等等...... ● 全国多个地区药监部门推荐本产品并顺利通过GSP检验 ...
- python生成随机数random.randint()随机取值的概率
python生成随机数random.randint() 1.random.randint(参数1,参数2) 参数1.参数2必须是整数 函数返回参数1和参数2之间的任意整数 2.random.unifo ...
- 正态分布概率表_三、统计概率思维
一.误差思维(只要有估计,就会有误差) 1.误差永远存在,并且不可避免. 2.多次测量用平均值的统计方式取得结果,尽量避免偶然因素的影响. 二.置信区间(误差范围) 1.统计学最核心思想:用样本信息估 ...
- 单个正态总体均值的区间估计_统计概率之误差思维:置信区间
置信区间 在概率统计中"误差"是一个非常重要的概念,如何理解误差呢?其实误差就是我们在进行统计测量活动中哪些偶然因素干扰从而造成测量的数据并不是真实精确的数据,往往会存在或多或少的 ...
- dockerfile拉取私库镜像_还在用Alpine作为你Docker的Python开发基础镜像?其实Ubuntu更好一点...
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_173 一般情况下,当你想为你的Python开发环境选择一个基础镜像时,大多数人都会选择Alpine,为什么?因为它太小了,仅仅只有 ...
- 三个点在同一个半圆的概率_圆内任取三点/四点在同一半圆内的概率是多少?...
大家的做法好像都有点麻烦--我用高中(有点竞赛?)的方法解答. 设四个点为 C₁ , C₂ , C₃ , C₄ 分别位于直径 A₁B₁ , A₂B₂ , A₃B₃ , A₄B₄ 上.不妨设四条直径各不 ...
- 平方的观测值表概率_茆诗松的概率论与数理统计(第六章)
本章干货十足: 开篇集中讨论"无偏.有效.相合.渐近正态"四大性质,整理它们的联系与差异: 不同方法解决EM例题,引入"双硬币模型"说明EM算法的应用场景和基本 ...
最新文章
- 可以左右移动多选下拉列表的javaScipt(可以兼容IE和firefox)
- python操作微信小程序云端数据库_微信小程序云开发之数据库操作
- 关于 Angular 应用 tsconfig.json 中的 target 属性
- STM32F103:二.(2)串口控制LED
- Hive 实战(1)--hive数据导入/导出基础
- PAT (Advanced Level) 1051. Pop Sequence (25)
- Python学习笔记[5]---else语句和with语句
- jquery 选择器 空格、大于、加号、波浪线区别
- esp32语音播放天气预报
- uniapp左侧抽屉抽屉
- ABAP submit程序获取ALV数据的方法
- 牛客网ACM模式 JsV8和Java输入输出练习
- 计算机组成原理:RISC与CISC比较
- 记录--嵌入式设备生成二维码
- EEG- gan:用于脑电图(EEG)大脑信号的生成对抗网络2018
- VSCode+Marp:用Markdown做幻灯片-宋森安(基础篇)
- 安装完Ubuntu16.04后要做的事
- OpenGL之深入解析屏幕成像和渲染原理
- 让人愤怒的google协作平台
- 数据挖掘——航空公司客户价值分析(代码完整)