一、概率分布

1.1概率分布基础

1.1.1概率分布 : 每一个变量结果可能发生的概率

1.1.2随机变量

将随机事件出现的一个结果映射到一个数值的含义,通过数值量化随机事件,这就是随机变量的作用。(随机变量是量化随机事件的一个函数)

1.1.3 随机变量分类

1. 离散随机变量(Discrete random variable):取值是可数个值(且只能为自然数0、1、2...)的随机变量 。 对应概率计算公式: 概率质量函数(Probability Mass Function,PMF) PMF即离散随机变量在各特定取值上的概率

2. 连续随机变量(Continuous random variable):取值是一个区间中任一实数(即变量的取值可以是连续的)的随机变量 。对应概率计算公式:概率密度函数(Probability Density Function,PDF) PDF:连续随机变量的概率密度函数是描述这个随机变量的输出值,在某个特定取值点附近可能性的函数

1.2离散概率分布

1.2.1 伯努利分布(Bernoulli Distribution)

伯努利试验是在相互独立的条件下随机的实验,结果只有两种:成功/不成功,例如抛硬币实验。如果这个随机变量是伯努利实验,那么它就服从伯努利分布 ,亦称“0-1分布”

1.2.2二项分布(Binomial Distribution)

1.2.3几何分布(Geometric Distribution)

在n次伯努利试验中,试验k次才得到第一次成功的机率。也就是说:前k-1次皆失败,第k次成功的概率。

1.2.4泊松分布(Poisson Distribution)

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。 比如:在一定时间内某交通路口所发生的事故个数

1.3连续概率分布

1.3.1正态分布(The Normal Distribution)

正态分布也被称为高斯分布或钟形曲线,这是统计学中最重要的概率分布 。这是一个对称分布,其中大多数观测值聚集在具有最高发生概率的中心峰平均值μ附近,并且当观测值在两个方向上都偏离中心峰时,曲线尾部出现值的可能性越来越小

正态分布的功能:预测数据的位置

如何计算正态分布的概率?确定概率范围

求标准分

查找z表格

案例:

达到折扣质量保证条件的轮胎数量不要超过总数的10%,质保里程为多少?

1.3.2幂律分布(Power law distribution)

幂律分布表现为斜率为负的幂指数的直线,概率越高,占比越小,生活中的马太效应及长尾分布都是幂律分布的典型案例。

二、抽样分布

2.1总体和样本

总体:包含所研究的全部个体(数据)的集合。

样本:研究中实际观测或调查的一部分个体称为样本,从总体中选取

样本数量:有多少个样本

样本容量:每个样本中有多少数据

抽样分布:将样本的平均值分布可视化

2.2中心极限定理

中心极限定理的准定义是:中心极限定理(CLT)指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关

用处:

(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体

中心极限定理告诉我们,一个正确抽取的样本不会与其所代表的群体产生较大差异。也就是说,样本结果能够很好地体现整个群体的情况 统计概率中假设检验的原理

(2)根据总体的平均值和标准差,判断某个样本是否属于总体:

通过中心极限定理的正态分布,我们就能计算出某个样本属于总体的概率是多少。如果概率非常低,那么我们就能自信满满地说该样本不属于该群体

2.3 利用样本估计总体

2.4如何避免偏差样本偏差:以偏概全,用样本推断总体,样本大小一定要足够大才可以。

幸存者偏差:通常关注显而易见的样本,而忽略了不容易出现的样本。也就是忽略了样本被筛选过了。所以在思考问题时一定要从多个角度去看。

概率偏见:主观概率和客观概率不吻合。

信息茧房:人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。也就是说,随着个性化推荐的发展,我们看见的信息仅是自己感兴趣事情的时候,这样就造成了我们的信息茧房。

python 标准差内数据概率怎么求_Python-统计概率相关推荐

  1. python如何提取数据中的年月_Python提取特定时间段内数据的方法实例

    怎样用python提取不同股票csv里特定时间段的数据小编推开你的时候,从来没想过,小编爱你爱的那么深 如何在python中调用道指指定时间段的收盘数据? pandas是python环境下最有名的数据 ...

  2. python处理json数据 乱码报错_python操作mysql中文显示乱码的解决方法

    本文实例展示了一个脚本python用来转化表配置数据xml并生成相应的解析代码. 但是在中文编码上出现了乱码,现将解决方法分享出来供大家参考. 具体方法如下: 1. Python文件设置编码 utf- ...

  3. python中tushare数据可以导出嘛_Python与交易策略分析tushare/baostock库介绍(附代码)...

    前言:金融数据中最典型的就是资产价格的涨跌情况.想要分析金融资产的投资策略,第一步就是历史数据的获取.tushare正是为导入历史金融资产数据而开发,它大大方便了用Python进行金融资产交易策略的探 ...

  4. python函数内的作用域包括什么_python菜鸟求问关于嵌套函数中作用域范围应该怎么理解?...

    直接上代码 def l(list): def d(): return list return d #运行 l = l([1,2,3,4]) print l() 这个情况是正常的. 问题在于d函数为什么 ...

  5. python编程内置函数使用方法_python编程(4)--内置函数

    ​     函数,通常称为方法,是一种将自变量到因变量的映射(y = f(x)).在python里用def或者lambda去构造,语法如下. def f(x):      #x -- 输入 y = x ...

  6. python逐行读取数据时出现错误_python如何逐行读取数据

    在实际开发的过程中,文件读写也很重要,下面说一下python如何逐行读取文件. 如果程序要读取行,通常只能用文本方式来读取,道理很简单,只有文本文件才有行的概念,二进制文件没有所谓行的概念. 文件对象 ...

  7. python的内置函数列表排序_Python 列表的排序 - sort/sorted

    Python 集合的遍历,推导及 filter/map/reduce 操作 中讲了对集合的 filter, map 和 reduce 操作,那还有 sort 排序呢?像 Java 一样,Python  ...

  8. python xlwt写入数据超过范围限制_python的xlwt不能正确写入以及缓冲区问题

    最近在使用python的xlwt模块,它和xlrd.xlutil显然从名字上看得出是一套体系. 然后在写入的时候发生了一些故事. 我不能正确的将很多数据写到一个文件里面.这个文件尽管对于excel来说 ...

  9. python给出数据点进行插值_Python对数据进行插值和下采样的方法

    使用Python进行插值非常方便,可以直接使用scipy中的interpolate import numpy as np x1 = np.linspace(1, 4096, 1024) x_new = ...

最新文章

  1. Java、Python、Go 哪个后端编程语言适合web前端工程师学习?
  2. findfirst findnext 递归查找指定目录下所有子目录下所有文件,为什么总是死机?...
  3. ThreadFactory
  4. 第十二节 VMware View 6.0 菜鸟入门 部署和安装2008 R2 RDS服务
  5. 防盗链python_python一行代码,实现网页视频下载
  6. 如果赚钱很容易,为什么轮到你?
  7. Java程序设计24学时轻松掌握_24小时轻松掌握系列——Java程序设计 24学时轻松掌握...
  8. Goby内测版和AWVS14最新版联合教程详细说明
  9. jade6.5安装教程
  10. linux微信电脑版登录不了,Linux和Mac下的微信电脑版electronic-wechat(非官方)
  11. ble_mesh学习笔记(8) 关于IV index 更新详细理解
  12. python系统开发_证券交易系统设计与开发
  13. 任意阶幻方的解法及c++实现
  14. H5+Android混合开发电视APP
  15. MATLAB—colormap设置颜色图
  16. 蓝牙耳机录音进行讯飞语音识别
  17. 使用 Amazon SageMaker Clarify 解释德甲赛况 xGoals
  18. canvas中getContext(“2d“) 对象的属性和方法
  19. 程序员成长的四个简单技巧,你 get 了吗?
  20. 计算机网络:08---带宽与吞吐量

热门文章

  1. boost::sort模块spreadsort 完全排序的数据示例
  2. boost::io::ostream_joiner模块相关的测试程序
  3. boost::hana::unpack用法的测试程序
  4. boost::gil::is_homogeneous用法的测试程序
  5. 宏BOOST_TEST_REF的用法程序
  6. ITK:从文件编写一个转换
  7. DCMTK:读取多个图像的示例应用程序
  8. VTK:Utilities之TimeStamp
  9. VTK:相互作用之CallBack
  10. OpenCV HoG描述符的实例(附完整代码)