正态分布

import numpy as np
import scipy.stats as stats  #在scipy中把各种分布的函数拿到手
import matplotlib.pyplot as plt
import matplotlib.style as style
from IPython.core.display import HTML%matplotlib inline
style.use('fivethirtyeight')
plt.rcParams["figure.figsize"] = (14,7)
plt.figure(dpi=100)   #单位面积像素多少#PDF  概率密度函数  默认参数μ=0 σ=1
plt.plot(np.linspace(-4,4,100),stats.norm.pdf(np.linspace(-4,4,100))/np.max(stats.norm.pdf(np.linspace(-3,3,100)))  #除以这个数是为了图形更高一点)
plt.fill_between(np.linspace(-4,4,100),    #如果只是一条线,太难看了。stats.norm.pdf(np.linspace(-4,4,100),loc=2,scale=0.5)/np.max(stats.norm.pdf(np.linspace(-3,3,100))),alpha=0.5,)#CDF  累计概率密度函数
plt.plot(np.linspace(-4,4,100),stats.norm.cdf(np.linspace(-4,4,100)))

# 从特定正态分布中选取随机数
from scipy.stats import norm
print(norm.rvs(loc=10,scale=4,size=10),end="\n\n")#[ 9.02505529  4.24482163  3.94200483  7.22089137  8.8781777   7.67380599 9.41988128 #10.39018509 10.23039513 10.26075038]
# 求概率密度函数的特定值
x = -1
y = 2
print("pdf(x)={}\npdf(y)={}".format(norm.pdf(x),norm.pdf(y)))  #pdf(x)=0.24197072451914337   pdf(y)=0.05399096651318806#求累计概率密度函数特定值
print("P(x<0.3) = {}".format(norm.cdf(0.3)))
print("P(-0.3<X<0.3) = {}".format(norm.cdf(0.2)-norm.cdf(-0.2)))#  P(x<0.3) = 0.6179114221889526   P(-0.3<X<0.3) = 0.15851941887820603

二项式分布

  1. 每个试验都是独立的。
  2. 在试验中只有两个可能的结果:成功或失败。
  3. 总共进行了n次相同的试验。
  4. 所有试验成功和失败的概率是相同的。 (试验是一样的,但不一定都是0.5)

  • PMF( 概率质量函数 ): 是对 离散随机变量 的定义. 是 离散随机变量 在各个特定取值的概率。
  • PDF ( 概率密度函数 ): 是对 连续性随机变量 的定义. 与PMF不同的是 PDF 在特定点上的值并不是该点的概率, 连续随机概率事件只能求一段区域内发生事件的概率, 通过对这段区间进行积分来求。

图像和正态的画法相似,就是把pdf换成pmf,norm换成binom


泊松分布

假定一个事件在一段时间内随机发生,且符合以下条件:

  1. 将该时间段无限分隔成若干个小的时间段,在这个接近于零的小时间段里,该事件发生一次的概率与这个极小时间段的长度成正比。
  2. 在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。
  3. 该事件在不同的小时间段里,发生与否相互独立。

医院的例子,如果我们把一天分成24个小时,或者24x60分钟,或者24x3600秒。时间分的越短,这个时间段里来病人的概率就越小(比如说医院在正午12点到正午12点又一毫秒之间来病人的概率是不是很接近于零?)。 条件一符合。另外如果我们把时间分的很细很细,是不是同时来两个病人(或者两个以上的病人)就是不可能的事件?即使两个病人同时来,也总有一个人先迈步子跨进医院大门吧。条件二也符合。倒是条件三的要求比较苛刻。应用到实际例子中就是说病人们来医院的概率必须是相互独立的,如果不是,则不能看作是poisson分布。

常见符合泊松分布的场景

  • 某个地区在一天内报告的失窃的数量。
  • 在一小时内抵达沙龙的客户人数。
  • 书中每一页打印错误的数量。

公式

λ是事件发生的速率,t是时间间隔的长,X是该时间间隔内的事件数。其中,X称为泊松随机变量,X的概率分布称为泊松分布。令μ表示长度为t的间隔中的平均事件数。那么,µ = λ*t。

例如:已知平均每小时出生3个婴儿,接下来两个小时,一个婴儿都不出生的概率是?

上面就是泊松分布的公式。等号的左边,P 表示概率,N表示某种函数关系,t 表示时间,n 表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) 。等号的右边,λ 表示事件的频率。

接下来两个小时,一个婴儿都不出生的概率是0.25%,基本不可能发生。

泊松分布的图形大概形状:

泊松分布改变λ


均匀分布

对于投骰子来说,结果是1到6。得到任何一个结果的概率是相等的,这就是均匀分布的基础。与伯努利分布不同,均匀分布的所有可能结果的n个数也是相等的。

均匀分布的曲线:


卡方分布

通俗的说就是通过小数量的样本容量去预估总体容量的分布情况

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)

自由度:假设你现在手头有 3 个样本,。因为样本具有随机性,所以它们取值不定。但是假设出于某种原因,我们需要让样本均值固定,比如说, , 那么这时真正取值自由,”有随机性“ 的样本只有 2 个。 试想,如果 ,那么每选取一组 的取值, 将不得不等于 对于第三个样本来说,这种 “不得不” 就可以理解为被剥夺了一个自由度。所以就这个例子而言,3 个样本最终"自由"的只有其中的 2 个。不失一般性, 个样本, 留出一个自由度给固定的均值,剩下的自由度即为 。

卡方检验的基本思想是根据样本数据推断总体的频次与期望频次是否有显著性差异


beta分布

beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小

举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(batting average),就是用一个运动员击中的球数除以击球的总数,我们一般认为0.266是正常水平的击球率,而如果击球率高达0.3就被认为是非常优秀的。现在有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他就击球率就是100%了,这显然是不合理的,因为根据棒球的历史信息,我们知道这个击球率应该是0.215到0.36之间才对啊。对于这个问题一个最好的方法就是用beta分布,这表示在我们没有看到这个运动员打球之前,我们就有了一个大概的范围。beta分布的定义域是(0,1)这就跟概率的范围是一样的。接下来我们将这些先验信息转换为beta分布的参数,我们知道一个击球率应该是平均0.27左右,而他的范围是0.21到0.35,那么根据这个信息,我们可以取α=81,β=219(击中了81次,未击中219次)

人工智能-数学基础-数据科学必备分布相关推荐

  1. 一份数据科学“必备”的数学基础清单

    摘要: 一份数据科学必备的数学知识清单,给出了相应的学习资源,方便秋招者查漏补缺. 秋招已经开始,相信很多同学想从事数据科学岗位.对于数据科学岗位而言,数学知识的储备重要吗?答案显而易见,掌握好数学对 ...

  2. 必备 | 人工智能和数据科学的七大 Python 库

    来源:新智元 本文约3100字,建议阅读10+分钟. 本文汇总了2018年针对数据科学家/AI的最佳库.repos.包和工具. [ 导读 ]作者根据每周发布总结的系列文章,汇总了2018年针对数据科学 ...

  3. 综述:人工智能、数据科学、机器学习

    前言:学科交叉乃大势所趋,新兴学科应市场需求孕育而生.人数机,便产生在这样的时代背景下.什么,你所在的学校至今还没开设相关专业?不必惊慌,老牌资本主义国家德国同样如此.但是,学好微积分.线代.优化.统 ...

  4. python是用什么语言开发的-专为人工智能和数据科学而生的Go语言,或将取代Python...

    时间回到30年前,Python 首次亮相.花了20年时间,Python才获得开发者的认可.来到 2019 年,Python已经成为开发人员第二喜欢的语言. 在过去的5年时间里,Python 成为了机器 ...

  5. python是什么语言开发的-专为人工智能和数据科学而生的Go语言,或将取代Python...

    时间回到30年前,Python 首次亮相.花了20年时间,Python才获得开发者的认可.来到 2019 年,Python已经成为开发人员第二喜欢的语言. 在过去的5年时间里,Python 成为了机器 ...

  6. 数据保护平台如何为新一代应用,人工智能和数据科学提供动力

    我最坚信的信念之一是,通过有效地构建,管理和发展其数据供应链来学习如何充分利用其数据的公司将获得持久的竞争优势.现在拥有如此多的数据,公司必须将其数据视为其最有价值的资产之一.这些数据供应链必须像其他 ...

  7. 关于人工智能或者数据科学,学生应该知道什么

    生长在大数据时代的这代人,能否像80后理解弹珠.跳棋那样,理解他们身边能对话的音箱.听得懂指令的玩具机器人? 当大数据和人工智能渗透到日常生活中,无论我们愿不愿意承认,它们都广泛存在于各种看不见的应用 ...

  8. 南大通用&河北工业大学人工智能与数据科学学院党支部共建暨研究生培养基地合作签约仪式顺利举办

    2022年2月18日下午,天津南大通用数据技术股份有限公司.河北工业大学人工智能与数据科学学院党支部共建签约仪式暨研究生培养基地签约仪式在普天创新产业园23层会议室举行,南大通用董事长丁明峰.高级副总 ...

  9. 对“新手”特别重要!数据科学必备的数学基础清单

    爱数据学习社 welcome 秋招已经开始,相信很多同学想从事数据科学岗位.对于数据科学岗位而言,数学知识的储备重要吗?答案显而易见,掌握好数学对于从事该岗位而言是很重要的.数学一直是任何当代科学学科 ...

最新文章

  1. 反向telnet连接
  2. 通过 P3P规范让IE跨域接受第三方cookie session
  3. CheLunTan.Net无需注册同样享有发帖和回帖权利
  4. ux体验网站 英国_定义网站图像时的UX注意事项
  5. 为机场按上一双“慧眼”消灭飞机的“黑色十分钟”
  6. java动态录音_java实现动态录音,声卡有声音进来就自动录音
  7. HDU3068 回文串 Manacher算法
  8. Word删除表格后的空白页
  9. 一个安卓锁机病毒的分析报告
  10. 车辆属性最近一次入库时间初始化生成sql脚本文件
  11. 基于FPGA的数字信号处理3.7开平方运算分析
  12. 发布npm包 登录报错 E409 Conflict
  13. 函数9:生成器和 yield 语句
  14. 【历史上的今天】2 月 23 日:英格玛密码机申请专利;戴尔电脑创始人出生;Mellanox 收购 EZchip
  15. C# excel 删除重复
  16. Ant入门教程之常用命令
  17. LaTeX之双栏模板表格布局(单双栏满宽+不满宽)
  18. 如何下载bing必应首页图片
  19. 变异凯撒1(BUCTF在线评测)
  20. Python基本数据类型--列表

热门文章

  1. php表格制作4行两列的表格,excel表格怎么插行和列?
  2. C51与4*4矩阵键盘
  3. 从键盘输入圆柱体的半径和高,求圆柱体的表面积和体积
  4. 浏览器不能下载response输出的excel
  5. 微信开放平台、公众平台、公众号和小程序开发【原创】
  6. Vue基础语法必知必会
  7. Python基础语法---(3)字符串的基本操作和使用
  8. CPU和CPU寄存器和CPU缓存和CPU内存管理器、RAM、hard disk。以及堆栈、内存映射。
  9. 如何通过容器搭建稳定可靠的私有网盘(NextCloud)
  10. 工控随笔_05_西门子_Step7软件仿真方法