一、概率论数理统计常见的统计量Python实现总结

1、求数学期望

#coding=utf-8

importnumpy asnp

arr = [1,2,3,4,5,6]

#1、数学期望(俗称平均值)

num_avg = np.mean(arr)

print(num_avg)

2、求方差、标准差

#coding=utf-8

importnumpy asnp

arr = [1,2,3,4,5,6]

# 求方差

num_var = np.var(arr)

print(num_var)

# 求标准差

num_std = np.std(arr,ddof=1)

print(num_std)

3、求协方差

#coding=utf-8

importnumpy asnp

#求协方差

x=np.array([[1 ,2 ,3] ,

[2 ,5 ,6 ],

[ 7 ,8 ,9],

[ 11 ,11 ,12]])

cov_xy = np.cov(x)

print(cov_xy)

二、求相关系数的Python实现总结

1、公式法

#coding=utf-8

importnumpy

importpandas

X = [1,2,3,4,5]

Y = [1.01 , 2.02 , 3.03 ,4.04 , 5.05]

# 均值

XMean = numpy.mean(X)

YMean = numpy.mean(Y)

#标准差

XSD = numpy.std(X)

YSD = numpy.std(Y)

#z分数

ZX = (X-XMean)/XSD

ZY = (Y-YMean)/YSD#相关系数

r = numpy.sum(ZX*ZY)/(len(X))

print(r)

2、通过numpy的corrcoef方法计算相关性系数

#coding=utf-8

importnumpy

X = [10.11, 20.11, 33.11]

Y = [10.22, 20.22, 30.22 ]

t=numpy.corrcoef(X,Y)

print(t)

3、通过pandas的corr方法计算相关性系数

#coding=utf-8

importnumpy

importpandas

X = [10.11, 20.11, 33.11]

Y = [10.22, 20.22, 30.22 ]

data = pandas.DataFrame({'X':X,'Y':Y})

t2=data.corr()

print(t2)

三、常见的分布Python实现总结

1、正太分布

正态分布是一种连续分布,其函数可以在实线上的任何地方取值。正态分布由两个参数描述:分布的平均值μ和方差σ2 。

#coding=utf-8

importnumpy asnp

fromscipy importstats

importmatplotlib.pyplot asplt

mu = 0 # mean

sigma = 1 # standard deviation

x = np.arange(-3, 3, 0.1)

print(x)

y = stats.norm.pdf(x, 0, 1)

print(y)

plt.plot(x, y)

plt.title('Normal: $\mu$=%.1f, $\sigma^2$=%.1f'% (mu, sigma))

plt.xlabel('x')

plt.ylabel('Probability density', fontsize=15)

plt.show()

2、指数分布

指数分布是一种连续概率分布,用于表示独立随机事件发生的时间间隔。比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。

我将参数λ设置为0.2,并将x的取值范围设置为 $[1, 10]$ 。

#coding=utf-8

importnumpy asnp

fromscipy importstats

importmatplotlib.pyplot asplt

lambd = 0.2

x = np.arange(1,10,0.1)

y =lambd * np.exp(-lambd *x)

print(y)

plt.plot(x, y)

plt.title('Exponential: $\lambda$=%.2f'% (lambd))

plt.xlabel('x')

plt.ylabel('Probability density', fontsize=15)

plt.show()

3、二项分布

某射手射击,射击结果分为中靶和不中靶两种,若每次射击相互独立,中靶的概率皆为0.7,讨论在4次射击中恰好2次中靶的概率(0.2646)

#coding=utf-8

importnumpy asnp

fromscipy importstats

importmatplotlib.pyplot asplt

p = 0.7 # 事件A概率0.7

n = 4 # 重复实验4次

k = np.arange(n+1) # 5种可能出现的结果(中0次、中1次、中2次、中3次、中4次)

r = stats.binom.pmf(k, n, p)

print(r)

4、泊松分布(Poisson Distribution)

一个服从泊松分布的随机变量X,表示在具有比率参数(rate parameter)λ的一段固定时间间隔内,事件发生的次数。参数λ告诉你该事件发生的比率。随机变量X的平均值和方差都是λ。

E(X) = λ, Var(X) = λ

泊松分布的例子:已知某路口发生事故的比率是每天2次,那么在此处一天内发生4次事故的概率是多少?

让我们考虑这个平均每天发生2起事故的例子。泊松分布的实现和二项分布有些类似,在泊松分布中我们需要指定比率参数。泊松分布的输出是一个数列,包含了发生0次、1次、2次,直到10次事故的概率。我用结果生成了以下图片。

#coding=utf-8

importnumpy asnp

fromscipy importstats

importmatplotlib.pyplot asplt

rate = 2

n = np.arange(0, 10)

y = stats.poisson.pmf(n, rate)

print(y)

plt.plot(n, y, 'o-')

plt.title('Poisson: rate=%i'% (rate), fontsize=15)

plt.xlabel('Number of accidents')

plt.ylabel('Probability of number accidents', fontsize=15)

plt.show()

5、T分布

t分布形状类似于标准正态分布; t分布是对称分布,较正态分布离散度强,密度曲线较标准正态分布密度曲线更扁平

(1)T分布的应用场景:

- 根据小样本来估计呈正态分布且方差未知的总体的均值

- 对于任何一种样本容量,真正的平均值抽样分布是t分布,因此,当存在疑问时,应使用t分布

- 当样本容量在 30-35之间时,t分布与标准正态分布难以区分

-当样本容量达到120时,t分布与标准正态分布实际上完全相同了

-

(2)自由度df对分布的影响

-- 样本方差使用一个估计的参数(平均值),所以计算置信区间时使用的t分布的自由度为 n - 1

-- 由于引入额外的参数(自由度df),t分布比标准正态分布的方差更大(置信区间更宽)

-- 与标准正态分布曲线相比,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高

-- 自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df= ∞ 时,t分布曲线为标准正态分布曲线

#coding=utf-8

importnumpy asnp

fromscipy importstats

importmatplotlib.pyplot asplt

# 不同自由度的学生t分布与标准正态分布

importnumpy asnp

fromscipy.stats importnorm

fromscipy.stats importt

importmatplotlib.pyplot asplt

print('比较t-分布与标准正态分布')

x = np.linspace( -3, 3, 100)

plt.plot(x, t.pdf(x,1), label='df=1')

plt.plot(x, t.pdf(x,2), label='df=20')

plt.plot(x, t.pdf(x,100), label = 'df=100')

plt.plot( x[::5], norm.pdf(x[::5]),'kx', label='normal')

plt.legend()

plt.show()

6、 β分布(Beta Distribution)

β分布是一个取值在 [0, 1] 之间的连续分布,它由两个形态参数α和β的取值所刻画。

β分布的形状取决于α和β的值。贝叶斯分析中大量使用了β分布。

#coding=utf-8

importnumpy asnp

fromscipy importstats

importmatplotlib.pyplot asplt

a = 0.5

b = 0.5

x = np.arange(0.01, 1, 0.01)

y = stats.norm.pdf(x, a, b)

print(y)

plt.plot(x, y)

plt.title('Beta: a=%.1f, b=%.1f'% (a, b))

plt.xlabel('x')

plt.ylabel('Probability density', fontsize=15)

plt.show()

尊敬的读者:如果您感觉好麻烦关注、收藏、点赞,谢谢!

《大数据和人工智能交流》的宗旨

1、将大数据和人工智能的专业数学:概率数理统计、线性代数、决策论、优化论、博弈论等数学模型变得通俗易懂。

2、将大数据和人工智能的专业涉及到的数据结构和算法:分类、聚类 、回归算法、概率等算法变得通俗易懂。

3、最新的高科技动态:数据采集方面的智能传感器技术;医疗大数据智能决策分析;物联网智慧城市等等。

根据初学者需要会有C语言、Java语言、Python语言、Scala函数式等目前主流计算机语言。

根据读者的需要有和人工智能相关的计算机科学与技术、电子技术、芯片技术等基础学科通俗易懂的文章。

python样本期望值_机器学习中的概率论与梳理统计(Python实现数学期望、方差等)...相关推荐

  1. 机器学习中用到的概率知识_机器学习中有关概率论知识的小结

    一.引言 最近写了许多关于机器学习的学习笔记,里面经常涉及概率论的知识,这里对所有概率论知识做一个总结和复习,方便自己查阅,与广大博友共享,所谓磨刀不误砍柴工,希望博友们在这篇博文的帮助下,阅读机器学 ...

  2. python决策树实例_机器学习中的决策树及python实例

    一棵树在现实生活中有许多枝叶,事实上树的概念在机器学习也有广泛应用,涵盖了分类和回归.在决策分析中,决策树可用于直观地决策和作出决策.决策树,顾名思义,一个树状的决策模型.尽管数据挖掘与机器学习中常常 ...

  3. python分类分析模型_机器学习中最常见的四种分类模型

    作者:Jason Brownlee 翻译:候博学 前言 机器学习是一个从训练集中学习出算法的研究领域. 分类是一项需要使用机器学习算法的任务,该算法学习如何为数据集分配类别标签. 举一个简单易懂的例子 ...

  4. python降维方法_机器学习数据降维方法总结(附python代码)

    介绍 在机器学习实战时,如果面对一个数据集具有上千个特征,那么对于模型训练将是一个巨大的挑战.面对如此多的数据变量,如果我们认真的去分析每一个变量将耗费我们几周甚至几个月的时间,那么你估计也要被开除了 ...

  5. python样本期望值_用 python 做 z 检验,t 检验

    文章目录 1. z 检验 2. t 检验 Python 中的假设检验一般用到 scipy 或 statsmodels 包,需要注意的是,这两个包里面各种检验的置信度都是 0.05. 1. z 检验 对 ...

  6. python计算期望值_机器学习:计算方差时为何除以n-1

    小弟准备了数据结构.Java.大数据.AI.面试题.python等各种资料 需要领取等朋友麻烦 转发此文,然后私信[学习]即可获取 设样本均值为 ​,样本方差为 ​,总体均值为 ​,总体方差为 ​,那 ...

  7. xp支持python最高版本是多少_哪些版本的Python可以在Windows XP中运行?(What versions of Python will work in Windows XP?)...

    哪些版本的Python可以在Windows XP中运行?(What versions of Python will work in Windows XP?) 什么版本的Python可以在Windows ...

  8. python pca降维_机器学习之sklearn中的降维算法

    1. PCA与SVD sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块.在过去的十年中,如果要讨论算法进步的先锋,矩阵分解可以说是独树一帜.矩阵分解可 ...

  9. louvian算法 缺点 优化_机器学习中的优化算法(1)-优化算法重要性,SGD,Momentum(附Python示例)...

    本系列文章已转至 机器学习的优化器​zhuanlan.zhihu.com 优化算法在机器学习中扮演着至关重要的角色,了解常用的优化算法对于机器学习爱好者和从业者有着重要的意义. 这系列文章先讲述优化算 ...

  10. 机器学习集群_机器学习中的多合一集群技术在无监督学习中应该了解

    机器学习集群 Clustering algorithms are a powerful technique for machine learning on unsupervised data. The ...

最新文章

  1. 反思读别人代码的思路
  2. 从零开始数据科学与机器学习算法-逻辑回归-04
  3. 配置ganesha-nfs对接rgw
  4. 如何上好网课 — 老师录课和在线上课教学经验谈
  5. JS数据结构第五篇 --- 二叉树和二叉查找树
  6. GNS3 将虚拟机加入组网
  7. 2022安徽合肥经济技术开发区招聘社区工作者冲刺试题及答案
  8. 【阿里云视频点播加密视频播放报错】:网络错误加载数据失败(fragLoadError)或者403
  9. cat环境搭建及springboot项目接入
  10. 机器学习中的数学——Momentum(Gradient Descent with Momentum, GDM)
  11. 网站维护需要做些什么?
  12. ValueError: Can only compute partial correlations for lags up to 50% of the sample size. The request
  13. Java并发编程:并发和并行
  14. 使用R进行数据可视化套路之-茎叶图、盒形图
  15. 【C++游戏设计】用颜色原理打印平面地图
  16. C++11新特性(侯捷)——课程笔记(九)
  17. Commvault斥资2.25亿美元收购Hedvig进行二次创业
  18. javascript的异步编程
  19. 华为网络工程师HCIP认证考试之223
  20. 流利说 l4测试 口语_为什么要现在开始学口语

热门文章

  1. 嵌入式Linux为Qt定制keymap
  2. CentOS 6.4 电信ADSL拨号上网网络配置
  3. android 小米申请root权限,小米root权限获取教程
  4. NVIDIA Forceware 260.89 Final 提升了多款游戏的性能
  5. JS中的单引号和双引号
  6. 全球及中国酒店保险箱行业发展现状及需求前景预测报告*2022-2027
  7. SiamRPN++理解
  8. python算日期_python中的日期计算
  9. 计算机控制中的pid是什么意思,PID 是什么意思
  10. android 缺半圆形头像,圆形头像设计