目录

数理统计

2.1 抽样分布

1)卡方(​​​)分布

2)t分布

3)F分布

2.2 大数定律

2.3中心极限定理

总结

系列文章目录


数理统计

数理统计是数学的一个分支,分为描述统计和推断统计。它以概率论为基础,研究大量随机现象的统计规律性。描述统计的任务是搜集资料,进行整理、分组,编制次数分配表,绘制次数分配曲线,计算各种特征指标,以描述资料分布的集中趋势、离中趋势和次数分布的偏斜度等。推断统计是在描述统计的基础上,根据样本资料归纳出的规律性,对总体进行推断和预测。

由于本文章会多次运用到matplotlib库的知识,如有需要请移步前往matplotlib库巩固知识点。

2.1 抽样分布

1)卡方(​​)分布

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布

import numpy as np
from scipy import stats
import matplotlib.pyplot as pltdef diff_chi2_dis():'''不同参数下的卡方分布:return:'''chi2_dis_0_5 = stats.chi2(df = 0.5)chi2_dis_1 = stats.chi2(df = 1)chi2_dis_4 = stats.chi2(df = 4)chi2_dis_10 = stats.chi2(df = 10)chi2_dis_20 = stats.chi2(df = 20)#x1 = np.linspace(chi2_dis_0_5.ppf(0.01), chi2_dis_0_5.ppf(0.99), 100)x2 = np.linspace(chi2_dis_1.ppf(0.65), chi2_dis_1.ppf(0.9999999), 100)x3 = np.linspace(chi2_dis_4.ppf(0.000001), chi2_dis_4.ppf(0.999999), 100)x4 = np.linspace(chi2_dis_10.ppf(0.000001), chi2_dis_10.ppf(0.99999), 100)x5 = np.linspace(chi2_dis_20.ppf(0.00000001), chi2_dis_20.ppf(0.9999), 100)fig, ax = plt.subplots(1,1)#ax.plot(x1, chi2_dis_0_5.pdf(x1), 'k-', lw=2, label= 'df=0.5')ax.plot(x2, chi2_dis_1.pdf(x2), 'g-', lw=2, label= 'df=1')ax.plot(x3, chi2_dis_4.pdf(x3), 'r-', lw=2, label= 'df=4')ax.plot(x4, chi2_dis_10.pdf(x4), 'b-', lw=2, label= 'df=10')ax.plot(x5, chi2_dis_20.pdf(x5), 'y-', lw=2, label= 'df=20')plt.ylabel('Probability')plt.title(r'PDF of $\chi^2$Distribution')ax.legend(loc='best', frameon=False)plt.show()diff_chi2_dis()

当自由度df等于1或2时,函数图像都呈单调递减的趋;当df大于或等于3时,呈先增后减的趋势。从定义上来看,df的值只能取正整数。

2)t分布

t-分布用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

import numpy as np
from scipy import stats
import matplotlib.pyplot as pltdef diff_t_dis():'''不同参数下的卡方分布:return:'''norm_dis = stats.norm()t_dis_1 = stats.t(df = 1)t_dis_4 = stats.t(df = 4)t_dis_10 = stats.t(df = 10)t_dis_20 = stats.t(df = 20)x1 = np.linspace(norm_dis.ppf(0.000001), norm_dis.ppf(0.999999), 1000)x2 = np.linspace(t_dis_1.ppf(0.04), t_dis_1.ppf(0.96), 1000)x3 = np.linspace(t_dis_4.ppf(0.001), t_dis_4.ppf(0.999), 1000)x4 = np.linspace(t_dis_10.ppf(0.001), t_dis_10.ppf(0.999), 1000)x5 = np.linspace(t_dis_20.ppf(0.0001), t_dis_20.ppf(0.999), 1000)fig, ax = plt.subplots(1,1)ax.plot(x1, norm_dis.pdf(x1), 'k-', lw=2, label= r'N(0,1)')ax.plot(x2, t_dis_1.pdf(x2), 'g-', lw=2, label= 'df=1')ax.plot(x3, t_dis_4.pdf(x3), 'r-', lw=2, label= 'df=4')ax.plot(x4, t_dis_10.pdf(x4), 'b-', lw=2, label= 'df=10')ax.plot(x5, t_dis_20.pdf(x5), 'y-', lw=2, label= 'df=20')plt.ylabel('Probability')plt.title(r'PDF of t Distribution')ax.legend(loc='best', frameon=False)plt.show()diff_t_dis()

从上图可以看出,t分布和标准正态分布之间的差别还是比较大的,但当自由度n趋近于无穷大时,t分布与标准正态分布没有区别(推导后的公式也将变得完全一样);而当自由度n较小时,t分布比标准正态分布的尾部更宽,因此也比正态分布更慢地趋近于0。

3)F分布

F分布是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布,是一种非对称分布,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。

import numpy as np
from scipy import stats
import matplotlib.pyplot as pltdef diff_F_dis():'''不同参数下的卡方分布:return:'''#F_dis_0_5 = stats.F(dfn = 10, dfd = 1)F_dis_1_30 = stats.f(dfn = 1, dfd = 30)F_dis_30_5 = stats.f(dfn = 30, dfd = 5)F_dis_30_30 = stats.f(dfn = 30, dfd = 30)F_dis_30_100 = stats.f(dfn = 30, dfd = 100)F_dis_10_100 = stats.f(dfn = 100, dfd = 100)#x1 = np.linspace(F_dis_0_5.ppf(0.01), F_dis_0_5.ppf(0.99), 100)x2 = np.linspace(F_dis_1_30.ppf(0.65), F_dis_1_30.ppf(0.99), 100)x3 = np.linspace(F_dis_30_5.ppf(0.00001), F_dis_30_5.ppf(0.999), 100)x4 = np.linspace(F_dis_30_30.ppf(0.00001), F_dis_30_30.ppf(0.999), 100)x5 = np.linspace(F_dis_30_100.ppf(0.0001), F_dis_30_100.ppf(0.999), 100)x6 = np.linspace(F_dis_10_100.ppf(0.0001), F_dis_10_100.ppf(0.9999), 100)fig, ax = plt.subplots(1,1,figsize=(20,10))#ax.plot(x1, F_dis_0_5.pdf(x1), 'k-', lw=2, label= 'F(0.5,0.5)')ax.plot(x2, F_dis_1_30.pdf(x2), 'g-', lw=2, label= 'F(1,30)')ax.plot(x3, F_dis_30_5.pdf(x3), 'r-', lw=2, label= 'F(30,5)')ax.plot(x4, F_dis_30_30.pdf(x4), 'b-', lw=2, label= 'F(30,30)')ax.plot(x5, F_dis_30_100.pdf(x5), 'y-', lw=2, label= 'F(30,100)')ax.plot(x6, F_dis_10_100.pdf(x6), 'y-', lw=2, label= 'F(100,100)')plt.ylabel('Probability')plt.title(r'PDF of F Distribution')ax.legend(loc='best', frameon=False)plt.show()diff_F_dis()


2.2 大数定律

在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。


2.3中心极限定理

中心极限定理,是指概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件。它是概率论中最重要的一类定理,有广泛的实际应用背景。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。


总结

本文为大家重点介绍了与人工智能有关的梳理统计方法,概率统计知识在人工智能领域发挥着非常重要的作用,如深度学习理论,概率图模型等都依赖于概率分布作为框架的基本建模语言,学习了解机器学习的概率统计对你的掌握百利无一害~~

欢迎大家留言一起讨论问题~~~


系列文章目录

第一章:机器学习的概率统计模型(附代码)(一)

第二章:机器学习的概率统计模型(附代码)(二)

机器学习的概率统计模型(附代码)(二)相关推荐

  1. 机器学习完整项目实战附代码(二):探索型数据分析+特征工程+建模+报告

    1. 项目背景: 1.1 项目目标: 使用提供的波士顿房屋租赁价格数据开发一个模型,该模型可以预测房屋租赁价格, 然后解释结果以找到最能预测的变量. 这是一个受监督的回归机器学习任务:给定一组包含目标 ...

  2. 机器学习的概率统计模型(附代码)(一)

    目录 概率论 1.1 离散随机变量分布 1)伯努利分布 2)二项分布 3)泊松分布 1.2 连续随机变量分布 1)均匀分布 2)指数分布 3)正态分布 总结 系列文章目录 概率论 概率论,是研究随机现 ...

  3. 教你用机器学习匹配导师 !(附代码)

    作者:Zipporah Polinsky-Nagel, Gregory Brucchieri, Marissa Joy, William Kye, Nan Liu, Ansel Andro Santo ...

  4. 机器学习完整项目实战附代码(一):探索型数据分析+特征工程+建模+报告

    1. 项目背景   泰坦尼克号的沉没是历史上最臭名昭著的沉船之一.1912年4月15日,在她的处女航中,被广泛认为"不沉"的"泰坦尼克号"在与冰山相撞后沉没.不 ...

  5. 推荐 | Python机器学习项目实战(附代码 + 可下载)【一】

    这是一篇完全手把手进行机器学习项目构建的教程,包含: 1. 数据清理和格式化 2. 探索性数据分析 3. 特征工程和特征选择 4. 在性能指标上比较几种机器学习模型 5. 对最佳模型执行超参数调整 6 ...

  6. 独家 | 利用深度学习和机器学习预测股票市场(附代码)

    来源:AISHWARYA SINGH, 2018年10月25日 翻译:赵雪尧 校对:车前子 本文约8000字,建议阅读15+分钟. 本文介绍了如何运用深度学习法预测股票市场. 简介 预测股市将如何变化 ...

  7. 推荐 : 利用深度学习和机器学习预测股票市场(附代码)

    来源:AISHWARYA SINGH, 2018年10月25日:翻译:赵雪尧:校对:车前子 本文约8000字,建议阅读15+分钟. 本文介绍了如何运用深度学习法预测股票市场. 简介 预测股市将如何变化 ...

  8. python常用代码入门-入门十大Python机器学习算法(附代码)

    入门十大Python机器学习算法(附代码) 今天,给大家推荐最常用的10种机器学习算法,它们几乎可以用在所有的数据问题上: 1.线性回归 线性回归通常用于根据连续变量估计实际数值(房价.呼叫次数.总销 ...

  9. 机器学习三人行(系列七)----支持向量机实践指南(附代码)

    原文链接:阅读原文 欢迎大家关注微信公众号"智能算法",我们一起学习,共同进步. 如需前面系列文章,请在公众号回复" 机器学习 "进行查看! 通过对系列六的学习 ...

最新文章

  1. 什么检索是借助计算机技术进行自动标引的,自动文献检索系统
  2. 同为Java开发:有了这些Java项目经历,面大厂稳了!
  3. access和SQL的区别
  4. 如何知道网站的IP,然后利用IP登陆网站?
  5. 禁止linux使用密码ssh,linux centos7服务器使用密钥登录ssh同时禁止root密码登录
  6. 利用python 实现微信公众号群发图片与文本消息功能
  7. SAP FSM 学习笔记(一) : 使用API消费FSM的数据
  8. leetcode117. 填充每个节点的下一个右侧节点指针 II(层序遍历08)
  9. 【自适应(盲)均衡1】LMMSE、Godard、CMA常模、Sato等算法在信道均衡中的应用理论与MATLAB仿真
  10. widows下nignx的使用
  11. 推荐一款自动化代码变量命名在线工具
  12. Spring Cloud各组件
  13. Tar的详细用法(转自Linux伊甸园)
  14. 微信公众平台订阅号如何升级为服务号?
  15. Exception loading sessions from persistent storage+ClassNotFoundException
  16. 一寸Timing一寸金,寸金能买寸光阴——CCD
  17. Week Day总结
  18. BZOJ - 4810 [Ynoi2017]由乃的玉米田 莫队算法 + bitset 大暴力
  19. mount 中文man(转)
  20. 二叉树(从建树、遍历到存储)Java

热门文章

  1. 单体架构项目开发(插入数据为例)
  2. “Map.get“ and value test should be replaced with single method call
  3. python的列表的操作
  4. 中国有哪些海洋物探招投标网站
  5. 所以他打算上计算机课程英语,2012年小学生英语,计算机编程课程计划
  6. C++ socket网络编程-01
  7. uniApp微信小程序唤出授权头像昵称(微信授权登录)弹窗,及服务端用户信息解密注意事项
  8. 重入锁 ReentrantLock
  9. Hibernate 映射文件
  10. Latex公式换行编写