• 作者:韩信子@ShowMeAI
  • 教程地址:https://www.showmeai.tech/tutorials/33
  • 本文地址:https://www.showmeai.tech/article-detail/136
  • 声明:版权所有,转载请联系平台与作者并注明出处
  • 收藏ShowMeAI查看更多精彩内容

一、一维:描述性统计

速查表

  • http://showmeai.tech/article-detail/100
  • http://showmeai.tech/article-detail/101

描述性统计量分为:集中趋势、离散程度(离中趋势)和分布形态。

1.1 集中趋势

数据的集中趋势,用于度量数据分布的中心位置。直观地说,测量一个属性值的大部分落在何处。描述数据集中趋势的统计量是:平均值、中位数、众数。

(1)平均值(Mean)

指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,但是均值容易受到极端值(极小值或极大值)的影响。

(2)中位数(Median)

指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。

(3)众数(Mode)

指一组数据中出现次数最多的观测值,不受极端值的影响,常用于描述定性数据的集中趋势。

1.2 离散程度

数据的离散趋势,用于描述数据的分散程度,描述离散趋势的统计量是:极差、四分位数极差(IQR)、标准差、离散系数。

(1)极差(Range)

又称全距,记作R,是一组数据中的最大观测值和最小观测值之差。一般情况下,极差越大,离散程度越大,其值容易受到极端值的影响。

(2)四分位数极差(Inter-Quartile Range, IQR)

又称内距,是上四分位数和下四分位数的差值,给出数据的中间一半所覆盖的范围。IQR是统计分散程度的一个度量,分散程度通过需要借助箱线图(Box Plot)来观察。通常把小于 Q1−1.5∗IQRQ1-1.5*IQRQ1−1.5∗IQR 或者大于 Q3+1.5∗IQRQ3+1.5*IQRQ3+1.5∗IQR 的数据点视作离群点。

(3)方差(Variance)

方差和标准差是度量数据离散程度时,最重要】最常用的指标。方差,是每个数据值与全体数据值的平均数之差的平方值的平均数,常用 σ2\sigma ^{2}σ2表示。

σ2=∑(X−μ)2N​​​​\sigma^{2} = \frac{\sum \left ( X - \mu \right )^{2}}{N} ​​​​σ2=N∑(X−μ)2​​​​​

(4)标准差(Standard Deviation)

又称均方差,常用 \sigma 表示,是方差的算术平方根。计算所有数值相对均值的偏离量,反映数据在均值附近的波动程度,比方差更方便直观。

σ=∑(X−μ)2N\sigma = \sqrt{\frac{\sum \left ( X - \mu \right )^{2} }{N} } σ=N∑(X−μ)2​​

(5)离散系数(Coefficient of Variation)

又称变异系数,为标准差 \sigma 与平均值 \mu 之比,用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度大;离散系数小,说明数据的离散程度也小。

Cv=σμC_{v} = \frac{\sigma}{\mu} Cv​=μσ​

1.3 分布形态

(1)偏度(Skewness)

用来评估一组数据分布呈现的对称程度。

  • 当偏度系数=0时,分布是对称的
  • 当偏度系数>0时,分布呈正偏态(右偏)
  • 当偏度系数<0时,分布呈负偏态(左偏)

(2)峰度(Kurtosis)

用来评估一组数据的分布形状的高低程度的指标。

  • 当峰度系数=0时,是正态分布
  • 当峰度系数>0时,分布形态陡峭,数据分布更集中
  • 当峰度系数<0时,分布形态平缓,数据分布更分散

(3)其他数据分布图

分位数是观察数据分布的最简单有效的方法,但分位数只能用于观察单一属性的数据分布。散点图可以用来观察双变量的数据分布,聚类可以用来观察更多变量的数据分布。通过观察数据的分布,采用合理的指标,使数据的分析更全面,避免得出像平均工资这类偏离事实的的分析结果。

二、交叉维度

2.1 相关性和线性回归

更多详细讲解 图解AI数学基础 | 概率与统计

(1)相关系数

又称简单相关系数,常用 r 表示,反应两个变量之间的相关关系及相关方向。

(2)线性回归(Linear Regression)

线性回归是利用数理统计中回归分析,确定两种或两种以上变量间相互依赖的定量关系。

回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

2.2 方差分析

(1)单因素方差分析

一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。

(2)多因素有交互方差分析

一项实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系。

三、概率论

速查表

  • http://showmeai.tech/article-detail/118
  • http://showmeai.tech/article-detail/117

更多详细讲解 图解AI数学基础 | 概率与统计

3.1 概率事件

(1)独立事件

P(A∩B)=P(A)P(B)P\left ( A\cap B \right ) = P(A)P(B)P(A∩B)=P(A)P(B)

(2)对立事件

P(A)=1−P(B)P(A) = 1 - P(B)P(A)=1−P(B)

(3)互斥事件

P(A∩B)=0P\left ( A\cap B \right ) = 0P(A∩B)=0

(4)穷举事件

P(A∪B)=1P\left ( A\cup B \right ) = 1P(A∪B)=1

3.2 条件概率

(1)条件概率

P(A∣B)=P(AB)P(B)P(A \mid B) = \frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)​

(2)全概率公式

P(B)=P(AB)+P(AˉB)=P(A)P(B∣A)+P(Aˉ)P(B∣Aˉ)P(B) = P(AB) + P(\bar{A} B) = P(A)P(B \mid A) + P(\bar{A} )P(B \mid \bar{A} )P(B)=P(AB)+P(AˉB)=P(A)P(B∣A)+P(Aˉ)P(B∣Aˉ)

(3)贝叶斯定理

P(A∣B)=P(A)P(B∣A)P(A)P(B∣A)+P(Aˉ)P(B∣Aˉ)P(A \mid B) = \frac{ P(A)P(B \mid A) }{ P(A)P(B \mid A) + P(\bar{A})P(B \mid \bar{A}) } P(A∣B)=P(A)P(B∣A)+P(Aˉ)P(B∣Aˉ)P(A)P(B∣A)​

3.3 排列组合

(1)排列

PnN=n!(Nn)=N!(N−n)!P_{n}^{N} = n! \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{ \left (N-n \right )! } PnN​=n!(Nn​)=(N−n)!N!​

(2)组合

CnN=(Nn)=N!n!(N−n)!C_{n}^{N} = \begin{pmatrix} N \\ n \end{pmatrix} = \frac{N!}{n! \left (N-n \right )! } CnN​=(Nn​)=n!(N−n)!N!​

3.4 概率分布

(1)连续型概率分布

正态分布:正态概率分布是连续型随机变量中最重要的分布,记为

x∼N(μ,σ2)x\sim N\left (\mu , \sigma^{2} \right) x∼N(μ,σ2)

经验法则:正态随机变量有69.3%的值在均值加减个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。

(2)离散型概率分布

  • 伯努利分布

进行一次实验,若成功则随机变量取值为1,若失败则取值为0,成功的概率为p失败的概率为1-p

  • 二项分布

n个独立的是/非实验中,成功次数的概率分布。n=1时,二项分布就是伯努利分布

  • 泊松分布

在连续时间或空间单位上发生随机事件次数的概率。记为$$$$

四、统计推断

更多详细讲解 图解AI数学基础 | 概率与统计

4.1 抽样

抽样:应该满足抽样的随机性原则。
抽样方法:简单随机抽样、分层抽样、整群抽样、系统抽样

4.2 置信区间

4.3 假设检验

一键运行所有代码

图解数据分析系列 配套的所有代码,可前往ShowMeAI 官方 GitHub,下载后即可在本地 Python 环境中运行。能访问 Google 的宝宝也可以直接借助 Google Colab一键运行与交互学习!

下载数据分析速查表

Awesome cheatsheets | ShowMeAI速查表大全 系列包含『编程语言』『AI技能知识』『数据科学工具库』『AI垂直领域工具库』四个板块,追平到工具库当前最新版本,并跑通了所有代码。点击 官网GitHub 获取~

图解数据分析(3) | 数据分析的数学基础(数据科学家入门·完结)相关推荐

  1. 图解数据分析(12) | Pandas - 数据分析工具库介绍(数据科学家入门·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...

  2. 图解数据分析(1) | 数据分析介绍(数据科学家入门·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...

  3. 图解数据分析(5) | 核心步骤2 - 数据清洗与预处理(数据科学家入门·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...

  4. 图解数据分析(13) | Pandas - 核心操作函数大全(数据科学家入门·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...

  5. 图解数据分析(9) | Numpy - 与1维数组操作(数据科学家入门·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...

  6. 图解数据分析(10) | Numpy - 与2维数组操作(数据科学家入门·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...

  7. 数据分析显示,疫情下数据科学家的薪水几乎未受影响

    来源:大数据文摘 本文约1500字,建议阅读5分钟. 调查发现,数据科学家的薪资和工作不受Covid-19影响. 调查发现,数据科学家的薪资和工作不受Covid-19影响. 您想作为个人贡献者赚取高达 ...

  8. 有前途的人工智能大数据分析相关职业:Python数据科学入门之路

    2019独角兽企业重金招聘Python工程师标准>>> 为什么学习Python数据科学? Python是数据科学职业所需的宝贵技能之一.Python是数据科学的首选编程语言. 201 ...

  9. r和python数据分析_R和python大数据

    数据科学界华山论剑:R与Python巅峰对决 如果你是数据分析领域的新兵,那么你一定很难抉择--在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如"我想学习 ...

最新文章

  1. 大数据解决方案背后——开放架构才是未来
  2. whereis php,Linux命令教程之比较搜索命令whereis与which的区别
  3. SAP Marketing Cloud功能简述(四) : 线索和客户管理
  4. Unity中BVH骨骼动画驱动的可视化理论与实现
  5. 【转】ABP源码分析二十六:核心框架中的一些其他功能
  6. 2684亿销售额背后的阿里AI技术
  7. 2019报告:AI程序员人才需求暴涨35倍!每10个公司就有6个人才缺口
  8. jsp java 交互_JSP-Servlet入门4之JSP数据交互
  9. php装饰器模式 简书,装饰器模式/包装器模式
  10. struts2学习笔记(三) Action(上)
  11. 阿里布局无人驾驶;滴滴成立汽车服务;“京东 AI 天团”首亮相| CSDN极客头条...
  12. HDU2005 第几天?【日期计算】
  13. [改善Java代码]不要在构造函数中抛出异常
  14. 数学建模之MATLAB画图汇总
  15. 比特率与波特率有何差别?—Vecloud
  16. 欧盟授权代表EU Representative是什么?
  17. Idea关于Module is not backed by gradle的问题(部分转)
  18. python程序的循环结构_四、python程序结构之循环结构
  19. 魔百盒CDN00001_移动魔百盒设置最佳DNS方法
  20. 会议室预约系统 会议预约 会议预约触摸屏 会议预约管理系统

热门文章

  1. 词典构造方法之LDA主题模型
  2. 投资理财-普通投资的策略
  3. 【Java 环境搭建】(三)Git
  4. 蓝牙指环扫描枪【心科码】
  5. 电子设计大赛计算机,【计算机设计大赛】电子设计类决赛圆满落幕
  6. 初始Oracle数据库
  7. 百度云直链下载-IDM+油猴插件(一)
  8. 网页中加载二次元3D虚拟主播源码(1:项目介绍和源码)
  9. 基于PKS自主体系,中国电子云以可信安全聚焦央企等上云
  10. 更新Ubuntu系统报错: Err http://mirrors.163.com lenny Relese.gpg Temporary failure resolving 'mirro