整理一下自己所掌握的数据分析中涉及的统计学知识点,参考的文章或链接会放在下面,此篇为描述性统计相关,涵盖的并不全面,后续会慢慢的完善,如有纰漏欢迎指正~

目录

知识点参考来源

一、样本常见属性

1.1 位置的度量

1.1.1  算术平均数

1.1.2 加权平均数

1.1.3 中位数

1.1.4 几何平均数

1.1.5 众数

1.1.6 百分位数

1.2 变异程度的度量

1.2.1 极差

1.2.2 四分位数间距IQR

1.2.3 方差

1.2.4 标准差

1.3 Z-分数

1.4 分布形态

1.4.1 正态分布

1.4.2 正偏态分布

1.4.3 负偏态分布

1.5 两变量间关系的度量

1.5.1 协方差

1.5.2 相关系数

二、常见定理

2.1 切比雪夫定理

2.2 经验法则(3σ法则)

2.3 幸存者偏差

2.4 辛普森悖论

2.5 异常值检测

2.5.1 z-分数法

2.5.2 上下限法

三、数据分布

3.1 离散型概率分布

3.1.1 二项分布

3.1.2 伯努利分布

3.1.3 泊松分布

3.1.4 超几何分布

3.2 连续型概率分布

3.2.1 均匀分布

3.2.2 正态分布

3.2.3 指数概率分布



知识点参考来源

1.《商务与经济统计》(原书第13版)
2.《校招面试考点全解析——数据分析师篇》
3.百度


一、样本常见属性

1.1 位置的度量

1.1.1  算术平均数

平均数体现的是对数据集的中心位置的度量,当数据来自某个样本时,平均数用x表示;如果数据是来自总体,则我们用希腊字母μ表示。

算术平均数,即一组数据中所有数据之和再除以数据的个数所得到的值

公式为

1.1.2 加权平均数

即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。

公式为 ,式中,为第i个观测值的权重。

1.1.3 中位数

将所有数据按升序排列后,位于中间的数值即为中位数。

当数据量为奇数时,中位数就是位于中间那个数值;当数据量为偶数时,中位数是中间两个数值的平均数。

当数据集中含有极端值时,使用中位数作为中心位置的度量会比平均数更合适。比如,计算全国人民的收入时,中位数就比平均数更能体现收入的中心位置。

1.1.4 几何平均数

它是n个数值乘积的n次方根,记为,常常用于分析如增长率等问题。

公式为

1.1.5 众数

众数即为数据集中出现次数最多的数据。

1.1.6 百分位数

百分位数提供了数据是如何散布在从最小值到最大值的区间上的信息。

第p百分位数位置,n为数据量。

其中,四分位数是一种特殊的百分位数,它将数据划分为四部分,每一部分大约包含了的观测值,因此可以用计算百分位数的方法计算四分位数。

一般:=第一四分位数,又叫第25百分位数

=第二四分位数,又叫第50百分位数,同时也是中位数

=第三四分位数,又叫第75百分位数

1.2 变异程度的度量

除了位置的度量外,我们往往还需要考虑变异程度,即离散程度的度量。

1.2.1 极差

是最容易计算的体现变异程度的度量,同时也极易受到异常值的影响。

极差=最大值-最小值

1.2.2 四分位数间距IQR

为第三四分位数-第一四分位数的差值,即为中间50%的极差。

1.2.3 方差

是最常见的变异程度的度量, 依赖于每个观察值()与平均值之间的差异。

总体方差,μ为总体均值,N为总体的数据量

样本方差为样本均值,n为样本的数据量

1.2.4 标准差

标准差为方差的正平方根。

样本标准差 

总体标准差

1.3 Z-分数

z-分数作为相对位置的度量值,可以帮助我们确定一个数据离平均数有多远。

z-分数也称为标准化数值。

1.4 分布形态

1.4.1 正态分布

变量的频数或者频率呈现中间最多,两端逐渐对称减少的一种分布规律。

举例:一个年级学生的身高分布呈一个正态分布。

1.4.2 正偏态分布

又叫做右偏态分布,特征是其平均数大于中位数,中数又大于众数,这样的一组数据的分布是属于正偏态分布。

1.4.3 负偏态分布

又叫做左偏态分布,特征是其平均数小于中位数,中数又小于于众数,则数据的分布是属于负偏态分布。

1.5 两变量间关系的度量

1.5.1 协方差

样本协方差

我们将每个与其样本的平均数的离差乘以对应的与其样本平均数的离差,再将所有结果加总,然后除以n-1,所得的结果即为样本协方差。协方差值越大,正线性相关关系越强,值越小,负线性相关关系也就越小。

1.5.2 相关系数

这里我们只涉及皮尔逊相关系数。又称为线性相关系数,仅仅只能判断样本间变量是否存在线性关系,由协方差与方差的比值计算而来,取值在-1到1之间:

相关系数的绝对值越接近于1,线性相关关系越强,越接近于0,线性相关关系越弱。


二、常见定理

2.1 切比雪夫定理

与平均数的距离在z个标准差之内的数据值所占的比例至少为,其中z是大于1的任意实数。

当z=2,3,4时,该定理的一些应用如下:

  • 至少0.75或75%的数据值与平均数的距离在z=2个标准差之内
  • 至少0.89或89%的数据值与平均数的距离在z=3个标准差之内
  • 至少0.94或94%的数据值与平均数的距离在z=4个标准差之内

2.2 经验法则(3σ法则)

对于钟型分布(即正态分布)的数据,有

  • 大约68%的数据值与平均数在1个标准差之内
  • 大约95%的数据值与平均数在2个标准差之内
  • 几乎所有的数据值与平均数在3个标准差之内

2.3 幸存者偏差

只看了经过某种筛选而产生的结果,却没有意识到筛选的过程,因此忽略了被筛选掉的关键信息,在幸存者偏差这个问题中,我们观察到的样本是被筛选过的有偏样本。

2.4 辛普森悖论

指某个条件下两组数据单独分析得到的结论,可能与将其综合起来分析得到的结论截然相反。辛普森悖论在A/B试验中常作为高频考点出现,这时候实验结果值得我们细细斟酌,甚至需要重新分配流量再次测试。

2.5 异常值检测

2.5.1 z-分数法

z-分数可以用来检测异常值,经验法则告诉我们,对于正态分布的数据,几乎所有的数据值与平均数的距离都在3个标准差之内,因此,在利用z-分数法来检测异常值时,可以把z-分数小于-3或者大于+3的所有数值都视作为异常值。

2.5.2 上下限法

确定异常值的另一种方法是上下限法,以第一四分位数与第三四分位数以及四分位数间距IQR为依据。首先我们计算数据集的上限和下限

  • 上限=
  • 下限=
  • IQR=

如果一个观测值的数值大于上限或小于下限,则将其视作为为异常值。


三、数据分布

3.1 离散型概率分布

3.1.1 二项分布

指统计变量中只有性质不同的两项群体的概率分布。

二项代表事件往往只有两种可能的结果,一种是成功,另一种是失败。在n次独立重复的实验中,假设每次实验A事件发生概率为p,X表示A事件发生的次数.

存在公式:

性质:

1)由一系列相同的n个试验组成

2)每次试验都有两种可能的结果,我们把其中一个 称为成功,另一个称为失败

3)每次试验成功的概率都是相同的,用p来表示,失败的概率也相同,用1-p表示

4)试验是相互独立的

3.1.2 伯努利分布

  1. 在概率论和统计学中,二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。

3.1.3 泊松分布

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。在排队论中使用比较广泛,比如说,在一个医院中,假设每个病人来看病的概率都是随机且独立的,那么这个医院在一天内接受的病人呈泊松分布。

泊松分布的概率函数为:

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。k为预计发生的次数。

3.1.4 超几何分布

超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。

3.2 连续型概率分布

3.2.1 均匀分布

均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。

假设x服从[a,b]上的均匀分布,则x的概率密度函数如下:

3.2.2 正态分布

变量的频数或者频率呈现出中间最多,两端逐渐对称减少的一种分布规律。对于正态分布而言,均值=中位数=众数。

3.2.3 指数概率分布

可用于描述如打到某加油站的两辆车时间间隔、高速路上两起重大事故发生地之间的距离等随机变量。

定义:连续随机变量X服从参数为λ的指数分布,其中λ>0为常数,记为X~E(λ),它的概率密度为

数据分析统计知识—描述性统计相关推荐

  1. 数学建模——数据分析、描述性统计

    描述性统计 描述性统计是描述数据中的最大值,最小值,中位数,均值,方差,标准差等统计量. 使用MATLAB进行描述性同济 MATLAB中对应的函数如下: MATLAB代码及结果如下: 使用EXCEL进 ...

  2. 数据分析之描述性统计

    当我们打开一份有十几列,几万行的明细数据时,那种感觉我相信用铺天盖地.头晕目眩来形容是再合适不过了. 面对如此令人崩溃的场景,必须要求我们要求能够快速找到数据的特征.描述性统计正是为此而生,它通过几个 ...

  3. SPSS数据分析之描述性统计、区间估计与假设检验【操作详解】

    文章目录 1.描述统计 2.区间估计 3.假设检验 1.描述统计 (1)依次点击分析,描述性统计,描述. (2)选项可以选择需要进行描述统计的统计变量. (3)描述性统计分析结果 范围统计为极大值与极 ...

  4. python描述性统计命令_描述性统计_Python数据分析实战应用_数据挖掘与分析视频-51CTO学院...

    为什么学Python: 重要:数据分析是职业技能必备,Python是大数据分析** 趋势:Python是目前非常火的编程语言,使用人多 好学:学习简单,容易上手,使用灵活,可扩展强 **:会Pytho ...

  5. python数据分析及可视化(一)课程介绍以及统计学的应用、介绍、分类、基本概念及描述性统计

    数据分析及可视化介绍 这门课涉及多个库,其中Numpy用于数值运算:Pandas用于数据处理:Matplotlib.Seaborn.Pyecharts用于数据可视化. 数据分析介绍 概念 用适当的统计 ...

  6. 发掘数据中的信息 -- 数据探索之描述性统计

    在如今这个大数据时代,数据的价值得到普遍的认可.可是,数据为什么有价值呢?如果,数据只是静静地躺在服务器中,又或是默默地流淌在网络中,它们又能带来什么? 数据就如同海边的沙子,潮起潮落,岁月轮转,它们 ...

  7. python画直方图成绩分析-使用Python进行描述性统计

    2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy importarray2 from numpy.random importnormal, randint3 #使 ...

  8. 用python做频数分析_使用Python进行描述性统计

    2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy import array 2 from numpy.random import normal, randint ...

  9. Python描述性统计

    目录 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度( ...

最新文章

  1. DataTable中进行Distinct、Group by、Join、Create
  2. Nginx配置文件nginx.conf的文件结构
  3. C#类的属性遍历及属性值获取
  4. pil 图像最大值_第97天:图像库 PIL(二)
  5. java jni ubuntu 环境搭建时遇到的坑
  6. 计算机视觉领域常见期刊和会议,计算机视觉领域常见期刊和会议
  7. 文字排版不可不看的优秀案例合集
  8. DirectUI的初步分析-转
  9. CodeMirror实现代码对比功能
  10. 记录贴,计算器改良,税收与补贴,一元三次方程解法,最大公约数最小公倍数
  11. ipone=遥控器?
  12. php rrd getcreator,Cacti ERROR: opening '*.rrd': No such file or directory 解决方法
  13. 高速PCB设计系列基础知识67 | 尺寸与公差标注内容与通用知识
  14. LeetCode:Confusing Number II
  15. html div鼠标选中状态,CSS鼠标移动div时如何避免选中div中的文字
  16. python入门教材 52pj_PJzhang:python基础入门的7个疗程-five
  17. 这10种神级性能优化手段,你用过几个?
  18. Quantopian自学笔记01
  19. 雷达的主要技术指标、应用与分类和雷达对抗
  20. DotNetTextBox V3.0 所见即所得编辑器控件Ver3.2.4 Free(免费版)

热门文章

  1. 计算机网络常见面试题目总结,含答案
  2. 网线标准以及国内外大牌
  3. 硬件产品如何防止抄板
  4. 跟刀客一起追寻昨日的足迹
  5. Suzy找到实习了吗Day 14 | 二叉树开始啦 二叉树的分类、定义、遍历方法
  6. 如何打开mcp为后缀的文档(昆仑通态 人机界面HMI,配合PLC)
  7. 华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践
  8. [生命科学] 生物基础实验之三引物检测突变体
  9. java79-GUL聊天窗口
  10. Linux学习 day05之用户组权限管理