【统计学】数据描述方法（均值、中位数、众数、标准差、离差、四分位数）

分布中心的测量：
均值：大多数时候所说的平均数,它的定义如下:
均值= 所有数值的总和 / 所有数值的个数总和

中位数：分类数据组的中间值(如果数据个数为偶数,则是两个中间数值和的一半)
众数：数据组中出现次数最多的值(或者一组值)

异常值：比几乎其他所有数字都要大/小很多的数值

加权平均值：对变量在数值中重要程度的解释。每个数值被赋予一个权重,它对应的加权平均值是:
加权平均值= (数值×对应权重)的总和 / 权重的总和 = ∑(x * w) / ∑w

数值总和=∑x
n表示样本中数值的总数。
$\bar{x}$ = 样本均值 = 数值总和/数值总数 = $\sum \frac{x}{n}$

对称性（偏态）（图）

当一个分布的左半部分与右半部分呈镜面效果时它就是对称分布
当一个分布的数值大多数分布在左侧时,它就是左偏分布
当一个分布的数值大多数分布在有侧时,它就右偏分布

离散程度：数据组相对于其中心是如何分散的

极差： 最大值与最小值的差值
极差 = 最大值 - 最小值

四分位数：
下四分位数：(第一四分位数或Q)将数据组最下部的1/4与上部的3/4分开。它是数据组下半部分的中位数。(如果数据组中的数据为奇数个,那么除去数据组的中间值。)
中间四分位数：(第二四分位数或Q2)是总体的中位数
上四分位数：(第三四分位数或Q)将数据组最下部的3/4与上部的1/4分开。它是数据组上半部分的中位数。(如果数据组中的数据为奇数个,除去数据组的中间值。)

数据组的第n百分位数把数据分为下部的n%和上部的(100-n)%。如果一个数值正好在两个百分
位数之间,通常说这个数值处于低位的百分位数。可以通过以下公式大致估计任一组数据的百分位数
百分位数 = 小于该数值的数据个数 / 数据组中数据的总个数 * 100%

计算标准差
第一步,计算数据组的均值。通过对每个数值减去均值得到离差。对于每个数值:
离差=数值-均值
第二步,求出所有离差的平方值。
第三步,将所有离差的平方值相加。
第四步,用离差的平方和除以数值总数减1
第五步,标准差是上述商的开方。综上所述,标准差的计算，公式如下：
标准差= 离差平方和数值总数-1 开根号

极差经验法法则：
   极差经验法则中,标准差与极差的关系为:
       标准差 ≈ 极差/4
   如果知道分布的极差(极差=最大值-最小值)我们就可以通过这个法则来估计标准差。另一方面,如果知道标准差,我们也可以通过这个法则来估计最大值与最小值,公式如下:
       最小值≈均值-(2×标准差)
       最大值≈均值+(2×标准差)
   当最大值与最小值为异常值时,极差经验法则不再适用。

离差 = 数值 - 均值 =   $x-\bar{x}$
离差平方和 =   $\sum (x-\bar{x})^2$
标准差 = s =   $\sqrt{\frac{\sum (x-\bar{x})^2}{n-1}}$

【统计学】数据描述方法（均值、中位数、众数、标准差、离差、四分位数）相关推荐

统计学基础之：均值-中位数-众数-极差-中程数-方差-标准差-变异系数
转载自:http://blog.sina.com.cn/s/blog_62ded7bf0101aqba.html 本文大纲: 数据挖掘分析&算法前奏之data exploration做什么基 ...
均值-中位数-众数-极差-中程数-方差-标准差-变异系数
一.数据挖掘&算法前奏之data exploration做什么一个数字序列,如何通过简单的统计指标,直接&直观地描述这个数字序列的一些基本属性,是数据处理与理解的刚需.做数据挖掘和机 ...
统计之均值中位数众数全距四分位数以及箱线图展示
均值:即平均数,数列中各数总和除以个数.可用numpy.mean函数计算中位数: 数字从小到大排列的数列中位于中间位置的那个数,如果数列个数为奇数位则中位数位于(n+1)/2, 如果为偶数位则为n/ ...
多重插补均值插补_Feature Engineering Part-1均值/中位数插补。
多重插补均值插补 Understanding the Mean /Median Imputation and Implementation using feature-engine-.! 了解使用特 ...
R语言使用epiDisplay包的summ函数计算向量数据在不同分组下的描述性统计汇总信息并可视化有序点图（名称、有效值个数、均值、中位数、标准差、最大值、最小值）
R语言使用epiDisplay包的summ函数计算向量数据在不同分组下的描述性统计汇总信息并可视化有序点图(名称.有效值个数.均值.中位数.标准差.最大值.最小值) 目录
R语言使用epiDisplay包的summ函数计算dataframe数据中的指定数据列在分组变量下的统计量（样本数、均值、中位数、标准差、最大值、最小值）、可视化一个按照分类变量绘制的有序点图
R语言使用epiDisplay包的summ函数计算dataframe数据中的指定数据列在分组变量下的统计量(样本数.均值.中位数.标准差.最大值.最小值).可视化一个按照分类变量绘制的有序点图目录
R语言使用epiDisplay包的summ函数计算dataframe中指定变量的描述性统计汇总信息并可视化有序点图、通过dot.col参数配置数据点的颜色（名称、有效值个数、均值、中位数、标准差）
R语言使用epiDisplay包的summ函数计算dataframe中指定变量的描述性统计汇总信息并可视化有序点图.通过dot.col参数配置数据点的颜色(名称.有效值个数.均值.中位数.标准差.最大 ...
R语言rnorm函数生成正太分布数据、使用epiDisplay包的summ函数计算向量数据的描述性统计汇总信息并可视化有序点图（名称、有效值个数、均值、中位数、标准差、最大值、最小值）
↵ R语言rnorm函数生成正太分布数据.使用epiDisplay包的summ函数计算向量数据的描述性统计汇总信息并可视化有序点图(名称.有效值个数.均值.中位数.标准差.最大值.最小值) 目录
R语言使用epiDisplay包的summ函数计算向量数据在不同分组下的描述性统计汇总信息并可视化有序点图、使用main参数为可视化图像添加自定义标题（名称、有效值个数、均值、中位数、标准差、最大值）
R语言使用epiDisplay包的summ函数计算向量数据在不同分组下的描述性统计汇总信息并可视化有序点图.使用main参数为可视化图像添加自定义标题(名称.有效值个数.均值.中位数.标准差.最大值. ...
用C语言计算中位数众数,统计学计算中位数与众数
中位数(又称中值):是统计学中的专有名词,代表一个样本.种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分. 众数:是统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平 ...

【统计学】数据描述方法（均值、中位数、众数、标准差、离差、四分位数）

【统计学】数据描述方法（均值、中位数、众数、标准差、离差、四分位数）相关推荐

最新文章

热门文章