引言

在【MATLAB数据分析】01数据的均值、变异度、偏度和峰度一文中我们介绍了均值、方差、标准差等数字特征,它们都是总体相应特征值的一种矩估计,更适合来自正态分布的数据的分析。但若总体的分布未知,或者数据严重偏态,有若干异常数据(极端值),则上述的分析方法不太合适,这时候可以利用本文介绍的中位数分位数三均值等数据特征计算。本文还给出了MATLAB计算的函数。、


文章目录

  • 引言
  • 1 中位数
    • 1.1 样本均值
    • 1.2 MATLAB编程-中位数
  • 2 分位数
    • 2.1 上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点
    • 2.2 MATLAB编程-上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

设 n n n个观测值构成行向量 x \mathbf{x} x

x = [ x 1 , x 2 , ⋯ , x n ] \mathbf{x}=[x_1, x_2, \cdots, x_n] x=[x1​,x2​,⋯,xn​]

其中 n n n是样本容量。它是来自某总体的样本,数值从小到大重新排列为:

x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) x_{(1)},x_{(2)},\cdots,x_{(n)} x(1)​,x(2)​,⋯,x(n)​

这就是次序统计量,显然,最小次序统计量 x ( 1 ) x_{(1)} x(1)​与最大次序统计量 x ( n ) x_{(n)} x(n)​分别为:

x ( 1 ) = m i n 1 ≤ i ≤ n x ( i ) , x ( n ) = m a x 1 ≤ i ≤ n x ( i ) x_{(1)}=\underset{1\le i\le n}{min}x_{(i)},\quad x_{(n)}=\underset{1\le i\le n}{max}x_{(i)} x(1)​=1≤i≤nmin​x(i)​,x(n)​=1≤i≤nmax​x(i)​

1 中位数

1.1 样本均值

中位数的计算公式为:

M = { x ( n + 1 2 ) , n 为 奇 数 1 2 ( x ( n 2 ) + x ( n + 1 2 ) ) , n 为 偶 数 M=\left\{\begin{matrix} x_{(\frac{n+1}{2})},\quad\quad\quad\quad &n为奇数 \\ \frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n+1}{2})}),&n为偶数 \end{matrix}\right. M={x(2n+1​)​,21​(x(2n​)​+x(2n+1​)​),​n为奇数n为偶数​

中位数是描述数据中心位置的数字特征,大体上比中位数大或小的数据个数为整个数据个数的一半对于对称分布的数据,均值与中位数较接近,对于偏态分布的数据,均值与中位数不同。中位数的另一显著特点是不受个别极端数据变化的影响,具有较好的稳定性

1.2 MATLAB编程-中位数

计算中位数使用的是函数median

xmed=median(x);

也可以使用函数prctile,计算 1 / 2 1/2 1/2分位数,第二个参数为50。

x50=prctile(x,50);

代码中x50xmed都表示中位数,只是使用函数不同,书写不同以示区分。

2 分位数

2.1 上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

对 0 ≤ p < 1 0\le p<1 0≤p<1和容量为 n n n的样本 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1​,x2​,⋯,xn​,它的 p p p分位数(又叫100 p p p百分数)为:

M p = { x [ n p + 1 ] , n p 不 是 整 数 1 2 ( x ( n p ) + x ( n p + 1 ) ) , n p 是 整 数 M_p=\left\{\begin{matrix} x_{[np+1]},\quad\quad\quad\quad\quad &\quad np不是整数 \\ \frac{1}{2}(x_{(np)}+x_{(np+1)}),&np是整数 \end{matrix}\right. Mp​={x[np+1]​,21​(x(np)​+x(np+1)​),​np不是整数np是整数​

其中 [ n p ] [np] [np]表示 n p np np的整数部分,当 p = 1 p=1 p=1时,定义 M 1 = x ( n ) M_1=x_{(n)} M1​=x(n)​。大体上整个样本的 100 p 100p% 100p的观测值不超过 p p p分位数。0.5分位数 M 0.5 M_{0.5} M0.5​(第50百分位数)就是中位数。实际应用中,0.75分位数和0.25分位数比较重要,分别记作上、下四分位数,记作:

Q 3 = M 0.75 , Q 1 = M 0.25 Q_3=M_{0.75},\quad Q_1=M_{0.25} Q3​=M0.75​,Q1​=M0.25​

上、下四分位数之差称为四分位极差(或半极差),表示为:

R 1 = Q 3 − Q 1 R_1=Q_3-Q_1 R1​=Q3​−Q1​

它也是度量样本分散性的重要数字特征,尤其对于具有异常值的数据,它作为分散性的度量具有稳健性,因此它在稳健型数据分析中具有重要作用。

当样本 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1​,x2​,⋯,xn​是来自正态总体 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)时,其总体上、下四分位数为:

ξ 0.75 = μ + 0.6745 σ ξ 0.25 = μ − 0.6745 σ \xi_{0.75}=\mu+0.6745\sigma\\ \xi_{0.25}=\mu-0.6745\sigma ξ0.75​=μ+0.6745σξ0.25​=μ−0.6745σ

故其总体四分位极差为:

r 1 = ξ 0.75 − ξ 0.25 = 1.349 σ r_1=\xi_{0.75}-\xi_{0.25}=1.349\sigma r1​=ξ0.75​−ξ0.25​=1.349σ

也即:

σ = r 1 1.349 \sigma=\frac{r_1}{1.349} σ=1.349r1​​

当样本存在异常值时,标准差 s s s缺乏稳健性。根据上面的讨论,可以得到总体标准差 s s s的一个具有稳健性的估计:

σ ^ = R 1 1.349 \hat{\sigma} =\frac{R_1}{1.349} σ^=1.349R1​​

它称为四分位标准差。对于任意观测数据 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1​,x2​,⋯,xn​, σ ^ \hat{\sigma} σ^可以作为数据分散性的稳健度量。

我们知道,均值 x ‾ \overline{x} x和中位数 M M M都是描述数据集中位置的数字特征。计算 x ‾ \overline{x} x时,用了样本 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1​,x2​,⋯,xn​的全部信息,而 M M M只是用了数据分布中的部分信息,因此在正常情况下,用 x ‾ \overline{x} x比用 M M M描述数据的集中位置更优,但当数据存在异常值, x ‾ \overline{x} x缺乏稳健性,这时可用三均值 M ^ \hat{M} M^作为数据集中位置的数字特征。三均值 M ^ \hat{M} M^的计算公式为:

M ^ = 1 4 Q 1 + 1 2 M + 1 4 Q 3 \hat{M}=\frac{1}{4}Q_1+\frac{1}{2}M+\frac{1}{4}Q_3 M^=41​Q1​+21​M+41​Q3​

在探索性数据分析中,有一种判断数据为异常值的简便方法。称 Q 1 − 1.5 R 1 Q_1-1.5R_1 Q1​−1.5R1​和 Q 3 + 1.5 R 1 Q_3+1.5R_1 Q3​+1.5R1​为数据的下、上截断点。大于上截断点的数据为特大值,小于下截断点的数据为特小值,两者都为异常值。

当总体为正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)时,理论上、下截断点分别为:

ξ 0.75 + 1.5 r 1 = μ + 2.698 σ ξ 0.25 − 1.5 r 1 = μ − 2.698 σ \xi_{0.75}+1.5r_1=\mu+2.698\sigma\\ \xi_{0.25}-1.5r_1=\mu-2.698\sigma ξ0.75​+1.5r1​=μ+2.698σξ0.25​−1.5r1​=μ−2.698σ

数据落在上、下截断点之外的概率为0.00698,即对于容量较大的样本,其异常值的概率约为0.00698,由模拟研究,对容量为 n n n的正态样本,异常值的平均比率近似为0.00698+ 0.4 n \frac{0.4}{n} n0.4​。

2.2 MATLAB编程-上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

计算上四分位数下四分位数用的是函数prctile,函数的第二个参数分别为75和25。

x75=prctile(x,75);%上四分位数
x25=prctile(x,25);%下四分位数

计算四分位极差根据定义来,利用上面得到的上四分位数和下四分位数:

xr1=x75-x25;%四分位极差

计算三均值根据定义计算:

xhM=0.25*x25+0.5*x50+0.25*x75;%三均值

计算上截断点下截断点根据定义计算:

xsj=x75+1.5*xr1;%上截断点
xij=x25-1.5*xr1;%下截断点

最后用一张图说明所有:

参考资料
[1]王岩,隋思涟. 试验设计与MATLA数据分析[M]. 第一版. 北京:清华大学出版社,2012:10-14

【MATLAB数据分析】02数据的中位数和分位数相关推荐

  1. 试验设计与matlab数据分析 下载,试验设计与MATLAB数据分析(附光盘)

    第1章 试验设计与MATLAB数据分析简介 1.1 试验设计与数据分析的意义 1.2 试验设计中的几个常用概念 1.2.1 试验指标 1.2.2 因素和水平 1.2.3 响应(或输出) 1.2.4 试 ...

  2. MATLAB数据分析3

    MATLAB数据分析3 %数据的输入 %A = input(提示信息,选项); % A = input('请输入一个变量A的值:'); %数据的输出 %disp(输出项): %程序的暂停 %pause ...

  3. MATLAB 数据分析方法(第2版)2.3 数据变换

    2.3 数据变换 2.3.1 数据属性变换 在解决经济问题综合评价时,评价指标通常分为效益型.成本型.适度型等类型.效益型指标值越大越好,成本型指标值越小越好,适度型指标值既不能太大也不能太小为好. ...

  4. MATLAB 数据分析方法(第2版)2.1 基本统计量与数据可视化

    第2章 数据描述性分析 数据描述性分析是从样本数据出发,概括分析数据的集中位置.分散程度.相互关联关系以及数据分布的正态或偏态特征等.它是进行数据分析的基础,对不同类型量纲的数据有时还要进行变换,然后 ...

  5. MATLAB数据分析方法第2章数据描述性分析

    2.1 基本统计量与数据可视化 1.均值.中位数.分位数.三均值 均值.中位数:mean(A).media(A) 分位数:prctile(A,P),P∈[0,100] prctile(A,[25,50 ...

  6. matlab对exl数据分析,基于MATLAB的EXCEL数据计算与分析

    基于MATLAB的EXCEL数据计算与分析 潜刘方 摘要:再怎么样希望先看摘要,阅读本文需要一定的MATLAB基础知识,不需要excel相关知识.结合本人近期工作上的需要测量计算,想偷懒就选择了利用M ...

  7. 数据分析大数据面试题大杂烩02

    Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill ...

  8. matlab数据分析之脸谱图,MATLAB数据记录、分析和可视化:在MATLAB上绘制DHT11传感器读数...

    图形表示总是有助于可视化数据,通过查看它们变得非常容易找到趋势和模式.有许多软件可用于根据输入值绘制图形,但在嵌入式系统中,MATLAB是最流行的软件之一,它不仅可以以图形格式显示结果,而且可以轻松地 ...

  9. 数据挖掘和数据分析之数据中位数和众数

    中位数 中位数是指将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据.中位数用Me表示.  从中位数的定义可知,所研究的数据中有一半小于中位数,一半大于中位数.中位数的作用与算术平均数 ...

最新文章

  1. SSM项目搭建一(终)
  2. 【测试】ABAP直连外部数据库
  3. 基于MFCC系数的欧氏距离测量
  4. 【Java】对Java构造器参数问题的若干思考
  5. php输出mysql查询结果_PHP简单获取数据库查询结果并返回JSON
  6. weui开发文档_58小程序云 | 一站式跨平台小程序开发解决方案
  7. 19.go fix 和 go tool fix
  8. javascript div z-index, input tabindex属性说明
  9. PHP中字符串类型与数值类型混合计算
  10. averyboy的区间2
  11. python中取绝对值简单方法总结
  12. php 后台文章分页功能,php简单实例:文章分页功能
  13. IMPDP ORA-39125 / LPX-00241
  14. react-子传父案例(汇率转换)
  15. HCIE - 2204-MPLS
  16. kibana Unable to connect to Elasticsearch at http://elasticsearch:9200.
  17. iphone连接linux系统电脑,为什么iphone连不上电脑 多种解决方法【图文教程】
  18. 【eMMC学习记录】emmc相关名词解释和基础概念
  19. 单位换算 M、Mb、MB
  20. Android 12.0关机界面全屏显示(UI全屏显示)

热门文章

  1. com.sun.proxy.$Proxy0 cannot be cast to ** 解决方法
  2. 荣耀waterplay鸿蒙,对比发现荣耀Waterplay有魔性,用了甩不掉
  3. 4.3调整基类成员在派生类中的访问属性的方法
  4. 关于imatest Colorcheck模块的测试及结果分析(imatest版本 5.2.11)
  5. Android网络请求
  6. 微信小程序云开发入门(二)-数据库详解
  7. 一文让你了解什么是5G网络切片
  8. 2022年计算机专业毕业设计课题推荐
  9. 工作流引擎 Activiti 保姆级教程
  10. 计算机二级web题库软件百度云,计算机等级考试题库,二级Web试题请你拿走拿走,别客气!...