【MATLAB数据分析】01数据的均值、变异度、偏度和峰度
引言
本文介绍了试验数据描述性统计分析中常用的均值、极差、方差、标准差、变异系数、偏度和峰度计算,并给出了MATLAB计算的函数。
文章目录
- 引言
- 1 均值
- 1.1 样本均值
- 1.2 总体均值
- 1.3 MATLAB编程-均值
- 2 变异度
- 2.1 样本极差、方差、标准差、变异系数
- 2.2 总体方差、标准差、变异系数
- 2.3 MATLAB编程-极差、方差、标准差、变异系数
- 3 偏度
- 3.1 样本偏度
- 3.2 总体偏度
- 3.3 MATLAB编程-偏度
- 4 峰度
- 4.1 样本峰度
- 4.2 总体峰度
- 4.1 MATLAB编程-峰度
- 5.其他说明
设nnn个观测值构成行向量x\mathbf{x}x
x=[x1,x2,⋯,xn]\mathbf{x}=[x_1, x_2, \cdots, x_n]x=[x1,x2,⋯,xn]
其中nnn是样本容量。以下介绍均是样本的数字特征。和样本对应的数字特征是总体特征。
1 均值
1.1 样本均值
样本的样本均值即求数据的算术平均值:
x‾=1n(x1+x2+⋯+xn)=1n∑i=1nxi\overline{x}=\frac{1}{n} (x_1+x_2+\cdots +x_n)=\frac{1}{n}\sum_{i=1}^nx_ix=n1(x1+x2+⋯+xn)=n1i=1∑nxi
在分组样本场合,样本均值的近似公式为:
x‾=1k(x1f1+x2f2+⋯+xkfk)=1k∑i=1kxifi\overline{x}=\frac{1}{k}(x_1f_1+x_2f_2+\cdots+x_kf_k)=\frac{1}{k}\sum_{i=1}^kx_if_ix=k1(x1f1+x2f2+⋯+xkfk)=k1i=1∑kxifi
其中,kkk是组数,xix_ixi是第iii组的组中数,fif_ifi是第iii组的频数。
均值表现了数据的集中位置。
1.2 总体均值
总体均值即为总体数据的数学期望:
μ=E(x)\mu=E(x)μ=E(x)
1.3 MATLAB编程-均值
计算均值使用的是函数mean
xmean=mean(x);%均值
2 变异度
2.1 样本极差、方差、标准差、变异系数
刻画数据变异度的量有样本极差RRR,她等于样本中最大值减去最小值,即R=xmax−xminR=x_{max}-x_{min}R=xmax−xmin
它可以刻画数据散布范围大小,但不能刻画数据在这个范围内散布的集中或离散程度。刻画数据集中或离散程度的程度应该用其中心位置x‾\overline{x}x为度量标准。任一数据xix_ixi和样本均值x‾\overline{x}x的差称作xix_ixi的偏差。可以计算出,样本中所有数据的偏差和是0:
∑i=1n(xi−x‾)=∑i=1nxi−nx‾=0\sum_{i=1}^{n}(x_i-\overline{x})=\sum_{i=1}^nx_i-n\overline{x}=0i=1∑n(xi−x)=i=1∑nxi−nx=0
因而,刻画所有数据的变异度常用样本方差s2s^2s2或样本标准差sss,可以表示为:
s2=1n−1∑i=1n(xi−x‾)2s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2s2=n−11i=1∑n(xi−x)2
s=s2=1n−1∑i=1n(xi−x‾)2s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}s=s2=n−11i=1∑n(xi−x)2
方差的量纲和数据的量纲不一致,它是数据量纲的平方,而标准差的量纲和数据量纲一致。比较两个样本的变异度,由于单位不同或平均数不同,不能单纯地用标准差来比较,而是用一个相对的百分数变异数来比较,这就是变异系数,表示为:
CV=100×sx‾CV=100\times\frac{s}{\overline{x}}CV=100×xs
用它可以对同一样本中的不同指标或不同样本中的同一指标进行比较,据CVCVCV的大小可以对指标的变异程度排序。
2.2 总体方差、标准差、变异系数
总体方差计算公式为:
σ2=var(x)\sigma^2=var(x)σ2=var(x)
总体标准差计算公式为:
σ=var(x)\sigma=\sqrt{var(x)}σ=var(x)
总体变异系数计算公式为:
γ=σμ\gamma=\frac{\sigma}{\mu}γ=μσ
2.3 MATLAB编程-极差、方差、标准差、变异系数
计算极差用的是函数range
xrange=range(x);%极差
计算方差用的是函数var
xvar=var(x);%方差
计算标准差用的是函数std
xstd=std(x);%标准差
计算变异系数利用定义计算:
xcv=100*std(x)./mean(x);%变异系数
3 偏度
3.1 样本偏度
偏度用来刻画数据的偏态,对于样本数据,其样本偏度其计算公式(总体偏度的无偏估计)为:
g1=n(n−1)(n−2)s3∑i=1n(xi−x‾)3=n2u3(n−1)(n−2)s3g_1=\frac{n}{(n-1)(n-2)s^3}\sum_{i=1}^n(x_i-\overline{x})^3=\frac{n^2u_3}{(n-1)(n-2)s^3}g1=(n−1)(n−2)s3ni=1∑n(xi−x)3=(n−1)(n−2)s3n2u3
其中,s是标准差,u3=1n∑i=1n(xi−x‾)3u_3=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3u3=n1∑i=1n(xi−x)3是样本的3阶中心矩。偏度是刻画数据对称性的指标:
数据关于均值对称偏度g1=0g_1=0g1=0
数据关于均值不对称,右侧数据更分散(右尾长),偏度g1>0g_1>0g1>0
数据关于均值不对称,左侧数据更分散(左尾长),偏度g1<0g_1<0g1<0
3.2 总体偏度
总体偏度的计算公式是:
G1=μ3σ3G_1=\frac{\mu_3}{\sigma^3}G1=σ3μ3
式中μ3=E(X−μ)3\mu_3=E(X-\mu)^3μ3=E(X−μ)3是总体3阶中心距。
3.3 MATLAB编程-偏度
计算偏度用的是函数skewness
,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。
xske=skewness(x,0);%偏度
4 峰度
4.1 样本峰度
峰度用来刻画数据的尾重程度,对于样本数据,其样本峰度计算公式(总体峰度的无偏估计)为:
g2=n(n+1)(n−1)(n−2)(n−3)s4∑i=1n(xi−x‾)4−3(n−1)2(n−2)(n−3)=n2(n+1)u4(n−1)(n−2)(n−3)s4−3(n−1)2(n−2)(n−3)\begin{aligned} g_2&=\frac{n(n+1)}{(n-1)(n-2)(n-3)s^4}\sum_{i=1}^n(x_i-\overline{x})^4-3\frac{(n-1)^2}{(n-2)(n-3)}\\&=\frac{n^2(n+1)u_4}{(n-1)(n-2)(n-3)s^4}-3\frac{(n-1)^2}{(n-2)(n-3)} \end{aligned}g2=(n−1)(n−2)(n−3)s4n(n+1)i=1∑n(xi−x)4−3(n−2)(n−3)(n−1)2=(n−1)(n−2)(n−3)s4n2(n+1)u4−3(n−2)(n−3)(n−1)2
其中,s是标准差,u4=1n∑i=1n(xi−x‾)4u_4=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^4u4=n1∑i=1n(xi−x)4是样本的4阶中心矩。峰度是刻画数据分散性的指标:
数据总体分布式正态分布时,g2=0g_2=0g2=0
数据分布较正态分布的尾部更加分散,两端极端数据更多(粗尾),偏度g2>0g_2>0g2>0
数据分布较正态分布的尾部更加集中,两端极端数据更少(细尾),偏度g2<0g_2<0g2<0
4.2 总体峰度
总体峰度的计算公式是:
G2=μ4σ4−3G_2=\frac{\mu_4}{\sigma^4}-3G2=σ4μ4−3
式中μ4=E(X−μ)4\mu_4=E(X-\mu)^4μ4=E(X−μ)4是总体4阶中心距。
4.1 MATLAB编程-峰度
计算峰度用的是函数kurtosis
,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。
xkur=kurtosis(x,0);%峰度
5.其他说明
根据统计学的结果,样本的数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,当观测数量足够大时:
μ≈x‾σ2≈s2σ≈sγ≈CVG1≈g1G2≈g2\begin{aligned} &\mu\approx \overline{x}\\ &\sigma^2\approx s^2\\ &\sigma\approx s\\ &\gamma\approx CV\\ &G_1\approx g_1\\ &G_2\approx g_2 \end{aligned}μ≈xσ2≈s2σ≈sγ≈CVG1≈g1G2≈g2
这里,特别要强调以下情况,当观测数据x1,x2,⋯,xnx_1,x_2,\cdots,x_nx1,x2,⋯,xn是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据xix_ixi是等可能的,即为1n\frac{1}{n}n1,总体分布为离散均匀分布:
P(X=xi)=1n,i=1,2,⋯,nP(X=x_i)=\frac{1}{n},\quad i=1,2,\cdots,nP(X=xi)=n1,i=1,2,⋯,n
参考资料
[1]WikiPedia-偏度
[2]WikiPedia-峰度
[3]Joanes D N, Gill C A. Comparing measures of sample skewness and kurtosis[J]. Journal of the Royal Statistical Society: Series D (The Statistician), 1998, 47(1): 183-189.
[4]王岩,隋思涟. 试验设计与MATLA数据分析[M]. 第一版. 北京:清华大学出版社,2012:10-14
【MATLAB数据分析】01数据的均值、变异度、偏度和峰度相关推荐
- 【MATLAB数据分析】02数据的中位数和分位数
引言 在[MATLAB数据分析]01数据的均值.变异度.偏度和峰度一文中我们介绍了均值.方差.标准差等数字特征,它们都是总体相应特征值的一种矩估计,更适合来自正态分布的数据的分析.但若总体的分布未知, ...
- MATLAB数据分析3
MATLAB数据分析3 %数据的输入 %A = input(提示信息,选项); % A = input('请输入一个变量A的值:'); %数据的输出 %disp(输出项): %程序的暂停 %pause ...
- MATLAB 数据分析方法(第2版)2.3 数据变换
2.3 数据变换 2.3.1 数据属性变换 在解决经济问题综合评价时,评价指标通常分为效益型.成本型.适度型等类型.效益型指标值越大越好,成本型指标值越小越好,适度型指标值既不能太大也不能太小为好. ...
- MATLAB 数据分析方法(第2版)2.1 基本统计量与数据可视化
第2章 数据描述性分析 数据描述性分析是从样本数据出发,概括分析数据的集中位置.分散程度.相互关联关系以及数据分布的正态或偏态特征等.它是进行数据分析的基础,对不同类型量纲的数据有时还要进行变换,然后 ...
- MATLAB数据分析方法第2章数据描述性分析
2.1 基本统计量与数据可视化 1.均值.中位数.分位数.三均值 均值.中位数:mean(A).media(A) 分位数:prctile(A,P),P∈[0,100] prctile(A,[25,50 ...
- matlab矩阵0-1归化,数据标准化归化处理.doc
数据标准化归化处理 数据的标准化 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化.数据标准化处理主要包括数据 ...
- matlab对exl数据分析,基于MATLAB的EXCEL数据计算与分析
基于MATLAB的EXCEL数据计算与分析 潜刘方 摘要:再怎么样希望先看摘要,阅读本文需要一定的MATLAB基础知识,不需要excel相关知识.结合本人近期工作上的需要测量计算,想偷懒就选择了利用M ...
- matlab数据分析之脸谱图,MATLAB数据记录、分析和可视化:在MATLAB上绘制DHT11传感器读数...
图形表示总是有助于可视化数据,通过查看它们变得非常容易找到趋势和模式.有许多软件可用于根据输入值绘制图形,但在嵌入式系统中,MATLAB是最流行的软件之一,它不仅可以以图形格式显示结果,而且可以轻松地 ...
- 试验设计与matlab数据分析 下载,试验设计与MATLAB数据分析(附光盘)
第1章 试验设计与MATLAB数据分析简介 1.1 试验设计与数据分析的意义 1.2 试验设计中的几个常用概念 1.2.1 试验指标 1.2.2 因素和水平 1.2.3 响应(或输出) 1.2.4 试 ...
- matlab多项式计算题目,MATLAB数据分析与多项式计算-习题答案
<MATLAB数据分析与多项式计算-习题答案>由会员分享,可在线阅读,更多相关<MATLAB数据分析与多项式计算-习题答案(4页珍藏版)>请在人人文库网上搜索. 1.第6章 M ...
最新文章
- Redis学习之intset整数集合源码分析
- linux重定向输出时加时间变量,shell 重定向错误输出到文件 加上时间(标明错误抛出的时间)...
- P3711 仓鼠的数学题(伯努利数)
- z-blog php 静态设置,Nginx的Z-Blog的伪静态配置方法
- 第13章 Swing程序组件----常用布局管理器
- zookeeper会话超时
- sonar mysql 配置_Sonar配置与使用
- jquery点击图片放大功能
- 面对未来,与其期待,不如更早开始「自问与探索」| TiDB DevCon 2020 即将开启
- Ogre 使用声音最简单的方法
- GTK:Gdk-CRITICAL **: IA__gdk_draw_pixbuf: assertion ‘GDK_IS_DRAWABLE (drawable)‘ failed
- Oracle 11g实时SQL监控 --好东西不该藏着
- 墙后的全部姿势,全被“瞎眼”AI透视
- Django之Form表单验证组件Tyrion
- 如何用excel求平均数?认准average()——搜索函数时千万别输mean,否则会得到geomean()
- 小博无线认证无法连接服务器,常见问题FAQ一、设备绑定-小博无线.PDF
- 数值法求解最优控制问题(一)——梯度法
- 黑马程序员_乱码问题
- OpenCasCade数学库 - 包围盒(Bnd_Box)的变换(Transformed)
- h5的fetch方法_扣丁学堂HTML5分享h5中的fetch方法解读