第四章 数据的概括性度量
1 集中趋势的度量
分类数据:众数
顺序数据:中位数和分位数
分位数:上四分位数(Ql)、下四分位数(Qu)
Ql位置=n/4,Qu位置=3n/4
如果位置是整数,四分位数就是在该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。
数值型数据:平均数
几何平均数:n个变量值乘积的n次方根,主要用于计算平均比率。
众数和中位数都不受极端值的影响。
2 离散程度的度量
分类数据:异众比率
异众比率指非众数组的频数占总频数的比例。
顺序数据*:四分位差
四分位差是上四分位数与下四分位数之差,反映了中间50%数据的离散程度,其数据越小,说明中间数据越集中
数值型数据:方差和标准差
极差:最大值与最小值之差,易受极端值影响
平均差:平均绝对离差,各变量值与其平均数离差绝对值的平均数
方差:各变量与其平均数离差平方的平均数。样本方差用样本数据个数减1后去除离差平方和,其中样本数据个数减1即n-1成为自由度
标准差:与方差不同的是,其是具有量纲的,它与变量值的计量单位相同。
相对位置的度量
有了平均数和标准差之后,可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。
标准分数:变量值与其平均数的离差除以标准差后的值,也称标准化值。如某个数值的标准分数为-1.5,则该数值低于平均数1.5倍的标准差。
经验法则:
当一组数据对称分布时,经验法则表明:
约有68%的数据在平均数±1个标准差的范围内;
约有95%的数据在平均数±2个标准差的范围内;
约有99%的数据在平均数±3个标准差的范围内;
一组数据中,高于或低于平均数3个标准差的数值很少,这些数据成为离群点。
切比雪夫不等式
经验法则适合对称分布数据,而对于不对称数据,则可使用切比雪夫不等式,它对任何分布形状的数据都使用。根据切比雪夫不等式,至少有(1−1/k 2 ) (1-{1}/{k^2})的数据落在k k个标准差之内,其中k k是大于1的任意值,但不一定是整数。对于k=2 k=2,则表示至少有75%的数据落在平均数±2个标准差的范围之内。
相对离散程度:离散系数
对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测量值的影响,需要计算离散系数。
离散系数:也称变异系数,是一组数据的标准差与其相应的平均之比,离散系数大,说明数据的离散程度也大。
3 偏态与峰态的度量
1偏态及其测度
偏态(skewness)是对数据分布对称性的测度。测度偏度的统计量是偏态系数,记作SK。
根据未分组的原始数据计算偏态系数时,通常采用下面的公式:
SK=n∑(x i −x ¯ ) 3 (n−1)(n−2)s 3 SK=\dfrac{n\sum(x_i-\bar{x})^3}{(n-1)(n-2)s^3}
式中s 3 s^3是样本标准差的三次方
如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表明分布是非对称的。若大于1或小于-1,为高度偏态分布;若在0.5~1或-1~-0.5,则为中等偏态分布,越接近0,偏态程度就越低。
根据分组数据计算偏态系数,可采用以下公式:
SK=∑ k i=1 (M i −x ¯ ) 3 f i ns 3 SK=\dfrac{\sum_{i=1}^{k}{(M_i-\bar{x})^3f_i}}{ns^3}
2 峰态及其测度
峰态(kurtosis)是对数据分布平峰或尖峰程度的测度,通常是与标准正态分布相比较而言的。测度峰度的统计量是峰态系数,记作K。
在根据未分组数据计算峰态系数时,通常采用以下公式:
K=n(n+1)∑(x i −x ¯ 4 )−3(∑(x i −x ¯ ) 2 ) 2 (n−1)(n−1)(n−2)(n−3)s 4 K=\dfrac{n(n+1)\sum(x_i-\bar{x}^4)-3(\sum(x_i-\bar{x})^2)^2(n-1)}{(n-1)(n-2)(n-3)s^4}
根据分组数据计算峰态系数是离差四次方的平均数再除以标准差的四次方,其计算公式为:
SK=∑ k i=1 (M i −x ¯ ) 4 f i ns 4 −3 SK=\dfrac{\sum_{i=1}^{k}{(M_i-\bar{x})^4f_i}}{ns^4}-3
正态分布的峰态系数为0,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。
第四章 数据的概括性度量相关推荐
- 《统计学》 贾俊平 第四章 数据的概括性度量 学习总结
前言 这一章主要介绍了反映数据分布特征的几个特征值以及其计算方法.特点及其应用场合. 1. 集中趋势的度量 分类数据 众数是一组数据中出现次数最多的变量值,用M0表示. 比如 1080 215 108 ...
- 《统计学》——思考题第四章数据的概括性度量(贾俊平)
目录 1.一组数据的分布特征可以从哪几个方面进行测度? 2.简述众数.中位数和平均数的特点和应用场合. 3.简述异众比率.四分位差.方差或标准差的应用场合. 4.标准分数有哪些用途? 5.为什么要计算 ...
- 第4章 数据的概括性度量
利用图表展示数据,可以让我们对数据分布的形状和特征有一个大致的了解.但是要全面把握数据分布的特征,还需要找到反映数据分布特征的各个代表值.数据分布的特征可以从三个方面进行测度和描述: 分布的集中趋势: ...
- 贾俊平-第四章:数据的概括性度量
贾俊平-第四章:数据的概括性度量 4.1 集中趋势的度量 集中趋势&离散趋势: 集中趋势:低层次数据的集中趋势测度值适用于高层次的测量数据:但反之并不适用. 4.1.1 分类数据:众数M0 只 ...
- R语言与数据的概括性度量
参考书目:<统计学>-贾俊平:<统计学:从数据到结论>-吴喜之: 理论部分:数据的概括性度量 以下例子会用到的数据(这些数据被放在一个叫data5.txt的文件里): 74.3 ...
- python在统计专业的应用_Python统计学一数据的概括性度量详解
一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...
- 离散度计算公式 python_Python统计学一数据的概括性度量详解
一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...
- 可视化导论 - 第四章 数据可视化流程 - 学习笔记
第4章 数据可视化流程 4.1 数据可视化流程 以数据流向为主线,其主要模块包括数据采集.数据处理和变换.可视化映射和用户感知. 4.2 数据处理和数据变换 4.2.1 数据滤波 数据滤波器在信号处理 ...
- 《数据科学家养成手册》--第四章---数据科学的使命
4.1.2 从信息到数据 1948年香农(好像吐槽输入法)发表的论文<通信的数学理论>(A Mathematical Theory of Communication)其中的话: if t ...
最新文章
- Java魔法堂:枚举类型详解
- html js文件域val,js实现文件上传表单域美化特效
- KISSY 库 demo
- JAVA里16进制和字节数组互转
- Apache Kylin从入门到精通
- ORA-01858: 在要求输入数字处找到非数字字符 13行
- 哈老师一到的飞鸽传书
- 阿里安全体系获国际顶会表彰,安全技术将有九大新趋势
- php 安装redis 扩展
- 一个小问题(语法分析中的括号匹配)
- python:for循环修改list的值,应使用range
- 删改数据如何避免锁表?等等,啥是锁呀
- 薄织物和隔热材料的热阻及热导率测试中存在的问题
- 47001 data format error hint -- 解析 JSON/XML 内容错误
- 类似吾爱破解论坛的网站有哪些?破解软件网站合集推荐
- SPF算法计算过程--例
- 远程唤醒、WOL、Magic_Packet
- JAVA 调用 labview_制作软接入点ESP8266并通过labview读取数据
- 计算机英语句子及译文,英语经典句子
- 老师的经典口头禅,这一句最扎心
热门文章
- 网站前端性能优化之javascript和css
- SSAS系列——【08】多维数据(程序展现Cube)
- C#线程 在某一时间内,只有N个线程在并发执行,其余都在队列中的实现(转载)...
- python合并多个pdf_pypdf将多个pdf文件合并到一个pd中
- 天正电气t20电气设定在哪_天正电气CAD布置烟感火灾探测器步骤教程
- java保持运行_保持Java程序无限运行的方法是有效的吗?
- C语言存储为2进制,浮点数的二进制存储形式及c语言验证
- 点乘叉乘坐标公式_点积与叉乘的运算与物理意义
- Binary String Reconstruction CodeForces - 1352F(思维+构造)
- 计算机操作系统课后题答案第三章,计算机操作系统教程习题与实验指导(第3版)...