小白学统计(4)——数据集中趋势的描述
原文地址:http://www.afenxi.com/post/16569
摘要:在社会和经济领域中有许多实际发生的数据,因为各种偶然因素的影响,这些数据看起来往往杂乱无章。
在社会和经济领域中有许多实际发生的数据,因为各种偶然因素的影响,这些数据看起来往往杂乱无章。但是,如果对这些无序的数据进行整理和归纳,就可以发现有一种必然的因素在起作用,这种因素就是社会和经济领域中内在的变化趋势。通过这种趋势的研究可以了解事物的本质特征,可以掌握事物发展变化的规律。这种趋势在统计学中就被称为集中趋势。
下面介绍常见的几种反映数据集中趋势的指标:
算术平均数(arithmetic mean),又称均值,分为简单算术平均数、加权算术平均数。它主要适用于数值型数据,不适用于品质数据。就是将一组数据的和除以数据的个数。
计算公式:
1. 简单算术平均,适用:主要用于未分组的原始数据。
设一组数据为X1,X2,...,Xn,则简单的算术平均数的计算公式为:
2. 加权算术平均,适用:主要用于处理经分组整理的数据。
设原始数据为被分成K组,各组的组中的值为X1,X2,...,Xk,各组的频数分别为f1,f2,...,fk,则加权算术平均数为:
应用问题:
均值是实际中应用最广泛的集中趋势测度值,样本均值受样本数据影响最小,具有一定的稳定性,因此,在抽样推断中均值是用于推断总体的一个最重要指标,但还需要注意以下几个问题:(1)当数据中有极大值或极小值存在时,均值会受到很大影响,其结果会掩盖数据的真实特征,使均值失去代表性。(2)使用分组数据计算总平均数时,由于各组频率对平均数的影响,在对总平均数进行对比时,要注意结合组平均数补充说明。
几何平均数(geometric mean),是指n个观察值连乘积的n次方根。几何平均数主要用于各种比率的平均,尤其在计算动态比率的平均时特别适合。
计算公式:
设一组数据为X1,X2,…,Xn,且均大于0,则几何平均数Xg为:
其他应用:
几何平均数在一定场合下,还可以用来说明数据的集中程度。例如,有两组数字分别是18,20,22和15,20,25,如果分别计算两组数字的均值和几何平均数,可以得到两组数据的均值都是20,而几何平均数分别是19.93和19.57,可以看到第一组数据更靠近20。
众数(Mode),是一组数据中出现次数最多的数值,代表数据的一般水平。众数表示的是变量值明显集中的数值点。如果在一组数据中,只有一个变量值出现次数最多,则变量值即为众数;如果有两个(或多个)变量值出现次数相同并最多,那么,两个(或多个)变量值都是众数;如果有两个(或多个)变量值出现次数最多但不相同,则出现次数最多的数值是主要众数,其他为次要众数。当然数据中变量值出现的次数都相同,则该数据没有众数。
众数的应用问题:
众数在某些场合具有不可替代的作用。例如,人们穿着的服装和鞋帽寸吗对于生产厂商非常重要,但用均值计算的服装和鞋帽的数据可能是不存在的,生产厂商只有按照服装和鞋帽尺寸的众数生产才有意义。
众数不仅可以代表数值型变量的集中趋势,还可以代表非数值类型变量的集中趋势。例如,房地产商关心那种“格局”房屋销售最多;饮料厂商关心哪一种“颜色”的饮料销售最多;灯具厂商关心哪一种“造型”的灯具销售最多等等。
总数还有一个作用,当样本数据出现两个众数时,他提醒我们应怀疑这样的数据是否来自两个不同的总体。例如,将两个厂家生产的灯泡混在一起,检查它们的寿命,如果两个厂家生产灯泡的质量有很大差别,则会发现灯泡的寿命会出现两个众数。
最后,众数的实际的代表意义只有在数据足够多,且有明显的集中趋势时,才能体现得最好。否则,不宜用众数代表集中趋势。
中位数(Median),代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
中位数的应用问题:
中位数不受个别极端值的影响,表现出稳定的特性。这一特点使其在数据分布有较大的偏斜时,能够保持对数据一般水平的代表性,因此经常使用。例如,有一组5个人的抽样资料,它们在一周内看电视的时间分别是1,3,7,9,30小时。如果用均值代表5人平均看电视时间,有均值X=10小时,用这个数据代表5个人平均每周看电视的时间显然偏大,因为有30这个数据的影响。而用中位数X=7代表5个人平均每周看电视的时间,就要比用均值具有代表性。中位数另一个优点是方便。在某些场合,不能计算均值时,中位数就是一个较好的度量值。
以上四种反映集中趋势的指标都各有特点,在反映集中趋势时也各有利弊。使用这些指标时,应根据不同的场合以及数据的不同特点加以选择。最好是通过几种平均数相互参考,相互印证。
转载于:https://www.cnblogs.com/xitingxie/p/8419260.html
小白学统计(4)——数据集中趋势的描述相关推荐
- python中for循环缩进_跟小白学Python数据分析——For循环
原标题:跟小白学Python数据分析--For循环 循环是指反复地连续做某件事,例如地球绕地轴自转一圈就是一天,自转的同时绕太阳公转一圈就是一年.周而复始,转了一圈又一圈,一次又一次地循环. 在编程过 ...
- 跟小白学Python数据分析——绘制仪表盘
本文继续采用PyEcharts v1.x版本进行绘制仪表盘. 注:PyEcharts分为 v0.5.x 和 v1.x 两个大版本,v0.5.x 和 v1.x 间不兼容,v0.5.x是基于Python2 ...
- 跟小白学Python数据分析——绘制水球图
本文继续采用PyEcharts v1.x版本进行绘制水球图. 注:PyEcharts分为 v0.5.x 和 v1.x 两个大版本,v0.5.x 和 v1.x 间不兼容,v0.5.x是基于Python2 ...
- 小白学数据分析-----数据指标 累计用户数的使用
小白学数据分析--à数据指标累计用户数的使用 累计用户数是指注册用户数的累计,即可以认为是新用户的累计.在一般的数据统计中,我们基本上都会涉及到这个指标,且这个指标是逐渐累加的,比如: 时间 ...
- python怎么做彩票概率_小白学数据小抄放送 Python,R,大数据,机器学习
原标题:小白学数据小抄放送 Python,R,大数据,机器学习 大数据文摘作品,转载要求见文末 作者 | Elaine,田桂英,Aileen 导读:前段时间小白学数据专栏出了一期Python小抄表,后 ...
- flask返回json数据到前端_小白学Flask第六天| abort函数、自定义错误方法、视图函数的返回值...
点击蓝色字关注我们! 一个正在努力变强的公众号 本文内容: 1. abort函数的使用 2. 自定义错误处理方法 3. 设置响应信息的方法 4. 返回json数据的方法 abort函数的使用 abor ...
- 小白学数据:教你用Python实现简单监督学习算法
转载自 小白学数据:教你用Python实现简单监督学习算法 今天,文摘菌想谈谈监督学习. 监督学习作为运用最广泛的机器学习方法,一直以来都是从数据挖掘信息的重要手段.即便是在无监督学习兴起的近日,监督 ...
- 热烈欢迎云南财经大学统计与数学学院院长石磊教授来芝诺数据视察指导工作
11月30日下午,云南财经大学统计与数学学院院长.教育部长江学者特聘教授,国家百千万人才工程人选,国务院特殊津贴获得者,国家有突出贡献中青年专家,云南省云岭学者石磊教授莅临芝诺数据视察指导工作.芝诺数 ...
- 下面关于在dos停止mysql_下面关于数据查询的描述正确的是( ) (5.0分)_学小易找答案...
[单选题]下面关于在DOS启动MySql的命令中,正确的是() (5.0分) [单选题]以下创建数据库的语句错误的是( ) (5.0分) [单选题]DBMS指的是以下哪个选项? (5.0分) [单选题 ...
最新文章
- pyhanlp 文本聚类
- python3.6.2下载教程_Windows下升级Python3.7.7后(原Python3.6.2版本)如何切换Python版本|python基础教程|python入门|python教程...
- 航空企业如何用「AI利器」提升乘客体验
- .NetCore 下开发独立的(RPL)含有界面的组件包 (四)授权过滤
- 大二暑假周进度报告(五)
- php中arraymultisort,php 数组函数array_multisort()用法
- java层 native层_Java层的ServiceManager和Native层的ServiceManager的对应过程
- 何小鹏“维权”事后谈造车:心很累 曾购上千瓶白酒缓解压力
- 虚拟化平台服务器故障,Vsphere虚拟化平台故障切换
- Rust: codewars的Bleatrix Trotter
- 怎样HTML做图片画廊,42个jQuery图片画廊插件
- SQL盲注中的部分常用函数
- php laravel 图片下载
- 微信表白神秘代码!快发给ta!
- 有关bug走过的坑(复盘总结)
- 全网超火的情感文案号视频是怎么制作的?
- win10找不到文件无法卸载的解决方法
- 利用python打开word文件
- go源码阅读——malloc.go
- 准备篇—刘备,从编草鞋到编代码 第1回	哦,何为Android?