平均数(如均值、众数、中位数)也许是人们最喜欢拿来作为证据的数:当你想证明中国人营养改善了,你可以比较中国人的平均身高的变化;当你想说明你调研的社区确实很贫困,你会摆出当地居民的人均年收入;当你在校园里推销一个英文培训课程,你会告诉前来咨询的学生,这个培训班的学员的GRE平均分数能有多高……类似的例子不计其数。平均数似乎是一个人人会用、人人能懂的指标。但在很多情况下,平均数也是最容易产生误导的指标,单单一个平均数,很多时候根本说明不了任何问题。本期趣味统计学将揭开“平均数”的诡计。


偷梁换柱的“平均数”

假设你正在我所住的小区寻找想买的房子,而我是一个狡猾的房产中介。为了抓住这笔生意,我巧舌如簧,费劲心思让你相信附近的居民月收入大约有25000元人民币,这也许增强了你居住于此的兴趣——也增加了你未来丈母娘对你刮目相看的几率。不管怎样,买卖最终成交。你在与亲戚朋友聊天时,你总会看似不经意地告诉他们你住在哪儿。

一年左右我们又见面了,作为业主委员会委员,我正在四处奔走,为阻止物业费上涨或降低公共交通费用而呼吁。我的理由是:我们支付不起各种上涨的费用,毕竟,附近居民的平均月收入只有4000元人民币。当听到那可怜的4000元时,你也禁不住大为吃惊:到底是我现在撒谎了呢?还是我一年前撒了谎?

其实两次你都不能怪罪于我,因为这两个数字都是合法的平均数,都有合法的计算方法。两个数字代表相同的数据、相同的居民、相同的收入。所有的都相同,但只有一个小诡计——我每次使用了不同的平均数。当希望数据较大时,我使用的是算术平均数,即25000元。这个数字通过将所有家庭的人均收入加起来再除以所有家庭总数便能得到。

小一些的是中位数,它能告诉你一半家庭的收人超过4000元,而另一半家庭的收入低于4000元。我还可以利用众数,它是在所有家庭收入序列中出现次数最多的那个收入。例如,如果这个居民区中,月收入7000元的家庭数远大于其他收人的家庭数,则众数就是7000元(哪怕月收入刚好等于7000元的家庭只占这个居民区家庭的10%)。

因此,当被告知某个数是平均数时,除非你能很明确地了解它的具体种类——均值、中位数还是众数,否则你对它知之甚少。

到底什么时候用均值,什么时候用中位数?这取决于你要描述的特征的取值分布。当看到某些人平均身高为170 CM时,你便能对这些人的外形有大概的了解,而根本不需过问这个平均数到底是均值、中位数还是众数,因为它们没有过多的区别。在人类特征的一些数据上,不同的平均数将大体相等,因为这些数据的分布十分接近正态分布。如果用曲线来描绘正态分布,你将获得一条类似于一口钟的曲线,它的均值、中位数以及众数都落在同一点上。虽然在描述人体身高时,一种平均数与其他任何平均数一样具有相同的作用,但在描述他们的经济收入时,却不是那么回事了。

如果将一个城市所有家庭的年收入列出来,你将发现这些数据会从极小的值变动到几百万元,甚至还能发现一些极大的值。多于95%的收入低于16万元,聚集在分布的左侧。在这种情况下,分布将不再对称,也不会像一口钟,而是有偏的.它的形状类似于孩子玩的滑梯,梯子急剧升到顶点,而滑道一侧则是缓慢向下倾斜,均值与中位数离得很远。在这种情况下,中位数也许比均值更能反映“中间”状态。

均值代表“大多数”吗?

在通常情况下,平均数——无论是均值或中位数,都由于过于简单而导致无用。例如,在上世纪50年代的美国,许多房产都是为了满足统计上的平均家庭人数(3.6人,3或4人)设计的,即建造两个卧室的房屋,而这种所谓的“平均”家庭,实际上却只代表了一小部分家庭。“我们为平均家庭建造一般规格的房屋”,房地产商这么说的同时,却忽略了具有更多人口或更少人口的大部分家庭。

这样的后果是,一些地区大量重复建设两个卧室的房子却低估了其他规模的需求,这是由不完全信息的统计资料造成的巨大浪费。对此,美国公共健康联合会就指出“当越过算术平均数去注意它所不能代表的实际家庭人口范围时,可以看到3人或4人的家庭仅占总体的45%,而35%的家庭是1人或2人,剩下的20%则多于4人。”因此,有时候,给出取值的范围和分布比抛出一个平均数更有用。

偏离均值就是“不正常”?

在一些情况下,错误地使用“平均数”将会使其变成强求一致的统计量。假设一对父母在某个育儿节目或杂志上看到或听到孩子将在某月份学会坐直的信息,他们会立刻联想到自己的孩子,而如果恰恰他们的孩子到了这个月份还不能坐直,他们一定会得出自己的孩子智力低下、不太正常之类的结论。

从统计的角度看,不管这个“平均坐直月份”是多少,都会有一半的孩子(假定总体符合正态分布)在那时坐不直,进而就一定会有一半的家长将为此苦恼。不过,从另一个角度看,这些苦恼将和另一半聪明孩子的家长的得意相互平衡。如果这一半的家长仅仅是苦恼,也不会造成很严重的后果,但如果这些不开心的家长做出种种努力使自己的孩子与标准一致的话,那么就很可能会产生无法挽回的危害。

“平均数”反映的是“统计期望”,是否“正常”则是道德判断,混淆二者会让很多父母误以为晚一天或晚一个月学会走路的孩子是低能儿。而如果研究者在告诉读者平均数之外,还给出反映全体范围的指标,如指出90%或95%的幼儿在多少个月前可以坐直,如此,许多误会就可以被消除了。而当发现自己的孩子属于正常范畴时,父母自然不会因为这些微小和无意义的差异而有不必要的担心。

毕竟,几乎没有人是正常的,就如同抛100次硬币,几乎很难出现50个正面和50个反面的情况。这些没有透露范围指标的数据的欺骗性在于人们经常忽略“平均数”所反映的事物基本上是不存在或很少存在的,而这也是那些只使用这一项统计数据的人获取成功的奥秘。

在我国,每次政府部门发布平均收入、平均住房面积,哪怕是中国人平均身高都会在网上引发热议和质疑,很多人表示自己“被平均”、“被代表”、“拖了后腿”,这也使得“平均数”越来越失信于民,但有统计常识的人都会知道平均数只是反映总体特征的一项指标,反映了总体特征的一个方面——集中趋势,而总体分布中还有许多不能为平均数来反映的侧面,比如离散程度。不仅如此,平均数也没有任何道德的含义,它既不一定代表“大多数”,也不意味着与其一致就是“最正常”,也许,要在我们学习“正态(正常)分布”(Normal distribution)之后,才会对如何判断“正常”和“非正常”有进一步地了解。

本文部分内容及案例改写自达菜尔·哈夫所著《统计陷阱》

END -

对比Excel系列图书累积销量达15w册,让你轻松掌握数据分析技能,可以点击下方链接进行了解选购:

你“被平均”过吗?揭露“平均数”的诡计相关推荐

  1. 产品经理的5分钟统计课:产品/用户/数据平均情况是怎样?

    https://www.toutiao.com/a6701434285842235912/ 2019-06-12 08:27:38 "产品经理的5分钟统计课" "产品经理 ...

  2. 平均股价的时间序列图形_求平均股价指数的公式怎么编???????

    ,往往把股票指数和股价平均数分开计算.按定义,股票指数即股价平均数.但从两者对股市的实际 作用而言,股价平均数是反映多种股票价格变动的一般水平,通常以算术平均数表示.人们通过对不同的时期股价平均数的比 ...

  3. 大盘指数的定义及其计算方法

    一.指数的定义 股票指数即股票价格指数.是由证券交易所或金融服务机构编制的表明股票行市变动的一种供参考的指示数字.由于股票价格起伏无常,投资者必然面临市场价格风险.对于具体某一种股票的价格变化,投资者 ...

  4. 时点数列序时平均数_时点数列序时平均数计算方法研究

    韩 宇 摘要:时点数列序时平均数的计算是统计学教学中的一个难点.解决方法是根据是否连续和间隔是否相等将时点数列分为四类,归为四象限图,不同象限采用不同方法计算. 关键词:时点数列:间隔:连续:序时平均 ...

  5. 超分辨率分析(二)--深度学习方案综述

    转自:https://www.jiqizhixin.com/articles/19022403 图像超分辨率(SR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中 ...

  6. 经典不等式链的一些拓展理解

    经典不等式链:  1. 第一部分:调和平均数(HA: harmonic average) 即n个量的倒数的平均数的倒数: 应用场景:样本自变量和因变量的乘积相等的情况下,改变每个样本的自变量,而不改变 ...

  7. YTU OJ 2451: 股市风云

    题目描述 股市强烈动荡,有涨有跌.现在有一组数据表示各公司的涨跌(涨为正,跌为负,不动为零),要求统计出平均涨幅和平均跌幅. 输入 一组数,其中有正数,也有负数,还有0.输入的个数不定,另外,不会出现 ...

  8. YTU 2451: 股市风云

    不恋尘世浮华,不写红尘纷扰,不叹世道苍凉,不惹情思哀怨,闲看花开,静待花落,冷暖自知,干净如始. 题目描述 股市强烈动荡,有涨有跌.现在有一组数据表示各公司的涨跌(涨为正,跌为负,不动为零),要求统计 ...

  9. oj2451: 股市风云

    问题描述:股市强烈动荡,有涨有跌.现在有一组数据表示各公司的涨跌(涨为正,跌为负,不动为零),要求统计出平均涨幅和平均跌幅. 作者:何知令 发表时间:2017年2月15日 输入:一组数,其中有正数,也 ...

最新文章

  1. 如何打印网页版的发票_梦幻西游网页版:陷入瓶颈期,如何快速提升战力?氪金能解决问题...
  2. 怎样成为一个高手观后感
  3. MPB:北大口腔陈峰、陈智滨等-​口腔微生物组研究主要取样部位及方法
  4. SQL Server数据库-视图相关操作-2种方式【图形用户界面操作(新建、保存、查看、维护、删除 视图)、SQL语句操作(创建、查看、修改、删除 视图)】
  5. Shell脚本对比两个文本文件找出不同行的2个方法分享
  6. penpyxl basic function demo code
  7. iOS开发之数据存储之Preference(偏好设置)
  8. canvas转盘转动?
  9. HttpServlet使用@WebServlet注解
  10. 定时器_定时器设计的门铃
  11. 我用python自制hosts修改神器,组长说你他娘的还真是个天才(附源码)
  12. Win10自带录屏如何实现录制系统声音
  13. 字节跳动Java工资待遇等级_字节跳动面试题:你的平均薪水是多少?
  14. Flutter图片裁剪
  15. EasyCVR平台如何实现超低延时的安防视频监控直播?
  16. S5PV210 对电源、地,DQ, DQM, DQS 信号的布线向导
  17. 学大伟业:2019年物理竞赛学习方法
  18. Python—获取电脑的锁屏壁纸
  19. AIC和BIC相关知识
  20. python常见算法(chatgpt算法实现)

热门文章

  1. 铜仁一中2021高考成绩查询,2019年高考各高中600分以上人数排名(2018年)
  2. 基于图片识别的 UI 自动化测试工具 SikuliX
  3. 计算机相关专业电气EE,美国电子电气工程(EE)专业的11个主要研究方向
  4. Pyinstaller解包
  5. 个推推送 SDK常见问题检查 03
  6. QT实现有纹理和照明的简单立方体
  7. 《线性代数》总复习要点、公式、重要结论与重点释疑
  8. 关联数据库中多张表_关联数据
  9. 快速傅里叶变换功率谱密度matlab_(完整word版)自己编写算法的功率谱密度的三种matlab实现方法...
  10. SLF4j的介绍与使用+SpringBoot日志配置