0x00 前言

让我们从最近很火的一个小案例入手:前些日子,腾讯发表了上半年的财报,随后,“腾讯月平均工资破7万”的消息不胫而走,也因此催生了不少柠檬树。不管你酸不酸,反正我是很酸的,于是乎,就跑去问了居士:“大佬,你的工资有7w+吗?”
居士曰:“我倒是希望我的工资能有7w+…”
他这么一说,我突然就不酸了,哈哈哈,原来居士也是“被平均”了的一分子(可能这就是一种阿Q式的心理安慰了)。那么站在统计学的角度来说,这个数据的背后到底隐含了什么样的信息呢?想要弄懂这个问题,我想我们可能需要温习一下如何描述一组数据的分布情况这一知识点。

0x01 温故而知新

工欲善其事,必先利其器。数据的分布特征可以从三个方面进行描述:集中趋势、离散程度、分布的形状。而集中趋势的描述指标主要有众数、中位数、平均值;离散程度的描述指标主要有异众比率、四分位差、方差、标准差和离散系数;分布的形状的描述指标则有偏态和峰态。

集中趋势

众数: 一组数据中出现次数最多的变量值,一般情况下,只有数据量较大的时候, 众数才有意义。

中位数: 是指一组数据排序后处于中间位置的变量值。

平均数: 数据集中趋势的最主要度量指标,主要适用于数值型数据,但不适用于分类数据和顺序数据。平均数主要分为算术平均数、加权平均数和几何平均数,对于不同的数据,采用不同的计算方式。

离散程度

异众比率: 主要用于衡量众数一组数据的代表程度。是指非众数组的频数占总频数的比例。

注:众数与异众比率主要适用于分类数据, 但也可以度量顺序数据与数值型数据

四分位差: 上四分位数(75%)与下四分位数(25%)之差。反映了中间50%数据的离散情况,在一定程度上可以度量中位数对一组数据的代表程度。

注:中位数与四分位差主要适用于顺序数据, 也可以度量数值型数据,但是不适用于分类数据。

方差: 各变量值与平均数离差平方的平均数,使用了所有的变量值,能较好地反映出数据的离散程度,是实际中应用最广的离散程度度量值。
注:平均数和方差受异常值的影响较大,如果数据中出现了异常值时,平均数的代表性较差

分布的形状

偏态: 数据分布对称性的测量指标。
偏态系数: 测度偏态的统计量, 记为SK。
SK = 0 :数据对称分布;
SK < 0 : 表示数据为负偏态,或左偏态。
SK > 0 : 表示数据为正偏态,或右偏态。

注:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大。

0x02 小试牛刀

温习完知识点后,我们来讨论一下“腾讯月平均工资破7万”这个说法用来衡量腾讯平均工资水平到底合不合适。由于腾讯工资是保密的,我们也没有办法获取到详细的数据,但是为了试验一下“腾讯月平均工资破7万”这个说法的代表性,我这里根据现实情况虚拟了一组数据,假设腾讯员工的年薪分布
如下:[150000, 160000, 160000,180000, 200000,210000, 240000, 240000, 250000,255000, 255000,255000, 340000,350000,360000,430000, 520000, 1130000, 1500000, 4000000],现在,我们想要描述一下腾讯员工年薪的平均水平,那我们可以这样说:腾讯员工的平均年薪为593889,当然也可以这样说,腾讯员工的平均工资(中位数)为255000。是的,你没有看错,对于这组数据,采用不同的指标所传达的信息是完全不一样的。平均工资是中位数工资的2.33倍, 这意味着什么?意味着如果你想要从中位数工资到达平均工资水平,可能需要再多掉一倍的头发……

这两种说法都没错,那我们究竟应该用哪个指标去概括这组数据才比较合适呢?我觉得看到这组数据之后大家的心里其实都有谱的了,只是还有点不太确定而已。为了验证哪一个指标比较合适,我分别计算了下面的四个指标:

指标 数值
偏态系数 3.36
上四分位数(75%) 377500
下四分位数(25%) 207500.0
四分位差 170000

经过计算我们知道了这组数据其实是一组严重右偏的数据(SK>1),其实不用看其他3个指标我们都知道应该是使用中位数来概括整体平均水平的。而上四分位数与下四分位数表明50%的数据集中在了207500到377500之间,四分位差只有170000,这使我们进一步确定了应该用中位数而非平均值去衡量“腾讯工资”的平均水平。

0x03 总结

通过小实验中我们可以看到,对于一组数据或者一个现象的表述有多种方式,有时候我们也不知道别人是出于什么目的去说出这句话。还是想提一下“腾讯月平均工资7w+”这个风潮,不知道最开始是从哪里掀起的又是出于什么目的提出来的,或娱乐、或蹭热度、或想知道自己与同龄人的差距,谁知道呢?不管是出于什么目的,我觉得我们需要的是学会辨别,而不是让“数据”迷了眼。最后提一个思考题,“本科层次的应届毕业生平均薪资为5999元”,你觉得这个说法合适吗?如果合适,你是否相信这个数字?如果不合适,又应该怎么描述?

统计学系列:平均工资背后的统计学知识相关推荐

  1. 生存分析彭非_21世纪统计学系列教材 生存分析_11396967.pdf

    21世纪统计学系列教材生存分析_11396967高清电子书图书扫描版本文档PDF [General Information] 书名=21世纪统计学系列教材 生存分析 作者=彭非,王伟编著 页数=510 ...

  2. 图灵数学·统计学系列

    Turing Mathematics Statistics(TMS)系列 ---------------------------------------------- 图灵数学·统计学系列 ----- ...

  3. 中国 IT 行业平均工资再次碾压金融业,意味着什么?

    2016 年 IT 业年平均工资破 12 万元,首次超过金融业,排名各行业门类首位: 统计局:2017 年 IT 行业年平均工资再次超过金融业,年平均工资最高的三个行业分别是:信息传输.软件和信息技术 ...

  4. 2021年6月程序员平均工资 15052,你给行业拖后腿了吗?

    上周我们发布了一篇名为<2021年6月程序员工资统计,平均15052元>的文章,引起了网友们的广泛讨论. 据文章中调查结果显示,"2021年6月全国招收程序员435501人,平均 ...

  5. Docker背后的内核知识:命名空间资源隔离

    Docker背后的内核知识:命名空间资源隔离 Docker这么火,喜欢技术的朋友可能也会想,如果要自己实现一个资源隔离的容器,应该从哪些方面下手呢?也许你第一反应可能就是chroot命令,这条命令给用 ...

  6. 7月平均工资下来,Java程序员哭笑不得!

    2020 魔幻开局,不少企业开始缩减招聘名额,更别说涨薪了!据第三方统计,今年 7 月程序员平均工资为 14357 元.作为第一编程语言的 Java,平均工资 14448 元(6 月为 14433 元 ...

  7. 南京计算机审计行业工资,南京最新各行业平均工资曝光!看完分分钟想跳槽!...

    原标题:南京最新各行业平均工资曝光!看完分分钟想跳槽! 工资是广大人民群众最关心的事情 年年平均工资都在涨 但小博似乎每年都是被平均的那个 可不是,当我看了这份 最近的南京冬季最新的平均工资 艾玛,感 ...

  8. 现在网络安全员工资一般多少(网络安全员平均工资)

    前言 今天给各位分享现在网络安全员工资一般多少的知识,其中也会对网络安全员平均工资进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1.搞网络安全四五年一万工资高吗 ...

  9. 2021年平均工资出炉,IT行业不出所料

    对于"什么是夕阳产业?""什么是朝阳产业?",相信不同的人会给出不同的答案. 5月20日,国家统计局公布了2021年平均工资数据.数据显示: 2021年全国城镇 ...

最新文章

  1. 转置型FIR滤波器的fpga实现
  2. 物理光学5 色散、吸收与散射
  3. CV之API:利用Face++的人体识别接口,实现摄像头实时手势识别
  4. centos mysql 端口_Linux CentOS Mysql修改默认端口
  5. 用samba服务构建基于企业级的文件共享服务
  6. java drawimage 参数_小程序中canvas的drawImage方法参数使用详解
  7. 出现“cannot identify image file /.DS_Store'”问题解决的办法
  8. 那些年我们跳过的 IE坑
  9. [网络结构]DenseNet网络结构
  10. Tomcat关于DH算法问题解决办法
  11. html中英文换行,css控制HTML中英文换行
  12. c语言二级考试成绩查询,全国计算机二级考试成绩查询
  13. dp算法求解矩阵连乘的问题
  14. VUE 代码压缩优化
  15. RK3128-android7.1-物联网模块GM196
  16. 金蝶各版本软件迁移到金蝶K3WISE工具补丁合集
  17. 语音合成(TTS)论文优选:Robust Sequence-to-Sequence Acoustic Modeling with Stepwise Monotonic Attention for Ne
  18. ajax爬虫小案例(百度翻译)
  19. 微信小程序记录与项目实践
  20. 华为煤矿军团首登央视 | 发布会金句爆棚

热门文章

  1. Vue之vue项目引入图片和设置路径别名
  2. [LaTeX] 用minipage来排版多张图片(子图片)! (以及用subfigure而不是subfloat来排版代码型图片)
  3. 计算机知识点汇总职高,职校学生必备三个必考知识点
  4. String 字符串常量池
  5. Mysql出现which is not functionally dependent on columns in GROUP BY clause的解决办法
  6. 计算机存储中的内存地址与寻址
  7. vue项目上安装SCSS
  8. 关于注册表HKLM下的RunOnce项
  9. error Command failed.报错问题解决(Linux下/Windows下)
  10. Flutter 动画