我们日常工作生活中会获得各种数据,我们希望了解这些数据所代表的整体状态,从而可以用来描述、比较和评价。

例如一个公司每个人的收入,一个公司保龄球对抗赛的分组成绩,这些获得的数据都是数值型数据。我们假设公司有3个部门,每个部门有6个人,其保龄球对抗赛的得分情况如下:

A部门 B部门 C部门
86 84 229
73 71 77
124 103 59
111 85 95
90 90 70
38 89 88

怎么对这3个部门的成绩数据进行比较和评价呢?首先想到的第一个评估值当然是各部门的总得分情况。例如A部门总得分是522分,B部门总得分是522分,c部门得分是618分。C部门得分最高,A、B部门得分相同。c部门最强。

这是其中一种数据评估项:即总数(sum)。但是,如果A、B、C三个部门的人数不相等呢,那么显然人数多的部门有更多的优势。就像中国和挪威,中国人的数量比挪威人的数量多的多,那么中国的GDP就比挪威的GDP有更多的优势,你可以把总数理解为GDP。

那么,第2种数据评估项就来了:平均数,也称为“均值(mean)”。即总数量除以总个数。A、B、C这3个部门各是6个人,那么平均数就是A部门87分,B部87分,C部103分。C部门仍然最强。你可以理解“平均数”为“人均GDP”。

但我们注意观察一下,C部分平均得分是103分,但是c部门6个人,超过103分的只有1个人,低于103分的有5人,也即超过80%的人没有过平均数,把103分当作C部门的平均得分好像很不合理啊。

我们经常在各种新闻报道中,有某某行业平均薪酬是多少万元,某地区人均薪酬是多少,例如软件行业平均薪酬25万元,金融行业平均薪酬50万元,很多人的感觉是自己拖后腿了。这种感觉没有错,可能8o%的人实际上都没有过平均数,因为平均数被行业中某些高收入的人拉高了。

在这种情况下,使用“中位数(median)”来评估数据可能更合适,中位数就是将数据依大小顺序排列,取最中间的值,例如A部门的得分是86、73、124、111、90、38,按照顺序排列是38、73、86、90、111、124,最中间的值是86、90。

中位数的计算方法是:如果数据个数是奇数,则最中间的值就是中位数;如果数据个数是偶数,则最中间的2个值的平均数是中位数。那么A部门的中位数是(86+90)/2=88,B部门是(85+89)/2=87,C部门是(77+88)/2=82.5。可以看出,C部门的中位数反而是最低的。

我们再来看一下,A部门和B部门的总得分相同,都为522分,平均得分也相同,都为87分,中位数也差不多。但我们把A部门和B部门的各个得分画成下图,能够看出来这2队的数据状况大不相同吧。

A部门各人的得分散落在各处,而B部门各人的得分都相当接近。表现数据这种“离散程度”的数据评估项,就是“标准差(Standard Deviation)”,标准差的最小值为0、而数据的“离散程度”越大,标准差就越大。标准差的计算如下:

通过上式计算得到A部门的得分标准差是30.17,B部7的得分标准差是10.37。也就是说总得分、平均数都相同,中位数很接近的A部门和B部门,离散程度却相差3倍。显然B部门的得分更加均衡。你可以理解为在GDP和人均GDP相同的情况下,标准差低的收入更加均衡,贫富差距比较小。

上面都是对数值数据的整体掌握,那么对于分类数据呢?例如移动通信公司收集到一份数据,对移动通信服务的评价情况,“非常满意、满意、一般、无所谓”。

序号 满意程度
1 非常满意
2 满意
3 满意
4 一般
5 一般
6 无所谓
7 一般
…..

对于分类数据,一般通过计算各个分类占总数的比例来掌握数据的整体状态,例如上面100个调查数据中,非常满意的有18人,满意的有70人,股的有10人,无所谓的有2人,那么这4个分类分别占比是18%,70%,10%、 2%。

统计学---掌握数据的整体状态相关推荐

  1. 大宝大话大数据(一) ——大数据的整体框架

    学习和使用大数据工具已经一年多了,经历了看书自学,实习实践,理解原理这几个重要阶段的铺垫后,自我感觉算是对大数据开发初步入门了.也想借此机会对所学内容做一个总结和归纳.方便自己查阅的同时,也希望帮助到 ...

  2. DM8达梦数据库数据文件整体迁移方式

    目录 一.前要 二.模拟环境准备: 三.名词定义 3.1 表空间和数据文件 3.2 重做日志(redo) 3.3 控制文件(dm.ctl) 3.4 参数文件(dm.ini) 3.5 dminit工具 ...

  3. Hadoop源码分析笔记(十一):数据节点--数据节点整体运行

    数据节点整体运行 数据节点通过数据节点存储和文件系统数据集,管理着保存在Linux文件系统上的数据块,通过流式接口提供数据块的读.写.替换.复制和校验信息等功能.建立在上述基础上的数据节点,还需要维护 ...

  4. python在统计专业的应用_Python统计学一数据的概括性度量详解

    一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...

  5. 浪潮业务稳定连续性获Global Data唯一“Leader”评级 蝉联数据中心整体能力“Very Strong”评级

    近日,国际咨询机构Global Data更新了关于数据中心的厂商评估报告,浪潮业务稳定连续性获得最高"Leader"评级.数据中心整体能力蝉联 "Very Strong& ...

  6. 切换不同的数据状态布局,包含加载中、空数据和出错状态,可自定义状态布局

    代码地址如下: http://www.demodashi.com/demo/12318.html StatusLayoutManager 切换不同的数据状态布局,包含加载中.空数据和出错状态. git ...

  7. 北京大学肖臻老师《区块链技术与应用》公开课笔记17——ETH数据结构篇1(状态树1)

    北京大学肖臻老师<区块链技术与应用>公开课笔记 以太坊数据结构篇1--状态树1,对应肖老师视频:click here 全系列笔记请见:click here 以太坊数据结构篇1--状态树2请 ...

  8. 【大数据人工智能】统计学入门——数据科学领域最需要了解的统计学基础概念

    目录 统计学入门--数据科学领域最需要了解的统计学基础概念 什么是统计学? 数据科学入门必备统计学概念 什么是对象? 什么是总体&

  9. 安科瑞AGF系列导轨式智能光伏汇流采集装置,装置带有RS485接口可以把测量和采集到的数据和设备状态上传

    1.概述   AGF-T穿孔式光伏汇流采集装置是专门应用于智能光伏汇流箱,用于监测光电池阵列中电池板运行状态,组串电流测量,汇流箱中防雷器状态采集.直流断路器状态采集,装置带有RS485接口可以把测量 ...

最新文章

  1. 中美5G竞争的未来路线图
  2. VUE.js项目中控制台报错: Uncaught (in promise) NavigationDuplicated解决方法
  3. FJ集团企业级邮件服务器---iRedMail客户端配置
  4. Oracle RESETLOGS 和 NORESETLOGS 区别说明
  5. JVM 分析工具和查看命令,超详细
  6. 电脑word在哪_怎么将图片转换成Word?学会这3种方法,轻松将图片转文字!
  7. mac android屏幕演示,如何在Mac上录制Android设备的屏幕 | MOS86
  8. sql并行度_SQL Server最大并行度的重要性
  9. 新网站收录及备忘录网址
  10. conda安装requirement.txt指定的依赖包
  11. 内容页的链接设置seo技巧
  12. 嵌入式分享合集126
  13. 华为“吐出”的高端市场,小米 Ov 却吃不下
  14. Python爬虫学习笔记 (11) [初级] 小练习 爬取Eason所有歌曲歌词 制作词云图
  15. 弘辽科技:拼多多新店推广的5个方法是什么?怎么推广?
  16. java实现找一条转乘次数最少的公交线路?,基于最优换乘次数的城市公交查询算法...
  17. 【林轩田】机器学习基石(九)——线性回归
  18. AppIcon和LaunchImage尺寸
  19. 介绍一个查看TCP连接的工具TCPView
  20. 大学生学计算机的自我介绍范文带翻译,大学生英语自我介绍带翻译范文.doc

热门文章

  1. ft2232驱动安装方法_关于Win10无法安装英伟达驱动的处理方法
  2. 一文读懂 volatile 关键字
  3. java基础(七) 深入解析java四种访问权限
  4. myeclipse添加使用hibernate框架详解
  5. Linux备份MySQL xshell_linux shell脚本备份mysql数据库
  6. html的选择器使用
  7. Android中绘制圆形和圆角图片
  8. Spring 利用FactoryBean来配置Bean
  9. typescript设置默认值_TypeScript 中神奇的 this 类型声明
  10. 班尼机器人怎样下载_我的超级助手——G7算账机器人