1. 统计学

统计学可以分为:描述统计学与推断统计学

描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。

推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。

2.均值、中位数、总数、极差、方差、标准差

对于一组数组,如果只容许使用一个数字去代表这组数据,那么这个数字应该如何选择??——选择数据的中心,即反映数据集中趋势的统计量。

均值——算术平均数,描述平均水平。

中位数——将数据按大小排列后位于正中间的数描述,描述中等水平。

众数——数据中出现最多的数,描述一般水平。

极差——最大值-最小值,简单地描述数据的范围大小

方差——在统计学上,更常用的是使用方差来描述数据的离散程度——数据离中心越远越离散。其中,X¡表示数据集中第i个数据的值,µ表示数据集的均值。

标准差——如果原数据的单位是m的话,那么方差的单位就是mˆ2,方差与原数据的单位是不一样的,两者没有可比性。为了保持单位的一致性,我们引入一个新的统计量——标准差。

2.1 均值

2.2 中位数

顾名思义,中位数就是将数据按大小顺序(从大到小或是从小到大都可以)排列后处于中间位置的数。若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算术平均数。

2.3 众数

众数——数据中出现次数最多的数(所占比例最大的数)。一组数据中,可能会存在多个众数,也可能不存在众数。众数不仅适用于数值型数据,对于非数值型数据也同样适用。

2.4 均值、中位数、众数的优劣势

  优点 缺点
均值 充分利用所有数据,适用性强 容易受到极端值影响
中位数 不受极端值影响 缺乏敏感性
众数 当数据具有明显的集中趋势时,代表性好;不受极端值影响 缺乏唯一性:可能有一个,可能有两个,可能一个都没有

2.5 方差

方差公式:,方差公式经过变形后可以简化为

方差分总体方差与样本方差。总体方差:,样本方差:

2.6 标准差

标准差:,有效地避免了因单位平方而引起的度量问题。与方差一样,标准差的值越大,表示数据越分散。

大数据之统计学基础(一)相关推荐

  1. 大数据之统计学基础(一) -- 描述统计

    描述统计 1.描述数据水平的统计量 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数: 算 术 平 均 数 x ˉ = ∑ i = 1 n x i n 算术 ...

  2. 大数据之统计学基础(二):随机变量及其概率分布

    随机变量及其概率分布 随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定. 1.随机变量的类型 ...

  3. 大数据时代统计学面临的机遇与挑战

    (2016-10-15 银河统计) 大数据时代的到来, 使我回想起上个世纪80年代大学时期非常流行的一本书: <第三次浪潮>(The Third Wave) 美国著名未来学家阿尔温.托夫勒 ...

  4. Thinking in BigData(五)大数据之统计学与数据挖掘

    今天回来,在原来的文章中,添加了一些数据挖掘方面的概念. 上篇博客,我们从"大","价值"两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛.在最后,我么指 ...

  5. 大数据薪资一再飙升 学习大数据需要哪些基础?

    2018年6月19日,备受关注的个人所得税法修正案草案迎来第七次大修,个税起征点由每月3500元提高至每月5000元(每年6万元).对于大多数人来说这绝对是个好消息,但人们更愿意参加培训班实现高薪.近 ...

  6. python可以处理多大的数据_科多大数据之Python基础教程之Excel处理库openpyxl详解...

    原标题:科多大数据之Python基础教程之Excel处理库openpyxl详解 科多大数据小课堂来啦~Python基础教程之Excel处理库openpyxl详解 openpyxl是一个第三方库,可以处 ...

  7. 【2017年第4期】大数据平台的基础能力和性能测试

    姜春宇1,2,魏凯1,2 1.中国信息通信研究院移动互联网与大数据部,北京 100191 2. 数据中心联盟大数据发展促进委员会,北京 100045 摘要:目前整个大数据技术还处于以开源方式为主导.多 ...

  8. 大数据学习方法,学习大数据需要的基础和路线

    大数据基础学习 大数据基础入门 为什么要学习大数据 1.目的:要份很好工作(钱) 2.对比:Java开发和大数据开发 什么是大数据? 举例: 1.商品推荐:问题: (1)大量的订单如何存储? (2)大 ...

  9. 大数据第二阶段Python基础编程学习笔记(待完善)

    大数据第二阶段Python基础编程学习笔记(待完善) 第一章 Python基础语法 3.8 1-1Python概述 python基础部分: ●Python基础语法: 标识符,关键字,变量,判断循环.. ...

最新文章

  1. oracle for 记录数,可视化工具dbForge Documenter for Oracle全新上线!让您轻松记录Oracle数据库...
  2. 双指针:88. 合并两个有序数组
  3. 全球再迎超级飓风,黑客可利用微软“蠕虫级”高危漏洞暴击全球
  4. mysql8.0windows,Windows下mysql 8.0.12 安装详细教程
  5. 数据科学和人工智能技术笔记 一、向量、矩阵和数组
  6. 创建第一个RMI应用
  7. 【单片机基础篇】51单片机流水灯
  8. R语言随机抽样及分层抽样
  9. 解决bootstrap中模态框打开时页面发生一瞬间移动
  10. 解密:顺丰是一家什么样的公司
  11. 【美团技术团队】2014年-2022年后端文章精选篇
  12. K12在线教育App如何实现用户增长?
  13. 浅析image,imagesc,imshow的用法
  14. 互联网寒冬——“大裁员”
  15. 【PP模块】工艺路线详解(Routing)
  16. 云栖大会·南京峰会落下帷幕,阿里云都干了些什么?
  17. win2003 iis php_Win2003下IIS以FastCGI模式运行PHP
  18. Android打开相册并上传图片至服务器
  19. 案例:模拟百度搜索框自动加载内容
  20. 交叉编译 JsonCpp

热门文章

  1. label居中_表格固定列宽时如何居中?
  2. ztree 标准得json数据格式_酷站推荐 - json-c.github.io/json-c - json-c API
  3. python 生成字符串_Python字符串生成器,按照特定的顺序
  4. codesys raspberry pi_11月7日|Pi第四次减产来袭?4点浅析中文区用户关心的问题
  5. C++基础13-类和对象之继承1
  6. 将json字符串转换为json对象
  7. SpringMVC启动过程详解(li)
  8. Android SurfaceView实现静态于动态画图效果
  9. attr和prop区别
  10. MVC.Net: jqueryval错误