大数据之统计学基础(一)
1. 统计学
统计学可以分为:描述统计学与推断统计学
描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。
推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。
2.均值、中位数、总数、极差、方差、标准差
对于一组数组,如果只容许使用一个数字去代表这组数据,那么这个数字应该如何选择??——选择数据的中心,即反映数据集中趋势的统计量。
均值——算术平均数,描述平均水平。
中位数——将数据按大小排列后位于正中间的数描述,描述中等水平。
众数——数据中出现最多的数,描述一般水平。
极差——最大值-最小值,简单地描述数据的范围大小
方差——在统计学上,更常用的是使用方差来描述数据的离散程度——数据离中心越远越离散。其中,X¡表示数据集中第i个数据的值,µ表示数据集的均值。
标准差——如果原数据的单位是m的话,那么方差的单位就是mˆ2,方差与原数据的单位是不一样的,两者没有可比性。为了保持单位的一致性,我们引入一个新的统计量——标准差。
2.1 均值
2.2 中位数
顾名思义,中位数就是将数据按大小顺序(从大到小或是从小到大都可以)排列后处于中间位置的数。若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算术平均数。
2.3 众数
众数——数据中出现次数最多的数(所占比例最大的数)。一组数据中,可能会存在多个众数,也可能不存在众数。众数不仅适用于数值型数据,对于非数值型数据也同样适用。
2.4 均值、中位数、众数的优劣势
优点 | 缺点 | |
均值 | 充分利用所有数据,适用性强 | 容易受到极端值影响 |
中位数 | 不受极端值影响 | 缺乏敏感性 |
众数 | 当数据具有明显的集中趋势时,代表性好;不受极端值影响 | 缺乏唯一性:可能有一个,可能有两个,可能一个都没有 |
2.5 方差
方差公式:,方差公式经过变形后可以简化为。
方差分总体方差与样本方差。总体方差:,样本方差:
2.6 标准差
标准差:,有效地避免了因单位平方而引起的度量问题。与方差一样,标准差的值越大,表示数据越分散。
大数据之统计学基础(一)相关推荐
- 大数据之统计学基础(一) -- 描述统计
描述统计 1.描述数据水平的统计量 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数: 算 术 平 均 数 x ˉ = ∑ i = 1 n x i n 算术 ...
- 大数据之统计学基础(二):随机变量及其概率分布
随机变量及其概率分布 随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定. 1.随机变量的类型 ...
- 大数据时代统计学面临的机遇与挑战
(2016-10-15 银河统计) 大数据时代的到来, 使我回想起上个世纪80年代大学时期非常流行的一本书: <第三次浪潮>(The Third Wave) 美国著名未来学家阿尔温.托夫勒 ...
- Thinking in BigData(五)大数据之统计学与数据挖掘
今天回来,在原来的文章中,添加了一些数据挖掘方面的概念. 上篇博客,我们从"大","价值"两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛.在最后,我么指 ...
- 大数据薪资一再飙升 学习大数据需要哪些基础?
2018年6月19日,备受关注的个人所得税法修正案草案迎来第七次大修,个税起征点由每月3500元提高至每月5000元(每年6万元).对于大多数人来说这绝对是个好消息,但人们更愿意参加培训班实现高薪.近 ...
- python可以处理多大的数据_科多大数据之Python基础教程之Excel处理库openpyxl详解...
原标题:科多大数据之Python基础教程之Excel处理库openpyxl详解 科多大数据小课堂来啦~Python基础教程之Excel处理库openpyxl详解 openpyxl是一个第三方库,可以处 ...
- 【2017年第4期】大数据平台的基础能力和性能测试
姜春宇1,2,魏凯1,2 1.中国信息通信研究院移动互联网与大数据部,北京 100191 2. 数据中心联盟大数据发展促进委员会,北京 100045 摘要:目前整个大数据技术还处于以开源方式为主导.多 ...
- 大数据学习方法,学习大数据需要的基础和路线
大数据基础学习 大数据基础入门 为什么要学习大数据 1.目的:要份很好工作(钱) 2.对比:Java开发和大数据开发 什么是大数据? 举例: 1.商品推荐:问题: (1)大量的订单如何存储? (2)大 ...
- 大数据第二阶段Python基础编程学习笔记(待完善)
大数据第二阶段Python基础编程学习笔记(待完善) 第一章 Python基础语法 3.8 1-1Python概述 python基础部分: ●Python基础语法: 标识符,关键字,变量,判断循环.. ...
最新文章
- oracle for 记录数,可视化工具dbForge Documenter for Oracle全新上线!让您轻松记录Oracle数据库...
- 双指针:88. 合并两个有序数组
- 全球再迎超级飓风,黑客可利用微软“蠕虫级”高危漏洞暴击全球
- mysql8.0windows,Windows下mysql 8.0.12 安装详细教程
- 数据科学和人工智能技术笔记 一、向量、矩阵和数组
- 创建第一个RMI应用
- 【单片机基础篇】51单片机流水灯
- R语言随机抽样及分层抽样
- 解决bootstrap中模态框打开时页面发生一瞬间移动
- 解密:顺丰是一家什么样的公司
- 【美团技术团队】2014年-2022年后端文章精选篇
- K12在线教育App如何实现用户增长?
- 浅析image,imagesc,imshow的用法
- 互联网寒冬——“大裁员”
- 【PP模块】工艺路线详解(Routing)
- 云栖大会·南京峰会落下帷幕,阿里云都干了些什么?
- win2003 iis php_Win2003下IIS以FastCGI模式运行PHP
- Android打开相册并上传图片至服务器
- 案例:模拟百度搜索框自动加载内容
- 交叉编译 JsonCpp
热门文章
- label居中_表格固定列宽时如何居中?
- ztree 标准得json数据格式_酷站推荐 - json-c.github.io/json-c - json-c API
- python 生成字符串_Python字符串生成器,按照特定的顺序
- codesys raspberry pi_11月7日|Pi第四次减产来袭?4点浅析中文区用户关心的问题
- C++基础13-类和对象之继承1
- 将json字符串转换为json对象
- SpringMVC启动过程详解(li)
- Android SurfaceView实现静态于动态画图效果
- attr和prop区别
- MVC.Net: jqueryval错误