大数据之统计学基础(一) -- 描述统计
描述统计
1.描述数据水平的统计量
- 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数:
算 术 平 均 数 x ˉ = ∑ i = 1 n x i n 算术平均数 \ \ \bar{x} = {\displaystyle\sum_{i=1}^nx_i \over n} 算术平均数 xˉ=ni=1∑nxi
- 分位数:四分位数、中位数(中位数反映一组数据的中等水平,只与数据的位置有关,不受极端值影响)、百分位数
中 位 数 : M e = { x ( n + 1 ) 2 , n 为 奇 数 1 2 ( x n 2 + x n 2 + 1 ) , n 为 偶 数 ‘ 中位数: M_e=\begin{cases} x_{(n+1) \over 2}, & n为奇数 \\ {1 \over 2}(x_{n \over 2}+x_{{n \over 2}+1}), & n为偶数 \end{cases} ` 中位数:Me={x2(n+1),21(x2n+x2n+1),n为奇数n为偶数‘
四 分 位 数 Q 25 % = n + 1 4 ; Q 75 % = 3 ( n + 1 ) 4 四分位数 \ \ \ \ \ \ \ \ Q_{25\%} = {n+1 \over 4} ;\ \ \ Q_{75\%}={3(n+1) \over 4} 四分位数 Q25%=4n+1; Q75%=43(n+1)
- 众数(一组数据中出现频次最多的数)
2.描述数据差异的统计量
- 极差:一组数据的最大值与最小值之差(受极端值影响)。
R = M a x ( x ) − M i n ( x ) R = Max(x) - Min(x) R=Max(x)−Min(x)
- 四分位差(反映中间50%数据的离散程度,不受极端值影响)。
I Q R = Q 75 % − Q 25 % IQR = Q_{75\% }-Q_{25\%} IQR=Q75%−Q25%
- 方差和标准差:标准差反映数据离散程度的绝对值,其数值受原始数据大小的影响;另外,标准差与原始数据的计量单位相同,因此,在比较不同样本数据的离散程度时,使用变异系数是更好的选择。
样 本 方 差 s 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n − 1 样本方差 \ \ s^2 = {\displaystyle\sum_{i=1}^n (x_i- \bar{x})^2 \over n-1} \\ 样本方差 s2=n−1i=1∑n(xi−xˉ)2
- 变异系数(CV):变异系数又称离散系数,变异系数消除了计算数值和计量单位的影响,因此可以反映一组数据的相对离散程度(变异系数是相对值),主要用于比较不同样本数据的离散程度。
离 散 系 数 C V = s x ˉ 离散系数 \ \ CV = {s \over \bar{x}} 离散系数 CV=xˉs
- 标准分数:标准化值,度量每个数值在该组数据中的相对位置
标 准 分 数 z i = x i − x ˉ s 标准分数 \ \ z_i = {x_i -\bar{x} \over s} 标准分数 zi=sxi−xˉ
3.描述数据分布形状的统计量
偏度系数:偏度系数用于描述数据分布的对称性,偏度系数越接近0,则数据的分布月对称,偏度系数为正,则数据分布为右偏,为负,则数据分布为左偏
峰度系数:描述数据分布峰值的高低。
大数据之统计学基础(一) -- 描述统计相关推荐
- 大数据之统计学基础(一)
1. 统计学 统计学可以分为:描述统计学与推断统计学 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度.例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围. ...
- 大数据之统计学基础(二):随机变量及其概率分布
随机变量及其概率分布 随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定. 1.随机变量的类型 ...
- 大数据时代统计学面临的机遇与挑战
(2016-10-15 银河统计) 大数据时代的到来, 使我回想起上个世纪80年代大学时期非常流行的一本书: <第三次浪潮>(The Third Wave) 美国著名未来学家阿尔温.托夫勒 ...
- Thinking in BigData(五)大数据之统计学与数据挖掘
今天回来,在原来的文章中,添加了一些数据挖掘方面的概念. 上篇博客,我们从"大","价值"两点来揭示大数据主要源于哪些企业和在哪些企业应用更广泛.在最后,我么指 ...
- 大数据薪资一再飙升 学习大数据需要哪些基础?
2018年6月19日,备受关注的个人所得税法修正案草案迎来第七次大修,个税起征点由每月3500元提高至每月5000元(每年6万元).对于大多数人来说这绝对是个好消息,但人们更愿意参加培训班实现高薪.近 ...
- python可以处理多大的数据_科多大数据之Python基础教程之Excel处理库openpyxl详解...
原标题:科多大数据之Python基础教程之Excel处理库openpyxl详解 科多大数据小课堂来啦~Python基础教程之Excel处理库openpyxl详解 openpyxl是一个第三方库,可以处 ...
- 【2017年第4期】大数据平台的基础能力和性能测试
姜春宇1,2,魏凯1,2 1.中国信息通信研究院移动互联网与大数据部,北京 100191 2. 数据中心联盟大数据发展促进委员会,北京 100045 摘要:目前整个大数据技术还处于以开源方式为主导.多 ...
- 大数据学习方法,学习大数据需要的基础和路线
大数据基础学习 大数据基础入门 为什么要学习大数据 1.目的:要份很好工作(钱) 2.对比:Java开发和大数据开发 什么是大数据? 举例: 1.商品推荐:问题: (1)大量的订单如何存储? (2)大 ...
- 大数据第二阶段Python基础编程学习笔记(待完善)
大数据第二阶段Python基础编程学习笔记(待完善) 第一章 Python基础语法 3.8 1-1Python概述 python基础部分: ●Python基础语法: 标识符,关键字,变量,判断循环.. ...
最新文章
- 数据加密之MD5加密
- 教育部要求:作业、校外培训、游戏要为学生睡眠让路
- DL之BigGAN:利用BigGAN算法实现超强炸天效果——画风的确skr、skr、skr,太特么的skr了
- jQuery的Accordion插件
- python医学图像读取_对python读取CT医学图像的实例详解
- Windows Message ID 常量列表
- EndNote X8参考文献样式下载与自定义
- 普度大学计算机科学博士,Purdue的Computer Sciences「普渡大学西拉法叶分校计算机科学系」...
- python2在线编译器_Skulpt搭建Python在线编译器(二):界面优化
- php soh stx,symbol NULL SOH STX ETX EOT ENQ ACK ASCII(符号零SOH STX ETX传输结束询问ACK ASCII).pdf...
- 我们将迎来另一个 VR 寒冬吗?
- 微信小程序(三)自定义分享按钮和原生分享区分不同按钮的分享带参数分享和获取
- CDN流量是什么,怎么计算?
- Struts Tiles 框架概述
- 2019全国大学生软件测试比赛,原创 安恒信息圆满支撑“2019全国大学生软件测试大赛”...
- 我所知道的张小龙 by和菜头
- 自学编程到底需要多长时间?
- CIH病毒1.4版本之中文注释
- 计算机基础知识讲课稿,《计算机基础知识》说课稿
- 五本《收获,不止Oracle》等你领取,Oracle DBA的福利
热门文章
- ubuntu 字体设置像Windows 字体
- 想知道车牌号码里都有什么秘密吗?
- 计算机win10开机音乐,win10系统电脑开机总是自动播放音乐的恢复步骤
- 猪齿鱼(Choerodon UI )dataSet.delete通用删除的封装 —— 解决两个dataSet.delete的自身问题
- 微信小程序:和平精英吃鸡捏脸数据助手微信小程序源码下载支持激励视频
- 每个程序员都必须知道的Unicode以及字节码最基础的知识
- 答读者问(18):一个大四学生有关专业发展的相关疑问
- oracle查看已安装补丁包,ORACLE查看数据库安装补丁情况
- IDEA创建三级目录的maven项目 图文详细
- LSSVM,python代码实例