大家好,我是最爱数据分析的勾妹,今天有朋友问我:勾妹发生肾么事了?

对不起走错片场了,是有朋友问我:数据分析干吗要学统计学呢?

在很多人眼里,尤其是刚刚入门数据分析的人眼里,统计学似乎是一门比较枯燥,而且还“没什么用处”的学科。但在数据分析中,统计学还是个非常重要的内容,为什么?

我们先通过一个案例来带感受一下统计学在数据分析中的应用。

案例:

二战期间,德国遭遇了严重的粮食危机,为了应对战时需求,德国政府发布了一个政策:全国的面粉统一由政府管理,政府每天发放固定的面粉量,由指定的工厂进行面包的制作,然后将面包发放到市民手中。

德国政府规定工厂每次发给个人的面包必须为 400g,而在德国柏林住着一位统计学家,发现工厂每天发给自己的面包重量有大有小,这位统计学家统计了一个月以来每天的面包重量,最终制作出一个表格:

如果没有统计学基础的人看到这个表格可能没有什么头绪,而这位统计学家则看出了工厂的“猫腻”。

因为面包制作的模具不可能是十分精细的,所以制作出来的面包可能是 399g,可能是398g,也可能是 401g、402g,但是根据统计学理论,当样本数据足够多的时候,这些数据一定会符合正态分布,也就是下面这张图:

也就是说,68.2% 的数据应该集中于 400g 左右,低于 390g 和高于 410g 的数据应该只占不到 30%。

但是将上图中的数据代入正态分布公式中后就会发现,面包重量的数据发生了偏移(正偏态),说明该工厂在面包模具上动了手脚,发给市民的面包其实是偏小的,多余的面粉被工厂克扣掉了。

后来调查表明,该工厂确实克扣了大量面粉,故意将模具改小了一点,因此造成了面包重量平均数的下移。这个简单的案例就利用了统计学中一个非常基础的知识——正态分布,这是在我们进行数据分析的时候经常要用到的一个知识。

其实,我们日常用到的平均数、众数、中数、四位数等都是统计学中描述型统计的知识。用通俗的话来解释,就是定量去描述某些数据的特点。

比如销售人员说:“今年我们的销售情况很好,比去年要好很多”,这不叫作描述统计,因为“比去年好”这个特点不是定量的数据,我们可以说“今年的销售额比去年提高 50%”,这就是描述统计。

我们在进行数据分析的时候,一定要记住可量化的指标要量化,不可量化的要定义指标或者公式进行量化。

因为我们要从数据里找结果,而不是从感觉上找差异,最重要的是要避免主观化,不要把经验化的东西带入分析工作中。比如营业额降低,不要想当然地认为就是销售出了问题,要抛开经验和惯性思维,用数据说话。

描述性统计

下面说一下描述性统计的三个分类:集中趋势、离散趋势、分布。

集中趋势

集中趋势就是反映一些数据向某一中心靠拢的程度,也就是说要找到数据的中心点在哪里。集中趋势所要研究的内容,就是某个对象在一定时间和空间条件下的共同性质和一般水平。

常用的指标主要有三个:众数、平均数和分位数。

1)众数

数据的趋势越集中,众数的代表性越好,所以众数不受极端值的影响,但是缺乏唯一性。

2)平均数

平均数代表某个数据集的整体水平,但是平均数有个缺点,就是很容易受极值的影响,比如一家企业告诉你他们公司员工的平均薪资是 50w,结果你去了之后发现大部分人的薪资只有 10w,因为领导层的薪资可能有 100w,直接拉高了整体平均水平。

3)分位数

分位数是将某个事件的发生概率按照等分的原则,分成几个等值的点,比如最常见的中位数(即二分位数),就是将数据平均分为两份。除此之外,常见的分位数还有四分位数、百分位数等。

下面就是四分位数中的五个关键点。

下界:最小值,即第 0%位置的数值;

下四分位数:Q1,即第 25%位置的数值;

中位数:Q2,即第 50%位置的数值;

上四分位数:Q3,即第 75%位置的数值;

上界:最大值,即第 100%位置的数值。

离散趋势

离散趋势反映了各变量远离其中心值的程度,从另一个层面说明了集中趋势量值的代表程度。常用的指标有:极值、方差、标准差、平均差、分位差等。

极值:就是最大值、最小值,代表着数据集合中的上限和下限;

极差:又称“全距”,是一组数据中的最大观测值和最小观测值之差,记作 R。一般情况下,极差越大,离散程度越大,其值越容易受到极端值的影响。

平均差:计算出每个值与平均值的差值,最后计算所有差值的平均值,就是每个数值偏离平均值的程度。

方差:将每个值与平均值的偏差进行平方,最后除以总数据量的值,简单来说就是表示数据与期望值的偏离程度。

方差越大,就意味着每个值与平均值的差值平方和越大、越不稳定、波动越剧烈,代表着数据整体比较分散;

而方差越小,代表着每个值与平均值的差值平方和越小、越稳定、波动越平滑,因此代表着数据整体很集中。

标准差:将方差进行平方根,与方差一样都是表示数据与期望值的偏离程度。开根号是为了方便对比,因为方差计算的是平方值,所以会造成跟检测值差别过大的问题。

分位差:其数值越小表明数据越集中,数值越大表明数据越离散。常用的分位差就是四分位差:四分位差 =(第三个四分位数-第一个四分位数)/2。

分布

我们一般用峰态和偏度来描述数据分布的形态,用来描述数据的整体特征,比如说数据的高峰在哪里、数据大多分布在哪个范围等。

1)峰态

峰态就是概率分布曲线的峰值高低,是尖峰、平顶峰,还是正态峰。

直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言的,用来评估一组数据的分布形状的高低程度的指标。当峰度 =0 时,分布和正态分布基本一致;当峰度 >0 时,分布形态高狭;当峰度 <0 时,分布形态低阔。如下图所示:

2)偏度

通俗点讲,偏度就是峰值与平均值的偏离程度,是左偏还是右偏。

偏度一般都是用 SK 表示,SK 小于 0,意味着峰值在平均值的左侧,因此称为左偏,也叫负偏;SK 大于 0,意味着峰值在平均值的右侧,因此称为右偏,也叫正偏。

其实我们接触的任何数据,都与概率一词有关,数据分布预测的就是某事件发生的概率,通过分析偏度和峰态,我们能够分析某件事情有没有可能发生,比如预测销售额等。

是不是发现,懂点统计学,在数据分析中还是挺有用的?

本文首发公众号:勾勾谈数据分析

欢迎大家来畅谈数据分析哦[机智]

峰度和偏度在金融数据分析中有何应用_做数据分析,为什么要学统计学?相关推荐

  1. python用于数据分析的书籍_做数据分析不得不看的书有哪些?

    书不在多,而在于精.我分析了知乎上推荐的数据分析类书籍的回答,最终总结了以下内容,形成了这篇文章. 数据分析类的书有很多,可以按数据分析的流程分类,每个流程应该看哪些书籍. 也可以按照通识类和工具类进 ...

  2. 使用python数据分析的研究意义_大数据分析语言Python的价值和意义

    Python提供了大量用于处理大数据的库.就开发代码而言,您还可以比其他任何编程语言更快地使用Python处理大数据.这两个方面使世界各地的开发人员能够将Python视为大数据项目的首选语言.要获得有 ...

  3. python数据分析师书籍_做数据分析不得不看的书有哪些?

    小K给大家整理了一份书单,很适合刚接触数据分析的同学哦,快快收藏起来. <深入浅出数据分析> <深入浅出数据分析>写得漂亮,读者可以学到分析现实问题的系统性方法.从卖咖啡到开橡 ...

  4. 大数据分析和数据挖掘区别_大数据分析和数据挖掘之间的区别,大数据的未来范围...

    大数据分析和数据挖掘区别 There arises a confusion among most of the people between Big Data and Data mining. In ...

  5. python金融大数据分析师工资待遇_国内数据分析待遇如何?

    本文用数据分析的方法告诉你,数据分析师在不同阶段分别是值多少钱! 项目简介 自学数据分析的相关技能有一段时间,到现在也算学到不少内容,接下来打算慢慢找工作.在这之前打算将之前学的东西,练习一遍,慢慢增 ...

  6. 【数据统计】— 峰度、偏度、点估计、区间估计、矩估计、最小二乘估计

    [数据统计]- 峰度.偏度.点估计.区间估计.矩估计.最小二乘估计 四分位差 异众比率 变异系数 利用数据指标指导建模思路 形状变化 数据分布形态 峰度: 度量数据在中心聚集程度 偏度 利用数据指标指 ...

  7. 【数模】数据统计中的峰度与偏度

    数据统计中的峰度与偏度 峰度: 峰度(peakedness:kurtosis)又称峰态系数.表征概率密度分布曲线在平均值处峰值高低的特征数. 峰度包括正态分布(峰度值=3),厚尾(峰度值>3), ...

  8. python 偏态分布_峰度与偏度(python)

    原文链接:峰度与偏度(python) 微信公众号:机器学习养成记 搜索添加微信公众号:chenchenwings偏度和峰度是描述数据分布时两个常用的概念,用来描述数据分布与正态分布的偏离程度.本次推送 ...

  9. 使用SQL 计算一组数据的峰度、偏度 公式依据excel的KURT函数和SKEW函数 Oracle 数据库

    使用SQL 计算一组数据的峰度.偏度 公式依据excel的KURT函数和SKEW函数 因为工作原因,要把excel的KURT和SKEW函数在Oracle实现出来并统计,在网上找了半天没有答案..只能自 ...

  10. 正态分布的峰度和偏度分别为_科学网—峰度(Kurtosis)与偏态(Skewness) - 李旭的博文...

    我们在应用ArcGIS提供的克里格(Kriging)插值工具之前,经常要对数据的分布情况进行考察,这是因为克里格插值的前提假设之一就是数据服从正态分布.峰度(Kurtosis)与偏态(Skewness ...

最新文章

  1. python读取xml数据并显示为表格_用Python解析XML数据,然后用SQL创建一个数据库
  2. 基础语法(IDE:PyCharm)
  3. python语言学习:python语言学习中的定义类、定义函数、封装api等详细攻略
  4. Qt Creator添加Qt Designer插件
  5. PHP file_get_contents 设置超时时间
  6. 我喜欢的一首歌--《幸福的瞬间》
  7. linux如何创建备份文件,如何备份Linux 配置文件
  8. confluent connect写出到ES及ClickHouse
  9. IntentService解析
  10. 从0到1使用VUE-CLI3开发实战(五):模块化VUEX及使用vuetify
  11. 人工智障学习笔记——梯度下降(2)优化算法
  12. 高通在物联网领域已经深耕多年
  13. 三个案例快速入门Nettty
  14. 【HTML+CSS网页设计与布局 从入门到精通】第13章-块元素div和内联元素span格式布局
  15. React使用create-react-app 创建项目失败,解决方法
  16. java 静态相关内容
  17. Redis相关面试题总结
  18. 黑马python培训视频网盘下载_黑马课堂大数据全套视频课程百度云下载
  19. python的setting怎么找_python基础之setting设置,变量和关键字
  20. 计算机应用于针灸,中医针灸临床治疗专家系统的研究与实现

热门文章

  1. unity打开htc vive 的前置摄像头 和 实现增强现实效果
  2. Atitit 各有所长原则 Thinker和Doer之争。 Doer Influencer relater thinker 目录 1. Doer Influencer relater thinke
  3. atitit. 深入理解Cohesion)原理ad  attilax大总结
  4. Atitit.基于dsl的methodinvoker
  5. Atitit. 数据库-----catalog与schema的设计区别以及在实际中使用 获取数据库所有库表 java jdbc php  c#.Net
  6. atitit.提升开发效率---MDA 软件开发方式的革命(3)----自动化建表
  7. 深交所再推跨市场ETF交易模式创新,助力ETF发展
  8. 关于Libra的6个核心问题及其监管原则
  9. 微服务架构与API网关
  10. Python 命令行库的大乱斗 | 凌云时刻