学习数据分析离不开统计学的相关知识,在这块我自己属于零基础,上学的时候也是文科生没有开设任何数学相关课程,所以选择了《深入浅出统计学》这本书入门,下面对这块基础知识做一些整理。

一、集中趋势的度量:均值、中位数、众数

1.均值

平均数的一般度量,应用最广泛的统计量之一,可用μ表示。

均值的计算方法:分子表示所有数字之和,分母表示所以数字个数。均值与频数

在计算一批数据的均值时,会发现有些数字是重复的,这个时候要把每个数的频数考虑进去。如果用f表示频数,均值的表示方法如下:均值与异常值

异常值:与其他数据格格不入的极高或极低的数值。数据中有异常值时,就会产生向右或向左偏斜数据。

向右偏斜的数据由偏大异常值形成,向右逐渐变弱,会将均值拉高,偏向右边。

向左偏斜的数据则是均值小于大部分值。

2.中位数

偏斜数据和异常值会使数据会对均值造成误导,这个时候可以取中间值来求平均数,这个中间值就是中位数。

中位数的算法:

1)按顺序排列数字:从最小值排列到最大值。

2)如果有奇数个数值,则中位数为位于中间的数值,则中间数的位置为(n+1)/2。

3)如果有偶数个数值,则将两个中间数相加,然后除以2。

3.众数

众数是另外一种平均数。它是一批数据中频数最大的数值。数据的众数可以不止一个,如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。

众数的计算方法:

1)把数据中的不同类别或者数值找出来。

2)写出每个数值或类别的频数。

3)挑出具有最高频数的一个或几个数值,得出众数。

下图归纳总结了这三种平均数的用法:

二、分散性与变异性的量度

1.全距(极差):获知数据的分散情况

计算方法:上界 - 下界。(其中上界为最大值,下界为最小值)

全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。如果数据中含有异常值,使用全距描述数据的分散情况会极具误导性。

2.四分位数

按升序排列数据,然后将这些数据分成四个相等的数据块,每个数据块包含四分之一原有数据。最小的四分位数(Q1)称为下四分位数或第一四分位数,最大的四分位数(Q3)称为上四分位数或第三四分位数。中间的四分位数(Q2)就是中位数,因为它将数据一分为二。没两个四分位数之间的距被称为四分位距(IQR)。

四分位距=上四分位数-下四分位数(较少受到异常值的影响)

四分位距仅用了处于中心部位的50%的数据,所以无论异常值是极大值还是极小值,都被排除在外。

3.百分位数

百分位数将数据一分为百。对于划分档次非常有用。第k百分位数就是位于数据范围k%处的数值。百分位距与四分位距相似,但百分位距是介于两个百分位数之间的距离。

4.箱线图

箱线图可以显示数据的全距、四分位距以及中位数。

创建箱线图的方法:首先按照标度画出一个“箱”,箱的左右两边分别代表下四分位数和上四分位数;然后,在箱中画一条线,标出中位数;通过这个箱可以看出四分位距的宽度。随后在箱的两边画出“线”,显示出全距的上界、下界以及宽度。

在箱线图上,一条条线的长度会随着上、下界的增长而增长,通过观察箱线图上的线,就能了解数据的偏斜程度。如果箱线图是对称的,那么基础数据很可能也是对称的。箱线图能在同一张图上体现多批数据,非常有利于比较。

5.方差和标准差

方差是量度数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

方差的计算方法:方法一方法二

标准差是取方差的平方根,是描述典型值与均值距离的一种方法,标注差越小,数值离均值越近。

标准差的表示方法:

6.标准分

标准分可以对不同数据集的数据进行比较,这些不同数据集的均值和标准差各不相同。标准分通常用字母“z”表示,计算方法如下:

通过标准分之后,可以把这些数值视为来自同一个数据集或数据分布来进行比较。

案例实践:对6家股票数据进行描述统计分析。导入所需要的数据分析包、绘图包,通过pandas_datareader从雅虎数据源获取到所要分析的数据。建立字典,获取到6家股票数据确定时间范围,获取数据查看前五行数据,使用head查看前几行数据(默认是前5行),不过也可以指定前几行查看数据的描述统计信息

count表示计数,mean表示平均值,std是标准差 ,min表示最小值,25%是下四分位数,50%是中位数,75%是上四分位数,max即为最大值。定义函数,获取股票变化趋势调用函数,获取各家股票涨跌情况用图形绘制包 matplotlib.pyplot进行绘图

这次简单整理了基础的统计学知识,深入浅出统计学这本书相对来说还是比较好理解的,这些基础知识也是数据分析常用到的知识。后面利用Python数据分析包,对股票数据做了简单的描述统计分析,Pandas、Numpy、Matplotlib都是Python做数据分析常用的相关包,做数据分析工作必须要掌握好这块知识,在后面的学习过程会慢慢加强这方面的训练。

python数据分析 统计学_Python数据分析之统计学基础(案例:描述统计)相关推荐

  1. python ppt 绘图_Python数据分析-Matplotlib绘图基础

    本文结构: 一.Matplotlib绘图基础及中文乱码解决 二.如何利用pandas绘图? 三.如何利用notebook制作分析报告? 图形在我们日常生活中无处不在.如果没有可视化,就是一些数字罗列, ...

  2. python统计分析书籍_Python数据分析入门书籍推荐

    在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...

  3. python 多项式回归 假设检验_Python数据分析入门书籍推荐

    在当下这个数据驱动的时代,毫不夸张的说各行各业的商业决策和运营管理都离不开数据分析,因此数据分析已经成为当前每个人的必备技能和加分项.对于许多初学者来讲,想要入门Python数据分析常常不知道从何下手 ...

  4. python数据分析软件_Python数据分析工具

    Numpy Python没有提供数组功能,虽然列表可以完成基本的数组功能,但他不是真正的数组.Numpy内置函数处理速度是c语言级别,因此尽量使用内置函数,避免出现效率瓶颈的现象. Numpy的安装: ...

  5. 关联分析python牛奶面包_Python数据分析基础ReadingDay13_关联分析Apriori

    reading Foundations for Analysis with Python Day 13 <Python数据分析基础>封面 之前我们已经完成了<Python数据分析基础 ...

  6. python 统计分析 包_Python 数据分析包:pandas 基础

    pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据 ...

  7. python入门三剑客_python数据分析三剑客基础之matpoltlib初解

    一.什么是matplotlib? python的底层绘图工具,主要做数据可视化图表,源自matplot. 二.为什么要学matplotlib? 1.它能将数据进行可视化,更直观的呈现出来 2.它能让数 ...

  8. python数据分析架构_Python数据分析

    引言:本文重点是用十分钟的时间帮读者建立Python数据分析的逻辑框架.其次,讲解"如何通过Python 函数或代码和统计学知识来实现数据分析". 本次介绍的建模框架图分为六大版块 ...

  9. python 卡方分布值_python数据分析探索变量之间的关系

    探索变量之间的关系 引言 深入探索分析数据价值有几个重要步骤:①变量的分布检验,②探索变量间的关系,③建立关系模型,④评估,⑤总结结论与建议.接下来看看数据分析的重要一环–「探索变量间的关系」. 1 ...

最新文章

  1. 汇编语言运算符优先级
  2. Spring3:类型安全依赖项注入
  3. Tensorflow教程: tf.Variable() 和tf.get_variable()
  4. 正斜杠“/”与反斜杠”\”
  5. MVC4 Action
  6. python-django rest framework框架之渲染器
  7. Laravel Pipeline解读
  8. 2019年 AI 顶会速递
  9. java 置换_Java中的置换和组合
  10. 【深入理解JS核心技术】11. 什么是一级函数
  11. 大数据时代,我竟然在用Excel和SPSS做数据分析,真香!
  12. python安装openpyxl库_Python openpyxl 库
  13. 开展建设医院信息化是医疗行业发展的大势所趋
  14. 【web-攻击验证机制】(3.2.3)验证机制设计缺陷:“记住密码” 功能、用户伪装功能、证书确认不完善
  15. 计算机英语rom是什么意思,rom是什么意思
  16. Apache启动失败,请检查相关配置。√MySQL5.1已启动。
  17. css彩虹·,web前端入门到实战:纯CSS画动态彩虹
  18. C凛冬将至(LCA最短路+分情况5次LCA)
  19. python 估值模型_【中金固收·固收+】隐藏价值的角落:限售股AAP估值及Python实现方法(上)...
  20. 启明欣欣STM32开发板 --- 运行LWIP (无RTOS)

热门文章

  1. Android入门教程(一)
  2. 如何根据快递公司筛选出需要的单号
  3. 摄像头8mm可以看多远_监控摄像头设备特点?常见的故障及解决方法?
  4. HDU - 1584 蜘蛛牌 【DFS】
  5. Source Insight 工具栏折叠后还原
  6. 简要说明 LDT 与 GDT 的区别和联系
  7. 话说《蜗居》:从房奴到小三
  8. c#获取航班实时信息(飞常准网站)
  9. 打印系统开发(33)——打印机的使用(理光Ricoh Pro 907EX PCL 6)
  10. 用一句话概括Handler,并简述其原理