最近在温故统计学方面的知识,纸上得来终觉浅,本人打算将《深入浅出统计学》上一些例子用python进行可视化。今天就先从箱线图这一例子开始吧。

这是从此书第三章:分散性与变异性的量度--强大的"距"说起。先介绍全距的概念,全距是由数据集中的最大值减去最小值,最大值为上界,最小值为下界。这是用于量度数据分散程度的一种方法。然而全距的最大问题是无法将异常值排除在外,导致数据的异常性。为了摆脱异常值,一种使用迷你距忽略异常值的方式被提出。构建迷你距的一个办法是:仅使用数据中心周边的数值。为此,首先按升序排列数据,然后将这些数据分为四个相等的数据块,每个数据块包含四分之一原有数据。

四分位距=上四分位数-下四分位数

下四分位数(Q1)的位置由三步求得:Ⅰ. 首先计算n➗4. Ⅱ. 如果结果为整数,则下四分位数位于"n➗4"这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四分位数。Ⅲ. 如果"n➗4"不是整数,则向上取整,所得结果即为下四分位数得位置。

上四分位数(Q3)的位置由三步求得:Ⅰ. 首先计算3n➗4. Ⅱ. 如果结果为整数,则下四分位数位于"3n➗4"这个位置和下一个位置的中间,取这两个位置上的数值的平均值,即得下四分位数。Ⅲ. 如果"3n➗4"不是整数,则向上取整,所得结果即为下四分位数得位置。

这些就是箱线图得基本概念。为了创建一幅箱线图,首先要按照标度画出一个"箱",箱得左右两边分别表示下四分位数和上四分位数;然后,在箱中画一条线,表示出中位数;通过这个箱我们能看出四分位距得宽度。随后,在箱的两边画出"线",显示出上限、下限。

四分位距IQR=Q3-Q1,上限=(Q3+1.5IQR,max)取最小,下限=(Q1-1.5IQR ,min)取最大。不在上下限之间的值将被当成异常值处理。

我们将以书中三位球员的得分用python实现

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

df1=[7,8,9,9,10,10,11,11,12,13]

df2=[1,9,9,10,10,10,10,11,11,13]

df3=[3,3,6,7,7,10,10,11,13,30]

data = {

'球员一':df1,

'球员二':df2,

'球员三':df3

}

df = pd.DataFrame(data)

df.plot.box(title="箱状图")

plt.grid(linestyle="--", alpha=0.3)

plt.show()

到此简单的箱状图就完成了。

统计学和python_深入浅出统计学系列python实现相关推荐

  1. 后序遍历的非递归算法python_刷题系列 - Python用非递归实现二叉树后续遍历

    顺便把Python用非递归实现二叉树后续遍历也写了. 其实前序中序和后续都是针对父节点说的.比如下面这个最简单二叉树. 前序就是ABC,父节点A在前 中序就是BAC,父节点A在中间 后序就是BCA,父 ...

  2. python数据分析 统计学_Python数据分析之统计学基础(案例:描述统计)

    学习数据分析离不开统计学的相关知识,在这块我自己属于零基础,上学的时候也是文科生没有开设任何数学相关课程,所以选择了<深入浅出统计学>这本书入门,下面对这块基础知识做一些整理. 一.集中趋 ...

  3. 深入浅出统计学 第四五章 离散概率的计算与分布

    离散概率计算与分布的应用 在原书的这两章离散概率计算与分布的应用,重点在于概念的理解和公式的记忆. 而对于整本书而言,四五六章其实都作为第七章:三种离散概率分布,第八,九章,正态分布(连续概率分布之一 ...

  4. 深入浅出统计学 第一章 数据的可视化

    序言 在深入浅出统计学的第一张中一共出现了4类图像: 1. 比较基本比例->饼图 2. 比较数值的高低条形图(基本条形图,堆积条形图,分段条形图) 3. 连续数据的对比(等距直方图->频数 ...

  5. 深入浅出统计学 第二三章 量度

    量度 两类量度: (1) 集中趋势的量度->平均值,中位数,众数 (2) 分散性与变异性的亮度->全距(极值),四分位数(扩展:箱型图),方差与标准差,标准分 获取数据 import pa ...

  6. 正态分布表怎么查表_《深入浅出统计学》-读书笔记-再谈正态分布的应用

    目录: 橘猫吃不胖:<深入浅出统计学>-读书笔记-正态分布的应用​zhuanlan.zhihu.com <深入浅出统计学>,第九章,再谈正态分布的应用 上一篇提到的都是单一连续 ...

  7. 整理总结:深入浅出统计学——排列与组合

    参考资料:电子工业出版社的<深入浅出统计学> 前言 顺序是概率计算过程中不可避免的事情,通过学习简便方法来完成概率计算的进阶. 本篇目录 参考资料:电子工业出版社的<深入浅出统计学& ...

  8. 深入浅出统计学第七章 几何分布,二项分布,柏松分布

    简介 <深入浅出统计学>第七章详细介绍了三种概率分布及其应用,而我们则将进行程序编写,来计算这三种概率分布. 几何分布 scipy几何分布原文地址 下面是书中一些重要公式的代码实现,此处我 ...

  9. 置信区间构建---商务与经济统计+深入浅出统计学

    目录 置信区间: 置信区间求解步骤: 置信区间求解: 总体均值的置信区间: 总体的标准差已知: 总体的标准差未知: 样本容量的确定 总体比率的置信区间 样本容量的确定 置信区间: 通过点估计量加减一个 ...

  10. 整理总结:深入浅出统计学——正态分布的运用

    参考资料:电子工业出版社的<深入浅出统计学> 前言 并非所有数据集合都是离散的.可以指定确切数值的概率分布,其中也有数值型的概率分布,最典型的便是正态分布. 本篇目录 参考资料:电子工业出 ...

最新文章

  1. Vue开发使用Axios遇到了大坑!
  2. wampserver运行后报错问题
  3. java 面向对象个人理解
  4. 你增长的年龄,是因为丢掉了快乐吗?
  5. “ == “运算符与equals()方法的区别
  6. C# string 转 bool
  7. 数据结构与算法 第一章 引入
  8. codejock Toolkit Pro for Visual C++ MFC 零售版
  9. 厉害了,大米云Linux搭建Wordpress环境
  10. matlab 奈 线,用MATLAB绘制Nyquist图
  11. mac上面使用siege并发测试工具
  12. 『Mysql』汇总Mysql索引失效的常见场景
  13. SCHMIDT SS 20.260 506690传感器ALRE JTF-1/12湿度检测器
  14. presto web UI介绍
  15. python 大智慧接口_大智慧股票本地数据读取接口(含源码)
  16. c# chart 各个属性_C# Chart详细解析(待)
  17. 计算机装固态硬盘会不会卡,加装SSD固态硬盘,电脑还是卡?揭晓背后原因,教你10S开机!...
  18. 马斯克的脑机接口,一块树莓派就能做出来?
  19. 读书/看电影/看电视剧
  20. 搜狗拼音输入法7.2c正式版(支持win8)_去广告优化版

热门文章

  1. 多商户酒店预订小程序PMS管理系统成品源码
  2. 程序员代码面试指南:IT名企算法与数据结构题目最优解(第2版) 左程云
  3. 网关支付、银联代扣通道、快捷支付、银行卡支付分别是怎么样进行支付的?
  4. 数据结构和算法(C语言版)期末速成基础不挂科补考
  5. Ubuntu 22.04下以SOEM为EtherCAT主站的驱动电机例子
  6. zepto.js学习
  7. getch方法_c语言中中getch()函数为什么不起作用?
  8. ssm-学子商城-项目第一天
  9. 测试用例设计方法--正交表法(工具allpairs)
  10. visio阵列_用Visio2010制作最专业的技术流程图教程