[第1课] 均值 中位数 众数

  • 均值(平均值) = 数据之和 / 数据个数
  • 中位数 = 数据排序后,处在中间的数(如果两位数取平均值)
  • 众数 = 出现次数最多的数,一组数据可以有多个众数
import numpy as np
import pandas as pd#定义数据
data=np.array([1,2,2,3,3,4])# 均值
print(f'mean(average) = {np.mean(data)}')# 中位数
print(f'median = {np.median(data)}')# 众数
df = pd.DataFrame(data)
print(f'mode = {df[0].mode()}')
mean(average) = 2.5
median = 2.5
mode = 0    2
1    3
dtype: int32

[第2课] 极差 中程数

  • 极差 = 最大数 - 最小数
  • 中程数 = 最大数和最小数的均值
import numpy as np#定义数据
data=np.array([1,2,2,3,3,4])x = np.array([np.max(data), np.min(data)])#最大数
print(f'max = {x[0]}')#最小数
print(f'min = {x[1]}')# 极差
print(f'range = {x[0]-x[1]}')
print(f'range = {np.ptp(data)}')# 中程数
print(f'midrange = {x.sum()/x.size}')
print(f'midrange = {np.mean(x)}')
max = 4
min = 1
range = 3
range = 3
midrange = 2.5
midrange = 2.5

[第3课] 象形统计图

如上图所示:
一滴血代表8个人,
O+型血有8滴,表示的人数为 8×88\times88×8=64人;
O-血型人数为8×28\times28×2=16人

[第4课] 条形图

本节简单不再详述

[第5课] 线形图

本节简单不再详述

[第6课] 饼图

本节简单不再详述

[第7课] 误导人的线形图

本节简单不再详述

[第8课] 茎叶图

上图是12个足球队员的各自得分,总共得多少分?
Stem:得分十位数
Leaf:得分个位数
总计得分:(0+0+2+4+7+7+9) + (11+11+11+13+18) + (20)

[第9课] 箱线图

箱式图,是指—种描述数据分布的统计图,是表述最小值、第一四分位数、中位数、第三四分位数与最大值的一种图形方法。它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息[1]。

饭店老板调查了一些位顾客,他们来的地方距离饭店分别为14,6,3,2,…,10,22,20。用什么图表示这些距离的分布比较直观呢?(箱线图)

首先对这些数据进行排序,得出数据个数为17,最小值为1,最大值为22,中位数为6。

import numpy as np#定义数据
data=np.array([14,6,3,2,4,15,11,8,1,7,2,1,3,4,10,22,20])#排序
data=np.sort(data)
print(f'data = {data}')#数据个数
print(f'size = {data.size}')# 中位数
print(f'median = {np.median(data)}')
data = [ 1  1  2  2  3  3  4  4  6  7  8 10 11 14 15 20 22]
size = 17
median = 6.0

取左边8位数和右边8位数,各取中位数,作为盒子的左(2.5)、右(14)坐标画盒子;最小值(1)作为左边线的坐标点,最大值(22)作为右边线的坐标点,连上盒子;中位数(6)是盒子内部竖线坐标点。

data_left=data[0:8]
print(f'data_left = {data_left}')
print(f'median_left = {np.median(data_left)}')data_right=data[10:]
print(f'data_right = {data_right}')
print(f'median_right = {np.median(data_right)}')
data_left = [1 1 2 2 3 3 4 4]
median_left = 2.5
data_right = [ 8 10 11 14 15 20 22]
median_right = 14.0

如下图所示:


可以用Python绘制箱线图:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pddata = np.array([14, 6, 3, 2, 4, 15, 11, 8, 1, 7, 2, 1, 3, 4, 10, 22, 20])
df = pd.DataFrame({'distance':data})
df.boxplot(patch_artist=True,showmeans=True,
)plt.show()

补充材料:

四分位数:四分位数有三个,在盒子的左右和中间位置,上图分别是Q1=2.5Q1=2.5Q1=2.5、Q2=6Q2=6Q2=6、Q3=12.5Q3=12.5Q3=12.5
四分位数的位置:
假设有n项,那么Q1位置在n+14\frac{n+1}{4}4n+1​、Q2位置在n+12\frac{n+1}{2}2n+1​、Q3位置在3(n+1)4\frac{3(n+1)}{4}43(n+1)​

如果(n+1)不为4的整数倍数,按上述分式计算出来的四分位数位置就带有小数,这时,有关的四分位数就应该是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置距离的远近,距离越近,权数越大,距离越远,权数越小,权数之和等于1。

【例】某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,则三个四分位数的位置分别为:

Q1 => (10+1)/4=2.75
Q2 => (10+1)/2=5.5
Q3 => 3*(10+1)/4=8.25

即变量数列中的第2.75项、第5.5项、第8.25项工人的某种产品产量分别为下四分位数、中位数和上四分位数。即:

Q1 = 0.25*第二项 + 0.75*第三项 = 13.75

参考:https://blog.csdn.net/kevinelstri/article/details/52937236

[第10课] 箱线图2

上图是100棵树的树龄箱线图,问树龄极差是多少,树龄中位数是多少?

由图可以看出:最小值是8,最大值是50,所以极差是50-8=42;中位数就是盒子里的竖线坐标21。

[第11课] 统计:集中趋势

集中趋势 (central tendency) 又称“数据的中心位置”,再次介绍了均值,中位数和众数。见第1课

[第12课] 统计:样本和总体

提出样本和总体的概念。比如求美国所有男性的平均身高,可以抽取部分样本数据计算平均值X‾=∑i=1NxiN=x1+x2+...+xNN\overline{X}={ {\sum\limits_{i=1}^{N}x_i}\over{N} }={x_1+x_2+...+x_N \over N}X=Ni=1∑N​xi​​=Nx1​+x2​+...+xN​​,一定程度上代表了总体均值μ\muμ。

∑\sum∑读作sum

[第13课] 统计:总体方差

方差(variance)用来描述数据和均值之间的偏离程度 。σ2\sigma^2σ2 读作 sigma square

方差公式:σ2=∑i=1N(xi−μ)2N\sigma^2={ {\sum\limits_{i=1}^{N}(x_i-\mu)^2}\over{N} }σ2=Ni=1∑N​(xi​−μ)2​

例如数据 1,2,3,4, 平均值是1+2+33=2{1+2+3\over3}=231+2+3​=2,总体方差是(1−2)2+(2−2)2+(3−2)23=23=0.666...{(1-2)^2+(2-2)^2+(3-2)^2\over3}={2\over3}=0.666...3(1−2)2+(2−2)2+(3−2)2​=32​=0.666...

import numpy as np#定义数据
data=np.array([1,2,3])# 均值
print(f'mean(average) = {np.mean(data)}')# 方差
print(f'variance = {np.var(data)}')
mean(average) = 2.0
variance = 0.6666666666666666

[第14课] 统计:样本方差

样本方差跟总体方差公式不一样:S2=∑i=1n(xi−X‾)2n−1S^2={ {\sum\limits_{i=1}^{n}(x_i-\overline{X})^2}\over{n-1} }S2=n−1i=1∑n​(xi​−X)2​ 注意是n-1而不是n。 详见《彻底理解样本方差为何除以n-1》

例如数据 1,2,3,4, 平均值是1+2+33=2{1+2+3\over3}=231+2+3​=2,样本方差是(1−2)2+(2−2)2+(3−2)23−1=23−1=1{(1-2)^2+(2-2)^2+(3-2)^2\over3-1}={2\over3-1}=13−1(1−2)2+(2−2)2+(3−2)2​=3−12​=1

import numpy as np#定义数据
data=np.array([1,2,3])# 均值
print(f'mean(average) = {np.mean(data)}')# 样本方差
print(f'sample variance = {np.var(data,ddof=1)}')
mean(average) = 2.0
sample variance = 1.0

[第15课] 统计:标准差

标准差 (standard deviation)是表述数据和均值之间的偏离程度的另一个重要标志。它等于方差的平方根。
标准差公式:σ=σ2\sigma=\sqrt{\sigma^2}σ=σ2​
样本标准差公式:S=S2S=\sqrt{S^2}S=S2​

import numpy as np#定义数据
data=np.array([1,2,3])# 方差
print(f'variance = {np.var(data)}')
# 标准差
print(f'standard deviation = {np.std(data)}')# 样本方差
print(f'sample variance = {np.var(data,ddof=1)}')
# 标准差
print(f'sample standard deviation = {np.std(data,ddof=1)}')
variance = 0.6666666666666666
standard deviation = 0.816496580927726
sample variance = 1.0
sample standard deviation = 1.0

[第16课] 统计:诸方差公式

本节课,可汗老师对原始方差公式进行推导,得出如下更简洁的公式。

主要参考资料:

主要参考资料:
视频:《可汗学院统计学》
文章:csdn shangboerds 学习笔记
Jent’s Blog 学习笔记(后来发现的,写得很好,推荐)

可汗学院统计学1-16课笔记相关推荐

  1. 可汗学院统计学17-24课笔记

    [转载请注明出处:https://leytton.blog.csdn.net/article/details/103730081] [第17课] 随机变量介绍 离散随机变量(discrete rand ...

  2. 可汗学院统计学笔记(二)

    1.中心极限定理(Central Limit Theorem) 中心极限定理:假设我们有一个分布,它有定义好的均值和方差.用X表示服从这个分布的变量.进行n次实验(n很大),每次实验得到的结果是对这个 ...

  3. 可汗学院统计学笔记(一)

    基本概念 1.总体(Population)与样本(Sample) 总体是研究对象的整体,通常数目很大,直接对总体进行分析费时费力.因此通过对总体进行抽样得到可以代表总体的样本.注意:采样过程应该是随机 ...

  4. 可汗学院统计学笔记1

    可汗学院:Task0 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 问题 学习内容1:统计学基本知识.二项及泊松分布 内容梗概 均数.中位数.众数.极差.中程数(最大值和最小值的算术平均数) ...

  5. 可汗学院统计学笔记 42-81集

    假设检验 假设检验是推论统计中用于检验统计假设的一种方法.而"统计假设"是可通过观察一组随机变量的模型进行检验的科学假说.一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出 ...

  6. 方差分析 可汗学院统计学 笔记

    总均值,也即几组数据的总均值,等于各组数据均值的均值. 数据的总波动可由组内波动+组间波动来描述 所有数据的离差平方和=组内的离差平方和+组间离差平方和 假设组数为m,组内数据有n个,上面的自由度分别 ...

  7. 可汗学院 统计学(12到34集)

    学习之前,需强调:概率是已知模型和参数,推数据:而统计是已知数据,推模型和参数. 第十二集:样本与总体 首先,为何需要样本呢?因为人类并不能总是获取总体数据,例如:人类的身高数据,全世界每秒都有人出生 ...

  8. 可汉学院python_A可汗学院-统计学python实现1-10

    [第 1集] 均值 中位数 众数平均数(Mean):指在一组数据中所有数据之和再除以这组数据的个数. 中位数(Median):按顺序排列的一组数据中居于中间位置的数,如果观察值有偶数个,通常取最中间的 ...

  9. 可汗学院统计学 task 3

    假设检验 假设检验(Hypothesis Testing):依据一定的假设条件由样本推断总体的一种方法. 基本思想是小概率反证法思想. 小概率思想是指小概率事件(P<0.01或P<0.05 ...

最新文章

  1. 2014---努力才是真天赋
  2. 数字图像处理实验(5):PROJECT 04-01 [Multiple Uses],Two-Dimensional Fast Fourier Transform
  3. python sorted下标_全!Python基础之原生数据类型、判断和循环、函数和文件操作合集...
  4. ElementUI Container布局容器
  5. Linux命令大全(Ubuntu18系统)
  6. WebCore中的渲染机制(二):块和内嵌(Blocks and Inlines)
  7. SAP UI5 应用开发教程之六十 - SAP UI5 地图控件的一些高级用法试读版
  8. Java-Iterator迭代器
  9. vue-quill-editor富文本 回显数据样式失效
  10. Java Media Framework 基础教程
  11. 洛谷P6140 [USACO07NOV]Best Cow Line S
  12. vue+webpack项目调试
  13. 如何使用WordPress搭建网站
  14. ByteV打造智慧建筑可视化管理平台——IBMS智能化集成系统赋予楼宇“智慧大脑
  15. STKMATLAB connect(四)卫星
  16. 微信小程序canvas绘制圆形头像
  17. 计算机体系结构-精简指令集和复杂指令集
  18. 【精】iOS知识树,知识点(包括对象、Block、消息转发、GCD、运行时、runloop、动画、Push、KVO、tableview,UIViewController、提交AppStore)
  19. 使用Aura.Router在PHP中进行Web路由
  20. 惠普电脑诉讼门:矛盾的数字 背后的秘密

热门文章

  1. 项目管理10大知识领域及5大过程
  2. 传奇3的WIL文件格式
  3. 算法时间复杂度的渐进表示法 + 分析窍门
  4. idea生成__jb_old__文件无法删除
  5. 【强烈推荐】十三个鲜为人知的大数据学习网站
  6. JavaScript大体学习思路
  7. 软件版本Alpha、Beta、RC等版本的区别
  8. 使用fiddler 去分析视频网站
  9. unity挂机游戏技术指南 安卓版
  10. 不同种类的单片机通讯分析