《深入浅出统计学》要点总结

统计学作为数据分析、数据挖掘、机器学习等众多研究方向的基石,其重要性不言而喻。谁都想学好,但学习过程中,随之而来的各种术语、大量公式,常常会磨灭我们的学习热情。笔者在大学和研究生阶段也曾学习过相关课程,但觉得很枯燥。最近读了Dawn Griffiths的《深入浅出统计学》一书,发现原来乏味的统计理论也能像说故事一样娓娓道来。纵览全书,我总结了一些要点知识如下。

1.信息图形化:第一印象

1.统计的研究步骤
①搜集数据
②分析
③下结论

2.直方图与条形图有什么不一样的地方?
直方图与条形图外观相似,但有两个重要区别。第一,每个长方形面积与频数成比例;第二,图上的长方形之间没有间隔。

3.直方图向下取整的例子
年龄。以19岁为例,即使过了19岁,但不到20岁,也会把他归入19岁。

4.什么是频数密度?
在直方图中,面积等于频数,所以长方形的高度 = 频数 / 长方形的宽度。而频数密度指的是分组数据中的频数的密集度。频数密度 = 频数 / 组距。

5.可视化图形的选择
条形图、直方图、折线图

2.集中趋势的量度:中庸之道

均值是平均数的一种。
异常值会导致数据偏斜,对均值的影响比较大。
其他类型的平均数包括熟悉的中位数、众数等。

3.分散性与变异性的量度:强大的“距”

1.什么是全距?
上界 - 下界,即数据集中的最大数减去最小数。异常值对全距影响的可能性较大。

2.什么是迷你距?
不再度量整个数据集的全距,而是找出全距的一部分——不包含异常值的部分。

3.什么是四分位距?
每两个四分位数之间的距被称为四分位距。
四分位距 = 上四分位数 - 下四分位数。
可以利用四分位距剔除异常值。

4.什么是百分位数?
将一批数据按百分比进行分割,则起分割作用的数值被称为百分位数。

5.如何读懂箱型图?
箱线图显示数据的全距(上界、下界)、四分位距(上四分位数、下四分位数)、中位数。

6.量度变异性的方法
方差、标准差

7.为什么要使用标准分?
标准分,常用 zzz 表示,为我们提供了一种对不同数据集的数据进行比较的方法

4.概率计算:把握机会

1.什么是概率空间?
SSS 被称为概率空间,或称为样本空间,是表示所有可能结果的一种简便表示法。

2.对立事件和互斥事件有什么区别?
对立事件:事件 AAA、BBB 中必定而且只有一个发生。除了 AAA 就是 BBB,没有第三种可能。
互斥事件:事件 AAA 与事件 BBB 不可能同时发生,强调的是“不同时”发生。

3.什么是条件概率?
条件概率用来度量与其他事件的发生情况有关的某个事件的概率。
概率树能够很方便地处理与条件概率相关的问题。

4.全概率公式
P(B)=P(A)×P(B∣A)+P(A′)×P(B∣A′)P(B) = P(A) × P(B | A) + P(A') × P(B | A')P(B)=P(A)×P(B∣A)+P(A′)×P(B∣A′)

5.贝叶斯定理(全概率公式是贝叶斯定理的分母)
P(A∣B)=P(A∩B)P(B)=P(A)×P(B∣A)P(A)×P(B∣A)+P(A′)×P(B∣A′)P(A | B) = \frac{P(A∩B)}{P(B)} = \frac {P(A) × P(B | A)}{P(A) × P(B | A) + P(A') × P(B | A')}P(A∣B)=P(B)P(A∩B)​=P(A)×P(B∣A)+P(A′)×P(B∣A′)P(A)×P(B∣A)​

6.什么是相关事件?什么是独立事件?
如果几个事件互有影响,则为相关事件。如果互不影响,则为独立事件。
对于独立事件有:P(A∣B)=P(A)P(A | B) = P(A)P(A∣B)=P(A) P(A∩B)=P(A)×P(B)P(A ∩ B)=P(A)×P(B)P(A∩B)=P(A)×P(B)

5.离散概率分布的运用:善用期望

1.什么是期望?
期望指出一个变量的典型值或平均值。

2.E(X1+X2)E(X_1+X_2)E(X1​+X2​) 和 E(2X)E(2X)E(2X) 的区别?
X1+X2X_1+X_2X1​+X2​ 表示你正在考虑 XXX 的两个观测值;2X2X2X 表示你有一个观测值,但其可能数值翻倍。即:独立观测和线性变化的区别。

6.排列与组合:排序、排位、排

1.排列与组合的区别?
排列与顺序有关,组合与顺序无关。

7.几何分布、二项分布及泊松分布:坚持离散

1.几何分布
P(X=r)=pqr−1P(X=r) = pq^{r-1}P(X=r)=pqr−1

2.什么时候使用几何分布?
几何分布进行一系列相互独立的试验;每一次试验都既有成功的可能,也有失败的可能,且单次试验的成功概率相同;主要是为了知道取得第一次成功需要进行多少次试验。

3.二项分布
P(X=r)=Cnr×pr×qn−rP(X=r) = C_n^r × p^r × q^{n-r}P(X=r)=Cnr​×pr×qn−r

4.几何分布和二项分布的区别?
相同点:处理的都是独立实验,每次试验或是成功或是失败。差别在于实际要求的结果。
不同点:如果实验次数固定,求成功一定次数的概率,则需使用二项分布;如果感兴趣在取得第一次成功前需要实验多少次,则需使用几何分布。

5.泊松分布
单独事件在给定区间内随机、独立地发生。已知该区间内的事件平均发生次数,且为有限数值。通常用 λλλ 表示。
P(X=r)=e−λλrr!P(X=r) = \frac{e^{-λ}λ^r}{r!}P(X=r)=r!e−λλr​

6.什么时候可以用泊松分布近似替代二项分布?
二项分布中,nnn 足够大,ppp 足够小。

8.正态分布的运用:保持正态

1.概率密度函数
通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指出该概率分布的形状。

2.如何理解正态分布(高斯分布)?
正常情况下的形态。

3.正态概率计算步骤?
①确定分布与范围
②使其标准化
③查找概率

9.再谈正态分布的运用:超越正态

1.什么时候可以用正态分布近似替代二项分布?
某些情况下,二项分布的形状看上去和正态分布的形状十分相似,这样的情况下,可以用正态分布近似替代二项分布。但是因为二项分布是离散分布,而正态分布则是连续分布,所以近似的结果存在误差,需要进行连续性修正。

2.正态分布和泊松分布都能作为二项分布 X~B(n,p)X ~ B(n,p)X~B(n,p) 的近似,一般选用哪一个?
若 np>5np>5np>5 且 nq>5nq>5nq>5,则使用正态分布代替二项分布;
若 n>50n>50n>50 且 p<0.1p<0.1p<0.1,则可以使用泊松分布近似替代二项分布。

3.什么时候可以用正态分布近似替代泊松分布?
随着 λλλ 变大,泊松分布图的外形看起来越来越像正态分布。曲线的主要部分呈合理对称,近似光滑曲线,与正态分布接近。更具体来说,如果 X~P0(λ)X~P_0(λ)X~P0​(λ) 且 λ>15λ>15λ>15,则可以用X~N(λ,λ)X~N(λ,λ)X~N(λ,λ) 进行近似。

10.统计抽样的运用:抽取样本

1.无偏样本、偏倚样本
无偏样本可以代表目标总体,即该样本与总体样本具有相似特性,我们可以利用这些相似特性对总体本身进行判断。

2.抽样空间、目标总体、抽样单位
抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身,因为我们不会抽取抽样空间中的所有对象。
目标总体指的是正在研究的、并且打算为其采集结果的群体。

3.如何选择样本?
简单随机抽样、分层抽样、整群抽样、系统抽样

11.总体和样本的估计:进行预测

1.总体均值、样本均值、点估计量
样本均值被称为总体均值的点估计量,作为一个基于样本数据的计算结果,它给出了总体均值的良好估计。

2.概率和比例
可以认为概率和比例互有关系。总体的成功数目除以总体大小即等于比例,这个算法和用于计算二项分布的概率的算法是一样的。

3.什么是比例的抽样分布?
比例的抽样分布其实是一种概率分布,由所有大小为 n 的可能样本的各种比例构成。如果我们知道这些比例的分布,就能用这个分布求出某一个特定样本的比例的发生概率。
比如,我们能够利用比例的抽样分布求出 “一大盒糖球中的红色糖球比例至少为40%” 的概率。

4.均值的抽样分布,样本均值的概率分布
均值的抽样分布为我们提供了一种计算样本均值的概率的方法。

5.中心极限定理
中心极限定理是指:如果从一个非正态总体 XXX 中取出一个样本,且样本很大,则样本均值 X‾\overline XX 的分布近似为正态分布。
如果总体的均值和方差为 μμμ 和 σ2σ^2σ2,且 nnn 很大,例如大于30,则:X‾~N(μ,σ2/n)\overline X ~ N(μ,σ^2/n)X~N(μ,σ2/n)

使用中心极限定理求出的概率与样本均值有关,而与样本中的数值无关,不需要进行任何连续性修正。

12.置信区间的构建:自信地猜测

1.求解置信区间的步骤:
①选择总体统计量
②求出其抽样分布
③决定置信水平
④求出置信上下限

2.ttt 分布
当总体符合正态分布,σ2σ^2σ2 未知,且可供支配的样本很小时,X‾\overline XX 符合 ttt 分布。
ttt 分布是外形光滑、对称的曲线,确切形状取决于样本大小。当样本很大时,t 分布外形很像正态分布;当样本很小时,曲线较为扁平,有两条粗粗的尾巴。它只有一个参数 ννν,ν=n−1ν = n-1ν=n−1。nnn 为样本大小,ννν 被称为自由度。

13.假设检验的运用:研究证据

1.假设检验,又称显著性检验。

2.假设检验的功效
在 H0H_0H0​ 为假的情况下拒绝 H0H_0H0​ 的概率

3.假设检验的步骤:
①确定要进行检验的假设
②选择检验统计量
③确定用于做决策的拒绝域
④求出检验统计量的p值
⑤查看样本结果是否位于拒绝域内
⑥作出决策

4.备择假设
与原假设对立的断言

5.单尾检验、双尾检验
单尾检验即检验的拒绝域落在可能的数据集一侧,双尾检验即拒绝域一分为二位于数据集的两侧。

6.第一类错误、第二类错误
第一类错误:H0H_0H0​真,但拒绝H0H_0H0​
第二类错误:H0H_0H0​假,但接受H0H_0H0​

14.χ2χ^2χ2分布:继续探讨······

1.χ2χ^2χ2分布的两个主要用途
①检验拟合优度,也就是可以检验一组给定的数据与指定分布的吻合程度。
②检验两个变量的独立性

15.相关与回归:我的线条如何?

1.最小二乘回归法
最小二乘回归法是一种数学方法,可用一条最佳拟合线将一组二变量数据拟合,通过将公式为 y=a+bxy=a+bxy=a+bx 的一条直线与一组数值相拟合,使得误差平方和最小。

2.相关系数
用相关系数衡量直线与数据的拟合度

当然,上面所提到的只是统计学知识入门,如果希望对统计学有更加深入的理解,需要进一步的学习。水滴石穿非一日之功,与君共勉!

【数据分析】《深入浅出统计学》要点总结相关推荐

  1. 【入门】数据分析必备——统计学入门基础知识

    ↑↑↑关注后"星标"简说Python 人人都可以简单入门Python.爬虫.数据分析 简说Python推荐来源:木木自由 作者:小陌One old watch, like brie ...

  2. python数据分析 统计学_Python数据分析之统计学基础(案例:描述统计)

    学习数据分析离不开统计学的相关知识,在这块我自己属于零基础,上学的时候也是文科生没有开设任何数学相关课程,所以选择了<深入浅出统计学>这本书入门,下面对这块基础知识做一些整理. 一.集中趋 ...

  3. 数据分析必备——统计学入门基础知识

    数据说·梦想季 成功的关键在于相信自己有成功的能力.数据之路,与你同行!--数据说·梦想季 导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析 ...

  4. 深入浅出统计学 第四五章 离散概率的计算与分布

    离散概率计算与分布的应用 在原书的这两章离散概率计算与分布的应用,重点在于概念的理解和公式的记忆. 而对于整本书而言,四五六章其实都作为第七章:三种离散概率分布,第八,九章,正态分布(连续概率分布之一 ...

  5. 深入浅出统计学 第二三章 量度

    量度 两类量度: (1) 集中趋势的量度->平均值,中位数,众数 (2) 分散性与变异性的亮度->全距(极值),四分位数(扩展:箱型图),方差与标准差,标准分 获取数据 import pa ...

  6. 深入浅出统计学 第一章 数据的可视化

    序言 在深入浅出统计学的第一张中一共出现了4类图像: 1. 比较基本比例->饼图 2. 比较数值的高低条形图(基本条形图,堆积条形图,分段条形图) 3. 连续数据的对比(等距直方图->频数 ...

  7. 正态分布表怎么查表_《深入浅出统计学》-读书笔记-再谈正态分布的应用

    目录: 橘猫吃不胖:<深入浅出统计学>-读书笔记-正态分布的应用​zhuanlan.zhihu.com <深入浅出统计学>,第九章,再谈正态分布的应用 上一篇提到的都是单一连续 ...

  8. 整理总结:深入浅出统计学——排列与组合

    参考资料:电子工业出版社的<深入浅出统计学> 前言 顺序是概率计算过程中不可避免的事情,通过学习简便方法来完成概率计算的进阶. 本篇目录 参考资料:电子工业出版社的<深入浅出统计学& ...

  9. 深入浅出统计学第七章 几何分布,二项分布,柏松分布

    简介 <深入浅出统计学>第七章详细介绍了三种概率分布及其应用,而我们则将进行程序编写,来计算这三种概率分布. 几何分布 scipy几何分布原文地址 下面是书中一些重要公式的代码实现,此处我 ...

  10. 置信区间构建---商务与经济统计+深入浅出统计学

    目录 置信区间: 置信区间求解步骤: 置信区间求解: 总体均值的置信区间: 总体的标准差已知: 总体的标准差未知: 样本容量的确定 总体比率的置信区间 样本容量的确定 置信区间: 通过点估计量加减一个 ...

最新文章

  1. 【Android FFMPEG 开发】Android Studio 工程配置 FFMPEG ( 动态库打包 | 头文件与函数库拷贝 | CMake 脚本配置 )
  2. 【CQOI2009】叶子的颜色
  3. 最详细易懂的CRC-16校验原理(附源程序)
  4. linux tail 命令,Linux tail命令的巧妙应用
  5. Even for transaction data request, metadata is still needed as prerequisite
  6. 金士顿 datatraveler写保护_【脑洞大开】金士顿推出限量版羽毛球闪存盘
  7. __name__ == '__main__'
  8. c语言node类型_高阶宏的妙用技法,C语言宏你所不知道的聪明技巧
  9. python动画精灵_【python游戏编程之旅】第六篇---pygame中的Sprite(精灵)模块和加载动画...
  10. PyTorch安装问题解决
  11. 支持mysql8的客户端_mysql8 参考手册--mysql客户端帮助
  12. HashMap底层原理面试题
  13. linux ttl信号处理,TTL和带缓冲的TTL信号(详细)
  14. 计算机英语趣味知识竞赛题库,2019年小学四年级英语趣味知识竞赛试题
  15. 【JavaWeb】书城项目之与数据库交互的登录案例实现
  16. 马化腾说视频号是全公司希望
  17. YUV420 Planar 和YUV420 Semi-Planar详解
  18. DCT变换和DFT变换
  19. 服务器制作raid,实战案例——服务器制作raid磁盘阵列并管理
  20. 使用电脑修改apk图标和名字

热门文章

  1. 项目开发文档编写规范
  2. 软件设计模式概述(摘自《研磨设计模式》)
  3. 《线性代数》(同济版)——教科书中的耻辱柱
  4. android rom 刷机包下载地址,谷歌Android5.0 Nexus系列安卓ROM刷机包镜像/驱动下载地址发布...
  5. 迎来智能数据分析的新时代
  6. 传感器实训心得体会_传感器心得体会范文
  7. 高阶篇:4.1.2)QFDII(设计要求逐层分配给各零件)
  8. WPF介绍和一些基础操作
  9. 最新!华为HCIA网络工程师题库精讲(02)
  10. 百度云 java私塾_JAVA私塾-百度云