1.描述统计

1.数字特征（描述统计）

集中趋势
1. 众数
2. 中位数
3. 四分位数
4. 平均数：样本平均数（ x ˉ \bar{x} xˉ）与总体平均数（ μ \mu μ）
离中趋势（离散趋势）
异众比率：非众数组的频数占总频数的比例，用于衡量众数的代表性
四分位差：上四分位数与下四分位数之差，用于衡量中位数的代表性
方差和标准差：总体方差 σ 2 \sigma^2 σ2（总体标准差 σ \sigma σ）或样本方差 s 2 s^2 s2（样本标准差 s s s）（注意样本方差计算时除以n-1）
- 标准化值： z i = x i − x ˉ s z_i = \frac{x_i - \bar{x}}{s} zi=sxi−xˉ
- 经验法则：对称分布时3 σ \sigma σ 原则
- 切比雪夫不等式
离散系数（变异系数）：标准差算数平均数 \frac{\text{标准差}}{算数平均数} 算数平均数标准差

2.推断统计

推断统计学：通过从总体中抽取样本构造适当的统计量，由样本性质推断关于总体的性质。统计量是从样本中得出的一些代表性的数字（依赖于总体分布的未知参数不属于统计量，比如期望和方差），是推断统计的基础。

2.1抽样分布

抽样分布是指统计量的分布，从已知的总体中以一定的样本容量进行随机抽样，由样本的统计数所对应的概率分布称为抽样分布。

卡方分布：随机变量 X 1 , X 2 , ⋯ , X n i i d X_1,X_2,\cdots,X_n iid X1,X2,⋯,Xniid， X i ∼ N ( 0 , 1 ) X_i \sim N(0,1) Xi∼N(0,1)，则 Z = ∑ i = 1 n X i 2 ∼ χ 2 ( n ) Z= \sum\limits_{i=1}^n X_i^2 \sim \chi^2(n) Z=i=1∑nXi2∼χ2(n)
- 应用：
  - 参数估计：由样本方差推断总体方差：总体均值 μ \mu μ未知，对 σ 2 \sigma^2 σ2区间估计， T = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) T = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) T=σ2(n−1)S2∼χ2(n−1)
  - χ 2 \chi^2 χ2拟合检验法：用来检验总体是否具有某一个指定的分布或属于某一个分布族（因为有时不能知道总体服从什么类型的分布）
t分布：随机变量 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) , X与Y独立 X \sim N(0,1), Y \sim \chi^2(n), \text{X与Y独立} X∼N(0,1),Y∼χ2(n),X与Y独立，则 Z = X Y n ∼ t ( n ) Z = \frac{X}{\sqrt{\frac{Y}{n}}} \sim t(n) Z=nY X∼t(n)
- 应用：t检验
  - 参数估计：小样本下，由样本平均数推断总体平均数，总体方差 σ 2 \sigma^2 σ2未知，对 μ \mu μ区间估计， T = X ˉ − μ S n ∼ t ( n − 1 ) T= \frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}} \sim t(n-1) T=n SXˉ−μ∼t(n−1)
  - 两个正态总体均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2的置信区间（两正态总体方差未知）
  - 回归系数的显著性检验
F分布：随机变量 X ∼ χ 2 ( m ) , Y ∼ χ 2 ( n ) , X 与 Y 独立 X\sim \chi^2(m),Y\sim \chi^2(n),X与Y独立 X∼χ2(m),Y∼χ2(n),X与Y独立，则 Z = X / m Y / n ∼ F ( m , n ) Z = \frac{X/m}{Y/n} \sim F(m,n) Z=Y/nX/m∼F(m,n)
- 应用：
  - 方差齐性检验：两个正态总体方差比 σ 1 2 σ 2 2 \frac{\sigma_1^2}{\sigma_2^2} σ22σ12的置信区间（两正态总体均值未知）
  - 线性回归方程整体的显著性检验：判断线性关系是否显著

2.2 参数估计

点估计：用样本统计量的某个取值直接作为总体参数的估计值
区间估计：根据一定的正确度与精确度（置信水平= 1 − α 1-\alpha 1−α）的要求，构造出适当的区间（置信区间），作为总体分布的未知参数或参数的函数的真值所在范围的估计。

2.3 假设检验

在总体的分布函数完全未知或只知其形式、但不知其参数的情况下，为了推断总体的某些未知特征，提出某些关于总体的假设，根据样本对提出的假设做出接受还是拒绝的决策。

区间估计和假设检验之间的关系：

区间估计： ( θ ‾ , θ ˉ ) 是 θ 的一个置信水平为 1 − α 的置信区间， Θ 是 θ 取值范围， ∀ θ ∈ Θ ， P ( θ ‾ < θ < θ ˉ ) ≥ 1 − α (\underline{\theta},\bar{\theta})是\theta的一个置信水平为1-\alpha的置信区间，\Theta是\theta取值范围，\forall \theta \in \Theta，P(\underline{\theta}<\theta<\bar{\theta}) \ge 1-\alpha (θ,θˉ)是θ的一个置信水平为1−α的置信区间，Θ是θ取值范围，∀θ∈Θ，P(θ<θ<θˉ)≥1−α

双边检验：显著性水平为 α \alpha α， H 0 : θ = θ 0 , H 1 : θ ≠ θ 0 H_0:\theta=\theta_0, H_1:\theta \neq \theta_0 H0:θ=θ0,H1:θ=θ0，有 P ( ( θ ≤ θ ‾ ) ∪ ( θ ≥ θ ˉ ) ) = α P{((\theta \le \underline\theta) \cup (\theta \ge \bar{\theta}))}=\alpha P((θ≤θ)∪(θ≥θˉ))=α，即拒绝域为 ( θ ≤ θ ‾ ) ∪ ( θ ≥ θ ˉ ) (\theta \le \underline\theta) \cup (\theta \ge \bar{\theta}) (θ≤θ)∪(θ≥θˉ)
非参数检验：总体分布未知（因此不涉及总体分布的参数），检验能力较弱
- 卡方检验：分析列联表中行变量和列变量是否互相独立

3. 基本分析方法

相关分析：相关分析最全总结
1. 相关系数（或皮尔逊相关系数）：用于Numerical Data，比如x和y
  - 相关系数的显著性检验（t检验）
2. 卡方检验：用于Nominal Data，比如二乘二列联表分析是否吸烟和性别的关系
回归分析：先进行相关分析确定变量存在相关性，然后使用回归分析确定数据关系的具体形式
- 种类：一元回归，多元回归，线性回归，非线性回归
- 判定系数：衡量了回归直线对观测数据的拟合优度
  R = S S R S S T = ∑ i = 1 n ( y i ^ − y ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R=\frac{SSR}{SST}=\frac{\sum\limits_{i=1}^n (\hat{y_i} - \bar{y})^2}{\sum\limits_{i=1}^n (y_i - \bar{y})^2} R=SSTSSR=i=1∑n(yi−yˉ)2i=1∑n(yi^−yˉ)2
- 线性回归方程整体的显著性检验（F检验）：判断线性关系是否显著
- 回归系数的显著性检验（t检验）
方差分析：分析类型自变量（定类数据）X和数值型因变量（定量数据）Y之间的关系，比如电脑品牌和销量的关系，通过检验各总体的均值是否相等来判断X和Y是否有显著影响
- 数学描述为：检验 s 个总体 N ( μ 1 , σ 2 ) , ⋯ , N ( μ s , σ 2 ) 的均值是否相等，即检验假设 H 0 : μ 1 = μ 2 = ⋯ μ s , H 1 : μ 1 , μ 2 , ⋯ , μ s 不全相等，并做出未知参数 μ 1 , μ 2 , ⋯ , μ s , σ 2 的估计检验s个总体N(\mu_1,\sigma^2),\cdots,N(\mu_s,\sigma^2)的均值是否相等，即检验假设H_0:\mu_1=\mu_2=\cdots\mu_s,H_1:\mu_1,\mu_2,\cdots,\mu_s不全相等，并做出未知参数\mu_1,\mu_2,\cdots,\mu_s,\sigma^2的估计检验s个总体N(μ1,σ2),⋯,N(μs,σ2)的均值是否相等，即检验假设H0:μ1=μ2=⋯μs,H1:μ1,μ2,⋯,μs不全相等，并做出未知参数μ1,μ2,⋯,μs,σ2的估计
- 基本思想是采用方差对比随机误差和系统误差的方法检验均值是否相等
分类分析：机器学习分类、回归相关算法
聚类分析：机器学习聚类算法
时间序列分析
关联规则分析

4.参考

统计学学习笔记重点总结

概率论与数理统计-CoffeeCat

数据科学的统计学知识笔记相关推荐

数据科学和统计学_数据科学中的统计
数据科学和统计学统计 (Statistics) Statistics are utilized to process complex issues in reality with the goal ...
【推荐】Github 上的一份数据科学相关的知识速查表, 标星17K多!!
[ 项目连接: abhat222 / Data-Science--Cheat-Sheet ] 或者参考[哈佛大学博士生Sam整理的博文:机器学习资料,包括了数据基础.几何.概率论.统计学习.深度 ...
数据科学和人工智能技术笔记十三、树和森林
十三.树和森林作者:Chris Albon 译者:飞龙协议:CC BY-NC-SA 4.0 Adaboost 分类器 # 加载库 from sklearn.ensemble import AdaB ...
数据科学和人工智能技术笔记十二、逻辑回归
十二.逻辑回归作者:Chris Albon 译者:飞龙协议:CC BY-NC-SA 4.0 C 超参数快速调优有时,学习算法的特征使我们能够比蛮力或随机模型搜索方法更快地搜索最佳超参数. sci ...
数据科学和人工智能技术笔记七、特征工程
七.特征工程作者:Chris Albon 译者:飞龙协议:CC BY-NC-SA 4.0 稀疏特征矩阵上的降维 # 加载库 from sklearn.preprocessing import St ...
【数据科学】kNN算法笔记
kNN的主要思想:根据某个对象的属性值找到相似的对象们,让对象们一起投票决定这个对象属于哪一类. 这里银行的信息是,根据属性值找到的对象们,并不是来源于一个类,如果是一个类的话,直接将这个待分类对象归 ...
python数据科学用法_Matplotlib 使用 - 《Python 数据科学手册》学习笔记
一.引入 import matplotlib as mpl import matplotlib.pyplot as plt 二.配置 1.画图接口 Matplotlib 有两种画图接口: (1)一个是 ...
数据科学和人工智能技术笔记二十一、统计学
二十一.统计学作者:Chris Albon 译者:飞龙协议:CC BY-NC-SA 4.0 贝塞尔校正贝塞尔的校正是我们在样本方差和样本标准差的计算中使用 n−1n-1n−1 而不是 nnn 的 ...
数据库技术：数据存储和查询知识笔记
1.存储管理器存储管理器作用:负责数据库中数据的存查询和更新.存储管理器负责和文件系统交互,将不同的DML语句翻译成底层文件系统命令,通过这种方式原始数据就通过文件系统存储在磁盘上. 存储管理器是存 ...

数据科学的统计学知识笔记