数据科学的统计学知识笔记
1.描述统计
1.数字特征(描述统计)
- 集中趋势
- 众数
- 中位数
- 四分位数
- 平均数:样本平均数( x ˉ \bar{x} xˉ)与总体平均数( μ \mu μ)
- 离中趋势(离散趋势)
- 异众比率:非众数组的频数占总频数的比例,用于衡量众数的代表性
- 四分位差:上四分位数与下四分位数之差,用于衡量中位数的代表性
- 方差和标准差:总体方差 σ 2 \sigma^2 σ2(总体标准差 σ \sigma σ)或样本方差 s 2 s^2 s2(样本标准差 s s s)(注意样本方差计算时除以n-1)
- 标准化值: z i = x i − x ˉ s z_i = \frac{x_i - \bar{x}}{s} zi=sxi−xˉ
- 经验法则:对称分布时3 σ \sigma σ 原则
- 切比雪夫不等式
- 离散系数(变异系数): 标准差 算数平均数 \frac{\text{标准差}}{算数平均数} 算数平均数标准差
2.推断统计
推断统计学:通过从总体中抽取样本构造适当的统计量,由样本性质推断关于总体的性质。统计量是从样本中得出的一些代表性的数字(依赖于总体分布的未知参数不属于统计量,比如期望和方差),是推断统计的基础。
2.1抽样分布
抽样分布是指统计量的分布,从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。
- 卡方分布:随机变量 X 1 , X 2 , ⋯ , X n i i d X_1,X_2,\cdots,X_n iid X1,X2,⋯,Xniid, X i ∼ N ( 0 , 1 ) X_i \sim N(0,1) Xi∼N(0,1),则 Z = ∑ i = 1 n X i 2 ∼ χ 2 ( n ) Z= \sum\limits_{i=1}^n X_i^2 \sim \chi^2(n) Z=i=1∑nXi2∼χ2(n)
- 应用:
- 参数估计:由样本方差推断总体方差:总体均值 μ \mu μ未知,对 σ 2 \sigma^2 σ2区间估计, T = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) T = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) T=σ2(n−1)S2∼χ2(n−1)
- χ 2 \chi^2 χ2拟合检验法:用来检验总体是否具有某一个指定的分布或属于某一个分布族(因为有时不能知道总体服从什么类型的分布)
- 应用:
- t分布:随机变量 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) , X与Y独立 X \sim N(0,1), Y \sim \chi^2(n), \text{X与Y独立} X∼N(0,1),Y∼χ2(n),X与Y独立,则 Z = X Y n ∼ t ( n ) Z = \frac{X}{\sqrt{\frac{Y}{n}}} \sim t(n) Z=nY X∼t(n)
- 应用:t检验
- 参数估计:小样本下,由样本平均数推断总体平均数,总体方差 σ 2 \sigma^2 σ2未知,对 μ \mu μ区间估计, T = X ˉ − μ S n ∼ t ( n − 1 ) T= \frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}} \sim t(n-1) T=n SXˉ−μ∼t(n−1)
- 两个正态总体均值差 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2的置信区间(两正态总体方差未知)
- 回归系数的显著性检验
- 应用:t检验
- F分布:随机变量 X ∼ χ 2 ( m ) , Y ∼ χ 2 ( n ) , X 与 Y 独立 X\sim \chi^2(m),Y\sim \chi^2(n),X与Y独立 X∼χ2(m),Y∼χ2(n),X与Y独立,则 Z = X / m Y / n ∼ F ( m , n ) Z = \frac{X/m}{Y/n} \sim F(m,n) Z=Y/nX/m∼F(m,n)
- 应用:
- 方差齐性检验:两个正态总体方差比 σ 1 2 σ 2 2 \frac{\sigma_1^2}{\sigma_2^2} σ22σ12的置信区间(两正态总体均值未知)
- 线性回归方程整体的显著性检验:判断线性关系是否显著
- 应用:
2.2 参数估计
- 点估计:用样本统计量的某个取值直接作为总体参数的估计值
- 区间估计:根据一定的正确度与精确度(置信水平= 1 − α 1-\alpha 1−α)的要求,构造出适当的区间(置信区间),作为总体分布的未知参数或参数的函数的真值所在范围的估计。
2.3 假设检验
在总体的分布函数完全未知或只知其形式、但不知其参数的情况下,为了推断总体的某些未知特征,提出某些关于总体的假设,根据样本对提出的假设做出接受还是拒绝的决策。
区间估计和假设检验之间的关系:
区间估计: ( θ ‾ , θ ˉ ) 是 θ 的一个置信水平为 1 − α 的置信区间, Θ 是 θ 取值范围, ∀ θ ∈ Θ , P ( θ ‾ < θ < θ ˉ ) ≥ 1 − α (\underline{\theta},\bar{\theta})是\theta的一个置信水平为1-\alpha的置信区间,\Theta是\theta取值范围,\forall \theta \in \Theta,P(\underline{\theta}<\theta<\bar{\theta}) \ge 1-\alpha (θ,θˉ)是θ的一个置信水平为1−α的置信区间,Θ是θ取值范围,∀θ∈Θ,P(θ<θ<θˉ)≥1−α
双边检验:显著性水平为 α \alpha α, H 0 : θ = θ 0 , H 1 : θ ≠ θ 0 H_0:\theta=\theta_0, H_1:\theta \neq \theta_0 H0:θ=θ0,H1:θ=θ0,有 P ( ( θ ≤ θ ‾ ) ∪ ( θ ≥ θ ˉ ) ) = α P{((\theta \le \underline\theta) \cup (\theta \ge \bar{\theta}))}=\alpha P((θ≤θ)∪(θ≥θˉ))=α,即拒绝域为 ( θ ≤ θ ‾ ) ∪ ( θ ≥ θ ˉ ) (\theta \le \underline\theta) \cup (\theta \ge \bar{\theta}) (θ≤θ)∪(θ≥θˉ)
非参数检验:总体分布未知(因此不涉及总体分布的参数),检验能力较弱
- 卡方检验:分析列联表中行变量和列变量是否互相独立
3. 基本分析方法
相关分析:相关分析最全总结
- 相关系数(或皮尔逊相关系数):用于Numerical Data,比如x和y
- 相关系数的显著性检验(t检验)
- 卡方检验:用于Nominal Data,比如二乘二列联表分析是否吸烟和性别的关系
- 相关系数(或皮尔逊相关系数):用于Numerical Data,比如x和y
回归分析:先进行相关分析确定变量存在相关性,然后使用回归分析确定数据关系的具体形式
- 种类:一元回归,多元回归,线性回归,非线性回归
- 判定系数:衡量了回归直线对观测数据的拟合优度
R = S S R S S T = ∑ i = 1 n ( y i ^ − y ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 R=\frac{SSR}{SST}=\frac{\sum\limits_{i=1}^n (\hat{y_i} - \bar{y})^2}{\sum\limits_{i=1}^n (y_i - \bar{y})^2} R=SSTSSR=i=1∑n(yi−yˉ)2i=1∑n(yi^−yˉ)2 - 线性回归方程整体的显著性检验(F检验):判断线性关系是否显著
- 回归系数的显著性检验(t检验)
方差分析:分析类型自变量(定类数据)X和数值型因变量(定量数据)Y之间的关系,比如电脑品牌和销量的关系,通过检验各总体的均值是否相等来判断X和Y是否有显著影响
数学描述为: 检验 s 个总体 N ( μ 1 , σ 2 ) , ⋯ , N ( μ s , σ 2 ) 的均值是否相等,即检验假设 H 0 : μ 1 = μ 2 = ⋯ μ s , H 1 : μ 1 , μ 2 , ⋯ , μ s 不全相等,并做出未知参数 μ 1 , μ 2 , ⋯ , μ s , σ 2 的估计 检验s个总体N(\mu_1,\sigma^2),\cdots,N(\mu_s,\sigma^2)的均值是否相等,即检验假设H_0:\mu_1=\mu_2=\cdots\mu_s,H_1:\mu_1,\mu_2,\cdots,\mu_s不全相等,并做出未知参数\mu_1,\mu_2,\cdots,\mu_s,\sigma^2的估计 检验s个总体N(μ1,σ2),⋯,N(μs,σ2)的均值是否相等,即检验假设H0:μ1=μ2=⋯μs,H1:μ1,μ2,⋯,μs不全相等,并做出未知参数μ1,μ2,⋯,μs,σ2的估计
基本思想是采用方差对比随机误差和系统误差的方法检验均值是否相等
分类分析:机器学习分类、回归相关算法
聚类分析:机器学习聚类算法
时间序列分析
关联规则分析
4.参考
统计学学习笔记重点总结
概率论与数理统计-CoffeeCat
数据科学的统计学知识笔记相关推荐
- 数据科学和统计学_数据科学中的统计
数据科学和统计学 统计 (Statistics) Statistics are utilized to process complex issues in reality with the goal ...
- 【推荐】Github 上的一份数据科学相关的知识速查表, 标星17K多!!
[ 项目连接: abhat222 / Data-Science--Cheat-Sheet ] 或者参考[哈佛大学博士生Sam整理的博文:机器学习资料,包括了数据基础.几何.概率论.统计学习.深度 ...
- 数据科学和人工智能技术笔记 十三、树和森林
十三.树和森林 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 Adaboost 分类器 # 加载库 from sklearn.ensemble import AdaB ...
- 数据科学和人工智能技术笔记 十二、逻辑回归
十二.逻辑回归 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 C 超参数快速调优 有时,学习算法的特征使我们能够比蛮力或随机模型搜索方法更快地搜索最佳超参数. sci ...
- 数据科学和人工智能技术笔记 七、特征工程
七.特征工程 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 稀疏特征矩阵上的降维 # 加载库 from sklearn.preprocessing import St ...
- 【数据科学】kNN算法笔记
kNN的主要思想:根据某个对象的属性值找到相似的对象们,让对象们一起投票决定这个对象属于哪一类. 这里银行的信息是,根据属性值找到的对象们,并不是来源于一个类,如果是一个类的话,直接将这个待分类对象归 ...
- python数据科学用法_Matplotlib 使用 - 《Python 数据科学手册》学习笔记
一.引入 import matplotlib as mpl import matplotlib.pyplot as plt 二.配置 1.画图接口 Matplotlib 有两种画图接口: (1)一个是 ...
- 数据科学和人工智能技术笔记 二十一、统计学
二十一.统计学 作者:Chris Albon 译者:飞龙 协议:CC BY-NC-SA 4.0 贝塞尔校正 贝塞尔的校正是我们在样本方差和样本标准差的计算中使用 n−1n-1n−1 而不是 nnn 的 ...
- 数据库技术:数据存储和查询知识笔记
1.存储管理器 存储管理器作用:负责数据库中数据的存查询和更新.存储管理器负责和文件系统交互,将不同的DML语句翻译成底层文件系统命令,通过这种方式原始数据就通过文件系统存储在磁盘上. 存储管理器是存 ...
最新文章
- 数据中台全景架构及模块解析
- 数组中没有给初始值_Array中的reduce()、filter()、map()几张图搞懂
- 国内linux内核镜像仓库,国内较快的maven仓库镜像
- MySQL | 数据库的六种约束、表的关系、三大范式
- python框架flask_Python开发框架Flask-阿里云开发者社区
- Mac备份工具:Carbon Copy Cloner Mac支持m1
- Flask--模板渲染和参数传递
- ijkplayer中遇到的问题汇总
- 深入解析ORACLE字符集
- 手把手分析 mfc 程序创建 代码执行流程
- GigE Vision网络相机
- S5p4418平台AP6212 WIFI稳定性的解决过程
- 天梯图excl_Excel版CPU天梯图 方便打印.xls
- 【CNN+VIT】LocalViT: Bringing Locality to Vision Transformers
- 每个人都会经历一段迷茫
- 计算机的录像功能在哪里找,电脑录像功能在哪
- 平面设计主要是学什么?平面设计主要有哪些内容?——黎乙丙
- ijkplayer源码---音频播放
- 字符串匹配 (KMP)
- Java学习记录 : 画板的实现
热门文章
- 安川服务器报b33怎么维修,YASKAWA安川伺服报警A10 A41 A32 AC9 F50 b33没显示等维修
- Java基础练习题~输出100以内能同时被3和5整除的数.
- 6.查询学过编号“001”并且也学过编号“002”课程的同学的学号、姓名
- sklearn.datasets中的几个函数make_moons(), make_circles(), make_classification()
- 比较探讨T-Sql(二)
- 中国金融科技企业出海现重磅玩家 金融壹账通交半年“成绩单“
- 屏幕显示密度dpi_屏幕密度和DPI的对应关系
- vue里页面的缓存详解
- 东南亚有多少个国家?
- 图像处理就业前景—附北京部分企业名单