【吃瓜笔记】第一章第二章
【吃瓜笔记】第一章&第二章
- 一、基本术语
- 二、模型评估与选择
- 1、评估方法
- (1)、留出法
- (2)、交叉验证法
- (3)、自助法
- 2、选择依据
- (1)、性能度量
- 1)、错误率与精度
- 2)、查准率P、查全率R与 F 1 F1 F1
- 3)、ROC与AUC
- 4)、代价敏感错误和代价曲线
- (2)、比较检验
- (3)、偏差与方差
一、基本术语
在此术语不做解释,自行回忆,如果想不起来就去翻看资料回顾
示例/特征向量/样本
属性/特征
属性空间/样本空间/输入空间
学习/训练
训练样本/训练集
学得模型/假设
标记/样例/标记空间/输出空间
分类/回归
二分类(正类/反类)/多分类
测试/测试样本
聚类/簇
监督学习/无监督学习
划分依据:___________
泛化能力
归化/演绎:一般、特殊
概念学习/概念形成
版本空间
归纳偏好/偏好
奥卡姆剃刀
“没有免费的午餐”定理/NFL
错误率/精度/误差/训练误差/泛化误差
过拟合/欠拟合:无法彻底避免的是?
验证集
性能度量
查准率/查全率
真正例/假反例/真反例/假反例
二、模型评估与选择
1、评估方法
(1)、留出法
bold-out 直接将数据集D划分为两个互斥的集合,分别作为训练集S、测试集T D = S ∪ T D=S\cup T D=S∪T, S ∩ T = ∅ S \cap T = \emptyset S∩T=∅。
需要注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分引入额外的偏差而对最终结果产生影响
分层采样:在划分过程保留类别比例的采样方式
单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果
(2)、交叉验证法
将数据集D划分为k个大小相似的互斥子集,每一个子集都尽可能保持数据分布的一致性。每次使用k-1个子集的并集作为训练集,余下的那个子集作为测试集。最后返回这k个测试结果的均值。
交叉验证评估结果的稳定性和保真性在很大程度上取决于k的取值,“k折交叉验证”(k-fold cross validation)
(3)、自助法
以自助采样为基础,给定包含m个样本的数据,有放回的随机从数据集D进行采样,并将之放在D‘,重复m次后获得一个包含m个样本的数据集D‘
样本在m次采样中始终不被采到的概率: lim m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 \lim_{m \to \infty}(1-\frac{1}{m})^{m}= \frac{1}{e} \approx0.368 limm→∞(1−m1)m=e1≈0.368
包外估计:使用数据集中为出现在训练集中的数据测试得到的结果
自助法在数据集较小、难以有效划分训练/测试集时很有用,从促使数据集产生多个不同的训练集,这对集成学习等方法有很大的好处,但是这种方法也会引入估计偏差。
2、选择依据
(1)、性能度量
衡量模型泛化能力的评价标准
回归任务最常用的性能度量:均方误差
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D) = \frac{1}{m} \sum_{i=1}^{m}(f(x_{i})-y_{i})^{2} E(f;D)=m1i=1∑m(f(xi)−yi)2
对于数据分布 D D D和概率密度函数 p ( ⋅ ) p(·) p(⋅)均方差:
E ( f ; D ) = ∫ x ~ D ( f ( x ) − y ) 2 p ( x ) d x E(f;D)= \int_{x~D}(f(x)-y)^{2}p(x)dx E(f;D)=∫x~D(f(x)−y)2p(x)dx
1)、错误率与精度
错误率
离散: E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) 连续: E ( f ; D ) = ∫ x ∼ D I ( f ( x ) ≠ y ) p ( x ) d x 离散:E(f;D)= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i}) \neq y_{i}) \\ 连续:E(f;D)=\int_{x \sim D}\mathbb I (f(x) \neq y)p(x)dx 离散:E(f;D)=m1i=1∑mI(f(xi)=yi)连续:E(f;D)=∫x∼DI(f(x)=y)p(x)dx
精度
离散: a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D 连续: a c c ( f ; D ) = ∫ x ∼ D I ( f ( x ) = y ) p ( x ) d x = 1 − E ( f ; D ) \begin{equation}\begin{split} 离散:acc(f;D) &= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i})=y_{i}) \\ &=1-E(f;D\\ 连续:acc(f;D) &= \int_{x \sim D} \mathbb I (f(x)=y)p(x)dx\\ &= 1-E(f;D) \end{split}\end{equation} 离散:acc(f;D)连续:acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D=∫x∼DI(f(x)=y)p(x)dx=1−E(f;D)
2)、查准率P、查全率R与 F 1 F1 F1
查准率: P = T P T P + F P 查全率: R = T P T P + F N 查准率 :P = \frac{TP}{TP+FP}\\ 查全率 :R = \frac{TP}{TP+FN} 查准率:P=TP+FPTP查全率:R=TP+FNTP
一般来说,查全率高时,查准率往往偏低;查准率高时,查全率往往偏低。
“P-R曲线”:以为查准率纵轴、查全率为横轴作图,就得到了查准率-查全率曲线
若学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可以断言后者性能优于前者
“平衡点(Break-Even Point,BEP):查准率=查全率时的取值。
F 1 F1 F1是基于查全率与查准率的调和平均值定义的
F 1 F1 F1度量的一般形式:
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta}= \frac{(1+{\beta}^2) \times P \times R}{({\beta}^2 \times P)+R}\\ Fβ=(β2×P)+R(1+β2)×P×R宏查全率/宏查准率/宏 F 1 F1 F1
微查全率/微查准率/微 F 1 F1 F1
3)、ROC与AUC
ROC全称为“受试者工作特性”(Receiver Operating Characteristic)曲线
- ROC曲线的纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR)
T P R = T P T P + F N F P R = F P T N + F P TPR= \frac{TP}{TP+FN}\\ FPR= \frac{FP}{TN+FP} TPR=TP+FNTPFPR=TN+FPFP
ROC曲线图对角线对应于“随机猜测模型”,(0,1)对应于将所有正例排在所有反例之前的“理想模型”
与“P-R曲线”相似,若学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可以断言后者性能优于前者
AUC(Area Under ROC Curve)是指ROC曲线下的面积
A U C = 1 − l r a n k l r a n k = 1 m + + m − ∑ x + ∈ D + ∑ x − ∈ D − ( I ( f ( x + ) < f ( x − ) ) + 1 2 I ( f ( x + ) = f ( x − ) ) ) AUC = 1-l_{rank}\\ l_{rank}= \frac{1}{{m}^+ +{m}^-} \sum_{{x}^+ \in {D}^+} \sum_{{x}^- \in {D}^-}(\mathbb I (f(x^+) < f(x^-))+ \frac{1}{2} \mathbb I (f(x^+) = f(x^-))) AUC=1−lranklrank=m++m−1x+∈D+∑x−∈D−∑(I(f(x+)<f(x−))+21I(f(x+)=f(x−)))
l r a n k l_{rank} lrank在几何意义上可以看作ROS曲线与y轴围成的面积
4)、代价敏感错误和代价曲线
为权衡不同类型错误造成的不同损失,可为错误赋予“非均等代价(unequal cost),以此达成“总体代价”(total cost)最小化。
代价曲线,横轴为正例概率代价(取值为[0,1]),纵轴为归一化代价(取值为[0,1])。ROC曲线上每一点对应了代价平面上的一条线段,将ROC曲线上的每个点转为代价平面上的一条线段,然后取所有曲线的下界,围成的面积即为在所有条件下学习器的期望总体代价。
(2)、比较检验
统计假设检验(hypothesis test)
假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想
“t检验”
双边假设
交叉验证t检验
McNemar检验
Friendman检验和Nemenyi后续检验
(3)、偏差与方差
泛化误差可分解为偏差、方差和噪音之和
E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ϵ 2 E(f;D)= bias^2(x)+var(x)+ \epsilon^2 E(f;D)=bias2(x)+var(x)+ϵ2
方差:
v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) 2 ] var(x) = \mathbb{E}_{D} [(f(x;D)- \overline f(x))^2] var(x)=ED[(f(x;D)−f(x))2]
噪音:
ϵ 2 = E D [ ( y D − y ) 2 ] \epsilon^2 = \mathbb{E}_{D} [(y_{D}-y)^2] ϵ2=ED[(yD−y)2]
偏差:期望输出与真实标记的差别
b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x) = (\overline f (x)-y)^2 bias2(x)=(f(x)−y)2
偏差-方差窘境
【吃瓜笔记】第一章第二章相关推荐
- 《西瓜书》吃瓜笔记1、2章
基本术语 模型: 从数据中学到的结果(泛指) 学习算法: 使用计算机从数据中产生"模型"的算法 属性: 反应事件或对象在某方面的表现或性质的事项 记录: 一组属性对应取值的实例 样 ...
- 《算法帝国》第一章第二章读书笔记
heeeeeeeeeeeeeeeeeeeeello! 好像有半个月都没好好写笔记了,经历了两次面试,一次败在单面,一次败在群面,哈啊-说明还完全有待努力! 稍微研究了一下,这本书好像并不需要什么代码记 ...
- 【Git】版本控制管理(第二版) 前言 第一章 第二章
版本控制管理 前言 第一章 第二章 资源 前言 本书结构 第一章 介绍 总结在开头 1.1 背景 1.2 Git的诞生 1.3 先例 1.4 时间线 第二章 安装Git 2.1 使用Linux上的二进 ...
- Day1ps设计基础作业第一章第二章
Day1 ps设计基础作业第一章第二章 1.1工作区和工作流程 3种调整人像照片亮度的方式:1图像-调整-亮度/对比度,2图像-调整-色阶,3获取图像亮度+混合模式,通道(右下)按ctrl RGB的缩 ...
- Java 北大青鸟 第一学期 第二章 上机练习
Java 北大青鸟 第一学期 第二章 上机练习 手中牌互换 华氏度摄氏度 银行定期储蓄业务 数据类型 源文件下载 手中牌互换 public static void main(String[] args ...
- 第一篇第二章火灾的基础知识
沿外墙面蔓延的情况 需要注意:层高要足够高 要不下层着火会直接蔓延到上层 喷头系统必须在轰然之前进行灭火 否则灭火失败 2019/1/3 [录播]2018一消精华班-实务-一级消防工程师-环球网校 h ...
- 谈谈在计算机系统中引入操作系统,初中信息技术第一册第二章第1节《操作系统简介》教学设计...
广州市初中信息技术第一册第二章第1节<操作系统简介>教学设计 一.学习者分析 学生通过第一章的学习,对计算机的软.硬件知识有了初步的了解,同时对操作系统的作用也有了简单的认识.但由于学生普 ...
- CSAPP笔记 第一章第二章
目录 第一章 一个典型的硬件组成 从键盘上读取hello指令编辑 存储器结构示例 相对性能公式 计算机系统抽象 第二章--信息的表示和处理 按位 & | ^ ~ 与逻辑运算 &&a ...
- 吃瓜教程task02 第3章 线性模型
第三章 线性模型 2022/5/16 雾切凉宫 至3.2节/视频P3 文章目录 第三章 线性模型 3.1 基本形式 3.2 线性回归 P2 一元线性回归 P2.1 最小二乘法 P2.2 极大似然估计 ...
最新文章
- java centos7_centos7.0安装java环境
- SharePoint 2013 配置HTTPS(SSL)
- PostgreSQL 8.2.5 安装为 Windows 服务 (Service)
- c++枚举类型(二) 命名空间
- 千万级、百万级数据删除优化
- CSS3中:nth-child和:nth-of-type的区别深入理解。 关于:nth-child和:nth-of-type的区别之前一直没太注意,经深入理解才发现里面其实暗藏玄机...
- Automatically populating $HTTP_RAW_POST_DATA is deprecated and will be removed in a future version.
- 如何复制图文消息封面图片?正文没显示
- 【投资策略】2022 年大类资产配置展望:稳中求进-中金公司
- Java中的for循环和JavaScript中的for循环差别初探(02)
- MAC地址-集线器-ARP
- Python综合知识随笔
- php正则判断数字和英文,PHP正则匹配中英文、数字及下划线的方法【用户名验证】...
- 学计算机的男孩情商高吗,男孩情商高的特征,家长快来看看
- 公务员考试情景面试题设计技术
- springboot中Error creating bean with name ‘keyExpiredListener‘ defined in f
- 知云文献翻译 for mac
- 3ds Max 2014安装SupperMap 插件
- 2020程序员大厂面试流程,面试游刃有余!
- hjr-SQL-ORECAL