【吃瓜笔记】第一章第二章

【吃瓜笔记】第一章&第二章

一、基本术语
二、模型评估与选择
- 1、评估方法
- - （1）、留出法
  - （2）、交叉验证法
  - （3）、自助法
- 2、选择依据
- - （1）、性能度量
  - - 1）、错误率与精度
    - 2）、查准率P、查全率R与 F 1 F1 F1
    - 3）、ROC与AUC
    - 4）、代价敏感错误和代价曲线
  - （2）、比较检验
  - （3）、偏差与方差

一、基本术语

在此术语不做解释，自行回忆，如果想不起来就去翻看资料回顾

示例/特征向量/样本
属性/特征
属性空间/样本空间/输入空间
学习/训练
训练样本/训练集
学得模型/假设
标记/样例/标记空间/输出空间
分类/回归
二分类（正类/反类）/多分类
测试/测试样本
聚类/簇
监督学习/无监督学习

划分依据：___________
泛化能力
归化/演绎：一般、特殊
概念学习/概念形成
版本空间
归纳偏好/偏好
奥卡姆剃刀
“没有免费的午餐”定理/NFL
错误率/精度/误差/训练误差/泛化误差
过拟合/欠拟合：无法彻底避免的是？
验证集
性能度量
查准率/查全率
真正例/假反例/真反例/假反例

二、模型评估与选择

1、评估方法

（1）、留出法

bold-out 直接将数据集D划分为两个互斥的集合，分别作为训练集S、测试集T D = S ∪ T D=S\cup T D=S∪T， S ∩ T = ∅ S \cap T = \emptyset S∩T=∅。

需要注意的是，训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分引入额外的偏差而对最终结果产生影响

分层采样：在划分过程保留类别比例的采样方式

单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果

（2）、交叉验证法

将数据集D划分为k个大小相似的互斥子集，每一个子集都尽可能保持数据分布的一致性。每次使用k-1个子集的并集作为训练集，余下的那个子集作为测试集。最后返回这k个测试结果的均值。

交叉验证评估结果的稳定性和保真性在很大程度上取决于k的取值，“k折交叉验证”（k-fold cross validation）

（3）、自助法

以自助采样为基础，给定包含m个样本的数据，有放回的随机从数据集D进行采样，并将之放在D‘，重复m次后获得一个包含m个样本的数据集D‘

样本在m次采样中始终不被采到的概率： lim ⁡ m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 \lim_{m \to \infty}(1-\frac{1}{m})^{m}= \frac{1}{e} \approx0.368 limm→∞(1−m1)m=e1≈0.368

包外估计：使用数据集中为出现在训练集中的数据测试得到的结果

自助法在数据集较小、难以有效划分训练/测试集时很有用，从促使数据集产生多个不同的训练集，这对集成学习等方法有很大的好处，但是这种方法也会引入估计偏差。

2、选择依据

（1）、性能度量

衡量模型泛化能力的评价标准

回归任务最常用的性能度量：均方误差
E （ f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E（f;D) = \frac{1}{m} \sum_{i=1}^{m}(f(x_{i})-y_{i})^{2} E（f;D)=m1i=1∑m(f(xi)−yi)2
对于数据分布 D D D和概率密度函数 p ( ⋅ ) p(·) p(⋅)均方差：
E ( f ; D ) = ∫ x ～ D ( f ( x ) − y ) 2 p ( x ) d x E(f;D)= \int_{x～D}(f(x)-y)^{2}p(x)dx E(f;D)=∫x～D(f(x)−y)2p(x)dx

1）、错误率与精度

错误率
离散： E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) 连续： E ( f ; D ) = ∫ x ∼ D I ( f ( x ) ≠ y ) p ( x ) d x 离散：E(f;D)= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i}) \neq y_{i}) \\ 连续：E(f;D)=\int_{x \sim D}\mathbb I (f(x) \neq y)p(x)dx 离散：E(f;D)=m1i=1∑mI(f(xi)=yi)连续：E(f;D)=∫x∼DI(f(x)=y)p(x)dx
精度
离散： a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D 连续： a c c ( f ; D ) = ∫ x ∼ D I ( f ( x ) = y ) p ( x ) d x = 1 − E ( f ; D ) \begin{equation}\begin{split} 离散：acc(f;D) &= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i})=y_{i}) \\ &=1-E(f;D\\ 连续：acc(f;D) &= \int_{x \sim D} \mathbb I (f(x)=y)p(x)dx\\ &= 1-E(f;D) \end{split}\end{equation} 离散：acc(f;D)连续：acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D=∫x∼DI(f(x)=y)p(x)dx=1−E(f;D)

2）、查准率P、查全率R与 F 1 F1 F1

查准率： P = T P T P + F P 查全率： R = T P T P + F N 查准率：P = \frac{TP}{TP+FP}\\ 查全率：R = \frac{TP}{TP+FN} 查准率：P=TP+FPTP查全率：R=TP+FNTP

一般来说，查全率高时，查准率往往偏低；查准率高时，查全率往往偏低。
“P-R曲线”：以为查准率纵轴、查全率为横轴作图，就得到了查准率-查全率曲线

若学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可以断言后者性能优于前者
“平衡点（Break-Even Point，BEP）：查准率=查全率时的取值。
F 1 F1 F1是基于查全率与查准率的调和平均值定义的

F 1 F1 F1度量的一般形式：
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta}= \frac{(1+{\beta}^2) \times P \times R}{({\beta}^2 \times P)+R}\\ Fβ=(β2×P)+R(1+β2)×P×R
宏查全率/宏查准率/宏 F 1 F1 F1
微查全率/微查准率/微 F 1 F1 F1

3）、ROC与AUC

ROC全称为“受试者工作特性”（Receiver Operating Characteristic)曲线

ROC曲线的纵轴是“真正例率”（TPR），横轴是“假正例率”（FPR）

T P R = T P T P + F N F P R = F P T N + F P TPR= \frac{TP}{TP+FN}\\ FPR= \frac{FP}{TN+FP} TPR=TP+FNTPFPR=TN+FPFP

ROC曲线图对角线对应于“随机猜测模型”，（0，1）对应于将所有正例排在所有反例之前的“理想模型”

与“P-R曲线”相似，若学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可以断言后者性能优于前者

AUC（Area Under ROC Curve）是指ROC曲线下的面积

A U C = 1 − l r a n k l r a n k = 1 m + + m − ∑ x + ∈ D + ∑ x − ∈ D − ( I ( f ( x + ) < f ( x − ) ) + 1 2 I ( f ( x + ) = f ( x − ) ) ) AUC = 1-l_{rank}\\ l_{rank}= \frac{1}{{m}^+ +{m}^-} \sum_{{x}^+ \in {D}^+} \sum_{{x}^- \in {D}^-}(\mathbb I (f(x^+) < f(x^-))+ \frac{1}{2} \mathbb I (f(x^+) = f(x^-))) AUC=1−lranklrank=m++m−1x+∈D+∑x−∈D−∑(I(f(x+)<f(x−))+21I(f(x+)=f(x−)))

l r a n k l_{rank} lrank在几何意义上可以看作ROS曲线与y轴围成的面积

4）、代价敏感错误和代价曲线

为权衡不同类型错误造成的不同损失，可为错误赋予“非均等代价（unequal cost），以此达成“总体代价”（total cost）最小化。

代价曲线，横轴为正例概率代价（取值为[0，1])，纵轴为归一化代价（取值为[0，1])。ROC曲线上每一点对应了代价平面上的一条线段，将ROC曲线上的每个点转为代价平面上的一条线段，然后取所有曲线的下界，围成的面积即为在所有条件下学习器的期望总体代价。

（2）、比较检验

统计假设检验（hypothesis test）

假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想

“t检验”

双边假设

交叉验证t检验

McNemar检验

Friendman检验和Nemenyi后续检验

（3）、偏差与方差

泛化误差可分解为偏差、方差和噪音之和
E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ϵ 2 E(f;D)= bias^2(x)+var(x)+ \epsilon^2 E(f;D)=bias2(x)+var(x)+ϵ2

方差：
v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) 2 ] var(x) = \mathbb{E}_{D} [(f(x;D)- \overline f(x))^2] var(x)=ED[(f(x;D)−f(x))2]
噪音：
ϵ 2 = E D [ ( y D − y ) 2 ] \epsilon^2 = \mathbb{E}_{D} [(y_{D}-y)^2] ϵ2=ED[(yD−y)2]
偏差：期望输出与真实标记的差别
b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x) = (\overline f (x)-y)^2 bias2(x)=(f(x)−y)2
偏差-方差窘境