【数据挖掘】4. 打散(Shattering) VC维数基于VC维数和Margin的泛化定理

Shattering（打散）
- 前提准备
  - P P P 是在 R d \mathbb{R}^d Rd 上的点的集合，给定一个分类器 h ∈ H h\in\mathcal{H} h∈H ，定义：
    P h = { p ∈ P ∣ h ( p ) = 1 } P_h=\{p\in P|h(p)=1\} Ph={p∈P∣h(p)=1}
    P h P_h Ph 也就是被 h h h 分类为 1 1 1 的集合。
- 官方解释：对于任何一个子集 P ′ ⊆ P P'\subseteq P P′⊆P ，都存在 H \mathcal{H} H 中的一个分类器，能够满足 P ′ = P h P'=P_h P′=Ph
- 个人解释1：分类器集合 H \mathcal{H} H 中总能存在一个分类器 h h h ，能实现点集合 P P P 上每一种情况的划分
- 个人解释2：分类器集合 H \mathcal{H} H 能够实现对于 P P P 的所有子集的划分。
- 举例
  
  对于集合 { 1 , 2 , 3 } \{1,2,3\} {1,2,3}，总是存在分类器 h h h，能够将其划分为， 1 : { 1 } , 0 : { 2 , 3 } 1:\{1\},0:\{2,3\} 1:{1},0:{2,3} ， 1 : { 2 } , 0 : { 1 , 3 } 1:\{2\},0:\{1,3\} 1:{2},0:{1,3} ， 1 : { 3 } , 0 : { 1 , 2 } 1:\{3\},0:\{1,2\} 1:{3},0:{1,2} ， 1 : { 1 , 2 } , 0 : { 3 } 1:\{1,2\},0:\{3\} 1:{1,2},0:{3}， 1 : { 1 , 3 } , 0 : { 2 } 1:\{1,3\},0:\{2\} 1:{1,3},0:{2} ， 1 : { 2 , 3 } , 0 : { 1 } 1:\{2,3\},0:\{1\} 1:{2,3},0:{1} ， 1 : { ∅ } , 0 : { 1 , 2 , 3 } 1:\{\emptyset\},0:\{1,2,3\} 1:{∅},0:{1,2,3}， 1 : { 1 , 2 , 3 } , 0 : { ∅ } 1:\{1,2,3\},0:\{\emptyset\} 1:{1,2,3},0:{∅} 八种情况
  
  如图， 1 1 1 和 0 0 0 在图中用 + + + 和 − - − 表示
- 当使用线性划分，二维平面上最多可以划分三个点（当这三个点在一条直线，不能划分，但不影响”最多“这个设定）。
- 我们不可能使用线性分类器在二维平面上打散四个点（见如下定理）
VC Dimension
- 定义： H \mathcal{H} H 的 VC 维数是可以被 H \mathcal{H} H 打散的 P P P （ P ⊆ P P\subseteq\mathcal{P} P⊆P ）的最大元素数量。
- VC 维数如果是 λ \lambda λ ，那么写作 VC-dim ⁡ ( P , H ) = λ \operatorname{VC-dim}(\mathcal{P},\mathcal{H})=\lambda VC-dim(P,H)=λ
- 通用线性分类器的 VC 维数
  - 定理： H \mathcal{H} H 是通用线性分类器的集合，那么
    VC-dim ⁡ ( R d , h ) = d + 1 \operatorname{VC-dim}(\mathbb{R}^d,h) = d+1 VC-dim(Rd,h)=d+1
基于 VC 维数的泛化定理
- 令 P \mathcal{P} P 为 D \mathcal{D} D 的支持集，并且令 λ = V C − d i m ( P , H ) \lambda=VC-dim(\mathcal{P},\mathcal{H}) λ=VC−dim(P,H) ，给定 δ \delta δ 满足 0 < δ ≤ 1 0<\delta\leq1 0<δ≤1，有至少 1 − δ 1-\delta 1−δ 的概率：
  err ⁡ D ( h ) ≤ err ⁡ S ( h ) + 8 ln ⁡ 4 δ + 8 λ ⋅ ln ⁡ 2 e ∣ S ∣ λ ∣ S ∣ \operatorname{err}_{\mathcal{D}}(h) \leq \operatorname{err}_S(h)+\sqrt{\frac{8 \ln \frac{4}{\delta}+8 \lambda \cdot \ln \frac{2 e|S|}{\lambda}}{|S|}} errD(h)≤errS(h)+∣S∣8lnδ4+8λ⋅lnλ2e∣S∣
- 该泛化定理与分类器 H \mathcal{H} H 的大小无关，但 err ⁡ D ( h ) \operatorname{err}_{\mathcal{D}}(h) errD(h) 的最大值跟 D \mathcal{D} D 的维度成正相关
- 如果一个分类器的集合“更强大”，也就是他的 VC 维数更大，那么为了更好的学习效果，需要更大的训练集。但在一些问题中，我们的线性分类器维度 d = ∞ d=\infin d=∞ ， λ \lambda λ 也等于正无穷，这时 VC 维数的泛化定理失去了作用。
基于 Margin 的泛化定理
- 令 H \mathcal{H} H 为线性分类器的一个集合，假设训练集 S \mathcal{S} S 是线性可分的（因为线性可分，得到的分类器经验误差 err ⁡ S ( h ) = 0 \operatorname{err}_{\mathcal{S}}(h)=0 errS(h)=0 ，所以该定理右侧没有该项），给定 δ \delta δ 满足 0 < δ ≤ 1 0<\delta\leq1 0<δ≤1，有至少 1 − δ 1-\delta 1−δ 的概率：
  err ⁡ D ( h ) ≤ 4 R ⋅ ∣ w ∣ ∣ S ∣ + ln ⁡ 2 δ + ln ⁡ ⌈ log ⁡ 2 ( R ∣ w ∣ ) ⌉ ∣ S ∣ \operatorname{err}_D(h) \leq \frac{4 R \cdot|\boldsymbol{w}|}{\sqrt{|S|}}+\sqrt{\frac{\ln \frac{2}{\delta}+\ln \left\lceil\log _2(R|\boldsymbol{w}|)\right\rceil}{|S|}} errD(h)≤∣S∣ 4R⋅∣w∣+∣S∣lnδ2+ln⌈log2(R∣w∣)⌉
- 该泛化定理不依赖于数据的维度 d d d
- 与之相关的参数有 R R R 和 ∣ w ∣ |w| ∣w∣
  - R R R 是所有的训练集点离原点距离的最大值，即 R = max ⁡ p ∈ S ∣ p ∣ R=\max _{\boldsymbol{p} \in \mathcal{S}}|\boldsymbol{p}| R=maxp∈S∣p∣
- 由于 Margin ⁡ ( h ) = 1 ∣ w ∣ \operatorname{Margin}(h)=\frac{1}{|w|} Margin(h)=∣w∣1 （后面一节将会证明），该泛化定理还可以表示为：
  err ⁡ D ( h ) ≤ 4 R ∣ S ∣ Margin ⁡ ( h ) + ln ⁡ 2 δ + ln ⁡ ⌈ log ⁡ 2 ( R Margin ⁡ ( h ) ) ⌉ ∣ S ∣ \operatorname{err}_D(h) \leq \frac{4 R }{\sqrt{|S|}\operatorname{Margin}(h)}+\sqrt{\frac{\ln \frac{2}{\delta}+\ln \left\lceil\log _2(\frac{R}{\operatorname{Margin}(h)})\right\rceil}{|S|}} errD(h)≤∣S∣ Margin(h)4R+∣S∣lnδ2+ln⌈log2(Margin(h)R)⌉
- 为了使该定理的右侧尽可能的小，除了使 ∣ S ∣ |S| ∣S∣ 更大， R R R 更小（可操纵性不大），则需要使 ∣ w ∣ |w| ∣w∣ 更小，也就是 Margin ⁡ ( h ) = 1 ∣ w ∣ \operatorname{Margin}(h)=\frac{1}{|w|} Margin(h)=∣w∣1 更大。
- 在第3节中，我们证明了 Perceptron 感知器的最多调整次数为 ( R / γ ) 2 (R/\gamma)^2 (R/γ)2 ，其中 γ = Margin ⁡ ( h ) = 1 ∣ w ∣ \gamma=\operatorname{Margin}(h)=\frac{1}{|w|} γ=Margin(h)=∣w∣1 ，所以定理右侧的大小也与感知器的最多调整次数有关。
三种泛化定理之间的联系
- 三种泛化定理除了 ∣ S ∣ |\mathcal{S}| ∣S∣ 的相同作用关系外
  1. 普通泛化定理（见文末或第1节内容）中 err ⁡ D ( h ) \operatorname{err}_{\mathcal{D}}(h) errD(h) 的最大值与 ln ⁡ ∣ H ∣ \ln|\mathcal{H}| ln∣H∣ 成正相关
  2. 基于 VC 维数的泛化定理中， err ⁡ D ( h ) \operatorname{err}_{\mathcal{D}}(h) errD(h) 的最大值与 D \mathcal{D} D 的维度成正相关
  3. 基于 Margin 的泛化定理中， err ⁡ D ( h ) \operatorname{err}_{\mathcal{D}}(h) errD(h) 的最大值与 R Margin ⁡ ( h ) \frac{R}{\operatorname{Margin}(h)} Margin(h)R 成正相关
- 一个 d d d 维的线性分类器的划分平面的参数有 d d d 个，通过第1节内容，可以知道，所有可能的分类器数量 ∣ H ∣ = 2 64 × d |\mathcal{H}|=2^{64\times d} ∣H∣=264×d ，有 ln ⁡ ∣ H ∣ ≤ 64 × d \ln|\mathcal{H}|\le 64\times d ln∣H∣≤64×d ；与此同时，对于第二条定理，VC 维数为 d + 1 d+1 d+1
- 当线性感知器 h 1 h_1 h1 和 h 2 h_2 h2 的 Margin ⁡ ( h 1 ) > Margin ⁡ ( h 2 ) \operatorname{Margin}(h_1)>\operatorname{Margin}(h_2) Margin(h1)>Margin(h2) 时，存在 VC-dim ⁡ ( R d , h 1 ) ≤ VC-dim ⁡ ( R d , h 2 ) \operatorname{VC-dim}(\mathbb{R}^d,h_1)\le\operatorname{VC-dim}(\mathbb{R}^d,h_2) VC-dim(Rd,h1)≤VC-dim(Rd,h2)

前情回顾：

Generalization Theorem 泛化定理

H \mathcal{H} H 是可能返回的分类器的集合，下边的声明具有至少 1 − δ 1-\delta 1−δ （ 0 < δ ≤ 1 0<\delta\leq1 0<δ≤1）的概率成立：

对于任意 h ∈ H h\in \mathcal{H} h∈H :
e r r D ( h ) ≤ e r r S ( h ) + ln ⁡ ( 1 / δ ) + ln ⁡ ∣ H ∣ 2 ∣ S ∣ err_{\mathcal{D}}(h)\leq err_{\mathcal{S}}(h)+\sqrt{\frac{\ln(1/\delta)+\ln |\mathcal{H}|}{2|\mathcal{S}|}} errD(h)≤errS(h)+2∣S∣ln(1/δ)+ln∣H∣
我们应该：
- 寻找在训练集上足够准确并且比较小的决策树
- 尽可能增加训练集 S \mathcal{S} S 的大小

【数据挖掘】4. 打散(Shattering) VC维数基于VC维数和Margin的泛化定理相关推荐

matlab梯形模糊数,基于梯形模糊数的OWA方法与matlab应用
基于梯形模糊数的OWA 方法与matlab 应用一.梯形模糊数定义 1.定义记(,,,),=-∞<<<< c a b d c a b d ,称为%A 为梯形模糊数,当0> ...
基于阿里云数加MaxCompute的企业大数据仓库架构建设思路
摘要: 数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台. 本次分享嘉宾是来自阿 ...
基于VC++的3D地形绘制与纹理贴图
前言随着地理信息系统产业的发展,三维产品也在生活中处处吸引着我们的眼球.作为数字城市的核心内容,城市模型的构建成为了目前研究的热点.OpenGL是独立于操作系统和硬件环境的三维图形库,其为实现逼真的 ...
阿里云大数据认证——基于阿里云数加构建企业级数据分析平台-课堂笔记
阿里云Clouder认证六.基于阿里云数加构建企业级数据分析平台 1. 课程目标 (1) 了解数据分析的步骤和目的 (2) 熟悉数据分析平台搭建的组成部分 (3) 掌握阿里云数加不同产品及其使用场景 ...
adf机器_智能运维高招 | 基于机器学习的磁盘故障预测
原标题:智能运维高招 | 基于机器学习的磁盘故障预测导读 RGF算法+迁移学习精确预测硬盘故障.<Predicting Disk Replacement towards Reliable Da ...
基于VC++开发串口通信的方法
串行通信中的关键是串行通信设备的初始化.数据的发送和接收及其实现方式. 在Dos环境下,用户可以直接对通信设备编程,可以通过查询中断的方式使用通信设备.但是Windows不提倡应用程序直接控制硬件,而 ...
Python基于二维码实现的在线编解码系统
目录摘要 I Abstract II 第一章绪论 1 1.1 课题背景 1 1.2 研究现状 1 1.3 工作环境和背景 2 1.3.1 操作系统 3 1.3.2 编程语言 3 1.3.3编码 ...
基于逐维反向学习的动态适应布谷鸟算法
文章目录一.理论基础 1.布谷鸟搜索算法 2.DA-DOCS算法 (1)逐维反向学习策略 (2)动态适应 (3)DA-DOCS算法流程二.实验与结果分析三.参考文献一.理论基础 1.布谷鸟搜索 ...
matlab 混沌信号,基于五维混沌系统的图像加密方法
大家都知道混沌信号作为加密信号源,可以应用于图像加密,文本文件加密,语音加密,系统加密等诸多领域,那么接下来,我给大家介绍一种基于五维混沌系统的图像加密方法,该方法不仅可以实现对图像加密,而且与其它加 ...

【数据挖掘】4. 打散(Shattering) VC维数基于VC维数和Margin的泛化定理

【数据挖掘】4. 打散(Shattering) VC维数基于VC维数和Margin的泛化定理相关推荐

最新文章

热门文章

【数据挖掘】4. 打散(Shattering) VC维数 基于VC维数和Margin的泛化定理

【数据挖掘】4. 打散(Shattering) VC维数 基于VC维数和Margin的泛化定理相关推荐

最新文章

热门文章

【数据挖掘】4. 打散(Shattering) VC维数基于VC维数和Margin的泛化定理

【数据挖掘】4. 打散(Shattering) VC维数基于VC维数和Margin的泛化定理相关推荐