大间距分类器

在上节中，我们了解到了 SVM 最小化代价函数过程为：
min⁡θC[∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+12∑j=1nθj2\min _θC[∑_{i=1}^m y^{(i)} cost_1(θ^Tx^{(i)})+(1−y^{(i)})cost_0(θ^Tx^{(i)})]+\frac12∑_{j=1}^nθ^2_jθminC[i=1∑my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+21j=1∑nθj2

并且，当 y(i)=1y^{(i)}=1y(i)=1 时，SVM 希望 θTx(i)≥1θ^Tx^{(i)}≥1θTx(i)≥1 ；而当 y(i)=0y^{(i)}=0y(i)=0 时，SVM 希望 θTx(i)≤−1θ^Tx^{(i)}≤−1θTx(i)≤−1 。则最小化代价函数的过程就可以描述为：
min⁡12∑j=1nθj2\min \frac12∑_{j=1}^nθ^2_jmin21j=1∑nθj2s.t.θTx(i)≥1ify(i)=1s.t.\quad θ^Tx^{(i)}≥1\quad if\ y^{(i)}=1s.t.θTx(i)≥1if y(i)=1θTx(i)≤−1ify(i)=1θ^Tx^{(i)}≤-1\quad if\ y^{(i)}=1θTx(i)≤−1if y(i)=1

SVM 最终找出的决策边界会是下图中黑色直线所示的决策边界，而不是绿色或者紫色的决策边界。该决策边界保持了与正、负样本都足够大的距离，因此，SVM 是典型的大间距分类器（Large margin classifier）。

推导

假定有两个 2 维向量：
u=(u1u2),v=(v1v2)u=\left( \begin{matrix} u_1\\ u_2 \end{matrix} \right), v=\left( \begin{matrix} v_1\\ v_2 \end{matrix} \right)u=(u1u2),v=(v1v2)

令 ppp 为 vvv 投影到 uuu 的线段长（该值可正可负），如下图所示：

则 u、vu 、 vu、v 的内积为：
uTv=p⋅∣∣u∣∣=u1v1+u2v2u^Tv = p \ \cdot ||u||=u_1v_1+u_2v_2uTv=p ⋅∣∣u∣∣=u1v1+u2v2

其中，∣∣u∣∣||u||∣∣u∣∣ 为 uuu 的范数，也是 uuu 的长度。
假定我们的 θ=(θ1θ2)θ=\left(\begin{matrix}θ_1\\θ_2 \end{matrix}\right)θ=(θ1θ2) ，且 θ0=0θ_0=0θ0=0 ，以使得向量 θθθ 过原点，则：
min⁡θ12∑j=12θj2=min⁡θ12(θ1+θ2)2\min_θ\frac12∑_{j=1}^2θ_j^2 = \min_θ\frac12(θ_1+θ_2)^2θmin21j=1∑2θj2=θmin21(θ1+θ2)2=min⁡θ12(θ12+θ22)2=\min_θ\frac12(\sqrt{θ_1^2+θ_2^2})^2=θmin21(θ12+θ22)2=min⁡θ12∣∣θ∣∣2=\min_θ\frac12||θ||^2=θmin21∣∣θ∣∣2

由向量内积公式可得：
θTx(i)=p(i)⋅∣∣θ∣∣θ^Tx^{(i)}=p^{(i)} \cdot ||θ||θTx(i)=p(i)⋅∣∣θ∣∣

其中， p(i)p^{(i)}p(i) 为特征向量 x(i)x^{(i)}x(i) 在 θθθ 上的投影：

当 y(i)=1y^{(i)}=1y(i)=1 时，我们希望 θTx(i)≥1θ^Tx^{(i)}≥1θTx(i)≥1 ，亦即希望 p(i)⋅∣∣θ∣∣≥qp^{(i)}⋅||θ||≥qp(i)⋅∣∣θ∣∣≥q ，此时考虑两种情况：

p(i)p^{(i)}p(i) 很小，则需要 ∣∣θ∣∣||θ||∣∣θ∣∣ 很大，这与我们 min⁡θ12∣∣θ∣∣2\min\limits_θ\frac12||θ||^2θmin21∣∣θ∣∣2 矛盾。
p(i)p^{(i)}p(i) 很大，如下图所示，即样本与决策边界的距离足够大，此时我们才能在既要 ∣∣θ∣∣||θ||∣∣θ∣∣ 足够小的情况下，又能有 θtx(i)≥1θ^tx^{(i)}≥1θtx(i)≥1 ，保证预测精度够高。这就解释了为什么 SVM 的模型会具有大间距分类器的性质了。

5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授相关推荐

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授
机器学习系统设计–垃圾邮件分类假定我们现有一封邮件,其内容如下: From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subjec ...
4.6 大数据集-机器学习笔记-斯坦福吴恩达教授
大数据集在机器学习领域,流传着这样一句话: It's not who has the best algorithm that wins. It's who has the most data. 所以 ...
10.1 掌握大数据-机器学习笔记-斯坦福吴恩达教授
掌握大数据在算法分析与优化一节中,我们就提到,在机器学习界流传着这样一句话: It's not who has the best algorithm that wins. It's who has ...
3.12 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授
多分类问题我们手上包含有手写字符的数据集,该数据集来自斯坦福机器学习的课后作业,每个字符图片大小为 20×20 ,总的样本规模为 5000×400 , 我们的神经网络设计如下,包含 1 个隐含层,隐 ...
5.5 SVM补充-机器学习笔记-斯坦福吴恩达教授
SVM补充决策边界 Coursera 上 ML 的课程对 SVM 介绍有限,参看了周志华教授的<机器学习>一书后,补充了当中对于 SVM 的介绍. 首先,我们考虑用更传统的权值定义式来描 ...
4.3 偏差与方差-机器学习笔记-斯坦福吴恩达教授
偏差与方差在机器学习中,偏差(bias) 反映了模型无法描述数据规律,而方差(variance) 反映了模型对训练集过度敏感,而丢失了数据规律,高偏差和高方差都会造成新数据到来时,模型给出错误的预 ...
3.1 再论 0/1 分类问题-机器学习笔记-斯坦福吴恩达教授
再论 0/1 分类问题在逻辑回归一章中,我们讨论了 0/1 分类问题,并且知道,通过对特征进行多项式展开,可以让逻辑回归支持非线性的分类问题.假定我们现在有 nnn 维特征,需要进行非线性分类,采用 ...
1.8 欠拟合和过拟合-机器学习笔记-斯坦福吴恩达教授
欠拟合和过拟合问题在上一节中,我们利用多项式回归获得更加准确的拟合曲线,实现了对训练数据更好的拟合.然而,我们也发现,过渡地对训练数据拟合也会丢失信息规律.首先,引出两个概念: 欠拟合(under ...
1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授
线性回归首先,我们明确几个常用的数学符号: 特征(feature):xix_ixi , 比如,房屋的面积,卧室数量都算房屋的特征特征向量(输入):xxx ,一套房屋的信息就算一个特征向量,特征向 ...

5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授

大间距分类器

推导

5.2 大间距分类器-机器学习笔记-斯坦福吴恩达教授相关推荐

最新文章

热门文章