代价函数

在逻辑回归中,我们的预测函数为:
hθ(x)=11+e−θTxh_θ(x)=\frac 1 {1+e^{−θ^Tx}}hθ​(x)=1+e−θTx1​

代价函数为:
cost=−ylog(hθ(x))+(1−y)log(1−hθ(x))cost=−y\ log(h_θ(x))+(1−y)\ log(1−h_θ(x))cost=−y log(hθ​(x))+(1−y) log(1−hθ​(x))

当 y=1y=1y=1 时,代价函数就为:
cost=−log(hθ(x))cost=−log(h_θ(x))cost=−log(hθ​(x))=−log11+e−z,z=θTx=−log\frac 1{1+e^{−z}},z=θ^Tx=−log1+e−z1​,z=θTx

此时,代价函数随 zzz 的变化曲线如下图:

不难看出,当 y=1y=1y=1 时,随着 zzz 取值变大,预测代价变小,因此,逻辑回归想要在面对正样本 y=1y=1y=1 时,获得足够高的预测精度,就希望 z=θTx≫0z=θ^Tx≫0z=θTx≫0 。而 SVM 则将上图的曲线拉直为下图中的折线,构成了 y=1y=1y=1 时的代价函数曲线 cost1(z)cost_1(z)cost1​(z) :

当 y=1y=1y=1 时,为了预测精度足够高,SVM 希望 θTx≥1θ^Tx≥1θTx≥1 。

同样,在 y=0y=0y=0 时,SVM 定义了代价函数 cost0(z)cost_0(z)cost0​(z) ,为了预测精度足够高,SVM 希望 θTx≤−1θ^Tx≤−1θTx≤−1 :

最小化预测代价

SVM定义其最小化预测代价的过程为:
min⁡θC[∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+12∑j=1nθj2\min_θC[∑_{i=1}^my^{(i)}cost_1(θ^Tx^{(i)})+(1−y^{(i)})cost_0(θ^Tx^{(i)})]+\frac 12∑_{j=1}^nθ^2_jθmin​C[i=1∑m​y(i)cost1​(θTx(i))+(1−y(i))cost0​(θTx(i))]+21​j=1∑n​θj2​

而在逻辑回归中,最小化预测代价的过程为:
min⁡θ1m[∑i=1my(i)(−loghθ(x(i)))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθj2\min_{θ}\frac 1m[∑_{i=1}^my^{(i)}(−log\ h_θ(x^{(i)}))+(1−y^{(i)})(−log\ (1−h_θ(x^{(i)})))]+\frac λ{2m}∑_{j=1}^nθ^2_jθmin​m1​[i=1∑m​y(i)(−log hθ​(x(i)))+(1−y(i))(−log (1−hθ​(x(i))))]+2mλ​j=1∑n​θj2​

事实上,我们可以将逻辑回归的代价函数简要描述为:
cost=A+λBcost=A+λBcost=A+λB

而 SVM 的代价函数描述为:
cost=CA+Bcost=CA+Bcost=CA+B

即,在逻辑回归中,我们通过正规化参数 λλλ 调节 A、BA 、 BA、B 所占的权重,且 AAA 的权重与 λλλ 取值成反比。而在 SVM 中,则通过参数 CCC 调节 A、BA 、 BA、B 所占的权重,且 AAA 的权重与 CCC 的取值成反比。亦即,参数 CCC 可以被认为是扮演了 1λ\frac1λλ1​ 的角色。

预测函数

当我们训练得到 θ 之后,可以代入下面的 SVM 预测函数进行预测:
hθ(x)={1ifθTx≥00otherwiseh_θ(x)= \begin{cases} 1 & if \ θ^Tx≥0\\ 0 & otherwise \end{cases}hθ​(x)={10​if θTx≥0otherwise​

5.1 代价函数-机器学习笔记-斯坦福吴恩达教授相关推荐

  1. 4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授

    机器学习系统设计–垃圾邮件分类 假定我们现有一封邮件,其内容如下: From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subjec ...

  2. 9.1 基于内容的推荐系统-机器学习笔记-斯坦福吴恩达教授

    基于内容的推荐系统 推荐系统是机器学习最重要的应用之一,你所知道的淘宝.亚马逊.facebook.豆瓣这些网站都把推荐系统作为了核心.在某个电影资讯的网站,有那么一份用户对于电影的打分(1 - 5 分 ...

  3. 6.3 优化-机器学习笔记-斯坦福吴恩达教授

    优化 和其他机器学习算法一样,K-Means 也要评估并且最小化聚类代价,在引入 K-Means 的代价函数之前,先引入如下定义: μc(i)=样本x(i)被分配到的聚类中心μ^{(i)}_c=样本\ ...

  4. 3.12 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授

    多分类问题 我们手上包含有手写字符的数据集,该数据集来自斯坦福机器学习的课后作业,每个字符图片大小为 20×20 ,总的样本规模为 5000×400 , 我们的神经网络设计如下,包含 1 个隐含层,隐 ...

  5. 1.5 特征缩放-机器学习笔记-斯坦福吴恩达教授

    特征缩放 引子 在前一章节中,对房屋售价进行预测时,我们的特征仅有房屋面积一项,但是,在实际生活中,卧室数目也一定程度上影响了房屋售价.下面,我们有这样一组训练样本: 注意到,房屋面积及卧室数量两个特 ...

  6. 1.3 程序示例--梯度下降-机器学习笔记-斯坦福吴恩达教授

    回归模块 回归模块中提供了批量梯度下降和随机梯度下降两种学习策略来训练模型: # coding: utf-8 # linear_regression/regression.py import nump ...

  7. 1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授

    线性回归 首先,我们明确几个常用的数学符号: 特征(feature):xix_ixi​ , 比如,房屋的面积,卧室数量都算房屋的特征 特征向量(输入):xxx ,一套房屋的信息就算一个特征向量,特征向 ...

  8. 10.1 掌握大数据-机器学习笔记-斯坦福吴恩达教授

    掌握大数据 在算法分析与优化一节中,我们就提到,在机器学习界流传着这样一句话: It's not who has the best algorithm that wins. It's who has ...

  9. 9.5 程序示例--推荐系统-机器学习笔记-斯坦福吴恩达教授

    程序示例–推荐系统 推荐模型 在推荐模型中,我们将暴露: 训练接口 train() 预测接口 predict(Theta, X) 获得推荐接口 getTopRecommends(Theta, X, i ...

最新文章

  1. 客户端动态调用WCF服务中的方法
  2. 对quake3源代码的学习与研究初步的计划
  3. OpenCV Resize Reshape
  4. 【推荐】如何使用好阿里云的网络安全隔离?深入分享阿里云ECS安全组实践经验...
  5. 云计算服务在小企业中的意义如何?
  6. linux系统调用理解之摘录(2)
  7. 缓存与库先删哪个(转自网络,侵删)
  8. [Python图像处理] 三十三.图像各种特效处理及原理万字详解(毛玻璃、浮雕、素描、怀旧、流年、滤镜等)
  9. 在线设计 html5 表单,html5注册表单制作-表单制作-小程序表单制作
  10. Bootstrap系列 -- 11. 基础表单
  11. $ajax不能识别,JQuery/JS Ajax功能无法识别
  12. FreeWheel业务系统微服务化过程经验分享
  13. 机器学习代码实战——保存和加载模型(Save and Load Model)
  14. C语言 汉字ASCII转Unicode
  15. 【淘宝装修】PS DW 介绍 教程 代码(终极篇)
  16. 机器学习------结构因果机制(SCM)、因果关系、因果推断
  17. idea remote debug
  18. me909嵌入式linux,linux4.1.4上移植ME909s-821,MU609 4G模块驱动
  19. Tensorflow (2): tf.slim库解读
  20. 网心科技CEO、迅雷联席CEO陈磊:开启共享经济云计算时代

热门文章

  1. 4.方向-世界坐标系
  2. iOS开发之AFNetworking 3.0.4使用
  3. 16位模式/32位模式下PUSH指令探究——《x86汇编语言:从实模式到保护模式》读书笔记16...
  4. 【面试虐菜】—— JAVA面试题(3)
  5. javascript之function1
  6. java经典算法四十题
  7. cJsonFiles数据结构
  8. 认识 linux sysfs文件系统
  9. 图解Windows网络命令使用实例
  10. 【LNOI2014】【BZOJ3626】NOIp2018模拟(三) LCA