代价函数

在逻辑回归中，我们的预测函数为：
hθ(x)=11+e−θTxh_θ(x)=\frac 1 {1+e^{−θ^Tx}}hθ(x)=1+e−θTx1

代价函数为：
cost=−ylog(hθ(x))+(1−y)log(1−hθ(x))cost=−y\ log(h_θ(x))+(1−y)\ log(1−h_θ(x))cost=−y log(hθ(x))+(1−y) log(1−hθ(x))

当 y=1y=1y=1 时，代价函数就为：
cost=−log(hθ(x))cost=−log(h_θ(x))cost=−log(hθ(x))=−log11+e−z,z=θTx=−log\frac 1{1+e^{−z}},z=θ^Tx=−log1+e−z1,z=θTx

此时，代价函数随 zzz 的变化曲线如下图：

不难看出，当 y=1y=1y=1 时，随着 zzz 取值变大，预测代价变小，因此，逻辑回归想要在面对正样本 y=1y=1y=1 时，获得足够高的预测精度，就希望 z=θTx≫0z=θ^Tx≫0z=θTx≫0 。而 SVM 则将上图的曲线拉直为下图中的折线，构成了 y=1y=1y=1 时的代价函数曲线 cost1(z)cost_1(z)cost1(z) ：

当 y=1y=1y=1 时，为了预测精度足够高，SVM 希望 θTx≥1θ^Tx≥1θTx≥1 。

同样，在 y=0y=0y=0 时，SVM 定义了代价函数 cost0(z)cost_0(z)cost0(z) ，为了预测精度足够高，SVM 希望 θTx≤−1θ^Tx≤−1θTx≤−1 ：

最小化预测代价

SVM定义其最小化预测代价的过程为：
min⁡θC[∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+12∑j=1nθj2\min_θC[∑_{i=1}^my^{(i)}cost_1(θ^Tx^{(i)})+(1−y^{(i)})cost_0(θ^Tx^{(i)})]+\frac 12∑_{j=1}^nθ^2_jθminC[i=1∑my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+21j=1∑nθj2

而在逻辑回归中，最小化预测代价的过程为：
min⁡θ1m[∑i=1my(i)(−loghθ(x(i)))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθj2\min_{θ}\frac 1m[∑_{i=1}^my^{(i)}(−log\ h_θ(x^{(i)}))+(1−y^{(i)})(−log\ (1−h_θ(x^{(i)})))]+\frac λ{2m}∑_{j=1}^nθ^2_jθminm1[i=1∑my(i)(−log hθ(x(i)))+(1−y(i))(−log (1−hθ(x(i))))]+2mλj=1∑nθj2

事实上，我们可以将逻辑回归的代价函数简要描述为：
cost=A+λBcost=A+λBcost=A+λB

而 SVM 的代价函数描述为：
cost=CA+Bcost=CA+Bcost=CA+B

即，在逻辑回归中，我们通过正规化参数 λλλ 调节 A、BA 、 BA、B 所占的权重，且 AAA 的权重与 λλλ 取值成反比。而在 SVM 中，则通过参数 CCC 调节 A、BA 、 BA、B 所占的权重，且 AAA 的权重与 CCC 的取值成反比。亦即，参数 CCC 可以被认为是扮演了 1λ\frac1λλ1 的角色。

预测函数

当我们训练得到 θ 之后，可以代入下面的 SVM 预测函数进行预测：
hθ(x)={1ifθTx≥00otherwiseh_θ(x)= \begin{cases} 1 & if \ θ^Tx≥0\\ 0 & otherwise \end{cases}hθ(x)={10if θTx≥0otherwise

5.1 代价函数-机器学习笔记-斯坦福吴恩达教授相关推荐

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授
机器学习系统设计–垃圾邮件分类假定我们现有一封邮件,其内容如下: From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subjec ...
9.1 基于内容的推荐系统-机器学习笔记-斯坦福吴恩达教授
基于内容的推荐系统推荐系统是机器学习最重要的应用之一,你所知道的淘宝.亚马逊.facebook.豆瓣这些网站都把推荐系统作为了核心.在某个电影资讯的网站,有那么一份用户对于电影的打分(1 - 5 分 ...
6.3 优化-机器学习笔记-斯坦福吴恩达教授
优化和其他机器学习算法一样,K-Means 也要评估并且最小化聚类代价,在引入 K-Means 的代价函数之前,先引入如下定义: μc(i)=样本x(i)被分配到的聚类中心μ^{(i)}_c=样本\ ...
3.12 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授
多分类问题我们手上包含有手写字符的数据集,该数据集来自斯坦福机器学习的课后作业,每个字符图片大小为 20×20 ,总的样本规模为 5000×400 , 我们的神经网络设计如下,包含 1 个隐含层,隐 ...
1.5 特征缩放-机器学习笔记-斯坦福吴恩达教授
特征缩放引子在前一章节中,对房屋售价进行预测时,我们的特征仅有房屋面积一项,但是,在实际生活中,卧室数目也一定程度上影响了房屋售价.下面,我们有这样一组训练样本: 注意到,房屋面积及卧室数量两个特 ...
1.3 程序示例--梯度下降-机器学习笔记-斯坦福吴恩达教授
回归模块回归模块中提供了批量梯度下降和随机梯度下降两种学习策略来训练模型: # coding: utf-8 # linear_regression/regression.py import nump ...
1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授
线性回归首先,我们明确几个常用的数学符号: 特征(feature):xix_ixi , 比如,房屋的面积,卧室数量都算房屋的特征特征向量(输入):xxx ,一套房屋的信息就算一个特征向量,特征向 ...
10.1 掌握大数据-机器学习笔记-斯坦福吴恩达教授
掌握大数据在算法分析与优化一节中,我们就提到,在机器学习界流传着这样一句话: It's not who has the best algorithm that wins. It's who has ...
9.5 程序示例--推荐系统-机器学习笔记-斯坦福吴恩达教授
程序示例–推荐系统推荐模型在推荐模型中,我们将暴露: 训练接口 train() 预测接口 predict(Theta, X) 获得推荐接口 getTopRecommends(Theta, X, i ...

5.1 代价函数-机器学习笔记-斯坦福吴恩达教授

代价函数

最小化预测代价

预测函数

5.1 代价函数-机器学习笔记-斯坦福吴恩达教授相关推荐

最新文章

热门文章