一.损失函数

回顾之前讲过的线性回归模型，我们为了要学习参数使得得到的直线更好的拟合数据，我们使用了一个函数

这个函数就是比较模型得到的结果和“真实值”之间的“差距”，来判断这个模型是不是好。因为模型越好，差距越小，就越能够反应真实值。这个是能够很容易理解的。
但是上面的解释毕竟太过于“通俗”，而且事实上面还存在很多的损失函数的类型供我们使用，你甚至能够定义自己的损失函数类型。所以下面的篇幅就来讲讲一些常用的损失函数。

Ⅰ.0-1损失函数（0-1 loss function）

这个函数比较好理解。要是我们模型得到值和“真实值（标签值）”不一样，损失为1.要是一样的话，没有损失，自然为0.
这个函数的优点就是简单，非常的简单。但是缺点也非常的明显，就是无法度量损失的“严重程度”，无论有多不一样，都得到1的损失，很显然不利于后面的学习。
用途：
我暂时没有发现哪个机器学习算法用了0-1损失函数，有的话给个提示。

Ⅱ.平方损失函数（quadratic loss function）

我们也常常把这个方法称为最小二乘法（Ordinary least Squares）

这个函数就是我们之前一直使用的函数啦，非常非常的常见，还记得我们为什么会选择平方损失函数吗？不记得了参见第三节对于线性回归的回顾。机器学习笔记四：线性回归回顾与logistic回归
我们给直线模型加上了一个服从高斯分布的“噪声”项，使得整个模型都服从高斯分布，然后用极大似然估计推导出来最小二乘式。不记得的话回去回顾一下。
最小二乘的基本原则是：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。这是一开始讲线性回归的时候就说过的。这是很直观的理解。
总结一下：假如我们有m个输入（实例），
那么平方损失的一般形式（某个样本）为：

但是样本数量到m个的话，这么多样本的平方损失为：

Ⅲ.对数损失函数（logarithmic loss function）

上面的形式就是对数损失函数的形式啦。
这里只说两点，因为以后还会经常见到。
第一点就是对数损失函数非常常用。比如后面我们会看到的logistic回归，没错，又是这货。还有softmax回归等等，还要再来讲这个损失函数。
第二点就是对于这个公式的理解。这个公式的意思是在样本x在分类为y的情况下，我们需要让概率p(y|x)达到最大值。要是这个说法很难懂的话，就换个方式，就是利用目前已知的样本分布，找到最有可能导致这种分布的参数值。更通俗的说，就是什么样的参数才能够使我们观测到目前这组数据的概率最大。
要是现在还是不理解，后面会再讲，知道这种形式就行了。
前面加了一个负号是因为log函数是单调递增的，在前面加上负号之后，最大化p（y|x）就等价于最小化L。

Ⅳ.指数损失函数（exp-loss）

指数损失函数的形式的adaboost部分会用的很多。在后面的Adaboost部分会详细讲使用方式。

二.风险函数

上面说到了损失函数，通俗来说，损失函数就是度量模型得到某个样本的值和本该有的“真实值”之间的“接近程度”，值越“接近”，说明模型的效果更能够体现样本的“规律”。这里应该很好理解。而风险函数，可以认为是平均意义下的损失。有两个概念，一个是经验风险，还有一个是机构风险。

Ⅰ.经验风险（Empirical Risk）

给定一个数据集，模型f(x)关于训练集的平均损失被称为经验风险，或者叫做经验损失。

其中N是样本数量。
这个公式的用意很明显，就是模型关于训练集的平均损失（每个样本的损失加起来，然后平均一下）。在实际中用的时候，我们也就很自然的这么用了。
同样，这里还有一个理论，就是经验风险最小的模型是最优的模型，即经验风险最小化（ERM）。
在之前，这个理论我们也是直接拿来用了，因为这个理论很符合人的直观理解。因为在训练集上面的经验风险最小，也就是平均损失越小，意味着模型得到结果和“真实值”尽可能接近，表明模型越好。
经验风险最小化可以总结为：

Ⅱ.结构风险（Structural Risk）

当样本容量不大的时候，经验风险最小化模型容易产生“过拟合”的问题。为了“减缓”过拟合问题，就提出了结构风险最小（SRM）的理论。
结构风险的定义也很简单，就是在经验风险上加上一个正则化项（regularizer）或者叫做罚项（penalty term），即

结构风险最小化就是认为，结构风险最小的模型是最优的模型。即

--------------------- 本文来自谢小小XH 的CSDN 博客，全文地址请点击：https://blog.csdn.net/xierhacker/article/details/53366723?utm_source=copy

机器学习笔记七：损失函数与风险函数相关推荐

机器学习笔记七——特征工程之特征处理
特征处理 1.类别型特征的处理-特征编码 1.1 处理少量特征 1.2处理大量的类别特征 2.文本特征的处理--文本形式转换为向量形式 2.1 词集模型 2.2 词袋(Bag-of-Words,Bow ...
机器学习笔记(七)——初识逻辑回归、不同方法推导梯度公式
一.算法概述逻辑回归(Logistic)虽带有回归二字,但它却是一个经典的二分类算法,它适合处理一些二分类任务,例如疾病检测.垃圾邮件检测.用户点击率以及上文所涉及的正负情感分析等等. 首先了解一下 ...
机器学习笔记(七)贝叶斯分类器
7.贝叶斯分类器 7.1贝叶斯决策论贝叶斯决策论(Bayesiandecision theory)是概率框架下实施决策的基本方法.对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如 ...
机器学习笔记七之机器学习诊断
本节目录: 评估假设模型选择和交叉验证诊断偏差和方差正则化和偏差/方差学习曲线小结假设我们需要用一个线性模型来预测房价,当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,下一步 ...
arctanx麦克劳林公式推导过程_机器学习笔记(七)——初识逻辑回归、不同方法推导梯度公式
一.算法概述逻辑回归(Logistic)虽带有回归二字,但它却是一个经典的二分类算法,它适合处理一些二分类任务,例如疾病检测.垃圾邮件检测.用户点击率以及上文所涉及的正负情感分析等等. 首先了解一下 ...
机器学习笔记[七]：聚类
本篇将讨论无监督学习中应用最为广泛的学习算法–聚类. 1.聚类算法聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数 ...
李弘毅机器学习笔记：第七章—深度学习的发展趋势
李弘毅机器学习笔记:第七章-深度学习的发展趋势回顾一下deep learning的历史: 1958: Perceptron (linear model) 1969: Perceptron has l ...
Coursera公开课笔记: 斯坦福大学机器学习第七课“正则化(Regularization)”
Coursera公开课笔记: 斯坦福大学机器学习第七课"正则化(Regularization)" +13投票斯坦福大学机器学习第七课"正则化"学习笔记, ...
吴恩达《机器学习》学习笔记七——逻辑回归（二分类）代码
吴恩达<机器学习>学习笔记七--逻辑回归(二分类)代码一.无正则项的逻辑回归 1.问题描述 2.导入模块 3.准备数据 4.假设函数 5.代价函数 6.梯度下降 7.拟合参数 8.用训练 ...

机器学习笔记七：损失函数与风险函数