交叉熵误差(cross entropy error)
熵真是一个神奇的东西,据说之所以把它命名为熵就是因为它难以理解
但是它确实是一个很有用的西东,光机器学习里面,就经常见到它的身影,决策树要用到它,神经网络和logistic回归也用到了它。
先说熵的定义:
熵定义为信息的期望,某个待分类事物可以划分为多个类别,其中类别的信息为(为的概率):
熵为所有类别的信息期望值:
交叉熵误差:
为实际的分类结果, 为预测的结果,( 并且 )
这个函数被作为神经网络和logistic 回归的损失函数,因为它有三个很好的性质:
1. 它可以真实的反应出真实分类结果和预测结果的误差
假设, 即真实的分类结果是 , 则 交叉熵误差可以简化为:
函数图像如下:
可以看到, 越接近 ,即预测结果和真实分类结果越接近,误差越接近, 即误差越小
2. 交叉熵误差函数和softmax(神经网络用到的输出函数)和sigmoid函数(logistic回归用到的函数)的复合函数是凸函数,即存在全局最优解
凸函数的充要条件是:如果二阶导数存在,二阶到大于 ,现在以softmax函数为例证明:
softmax函数定义:
输入为 输出为
交叉熵误差函数:
两个复合函数对求一阶偏导:
所以:
二阶导数:
由于 上面的结果恒大于0, 二阶导数恒大于0 所以它是凸函数
3. 在用梯度下降发求解最优解时,需要用到一阶导数,从上面可以看到一阶导数:
很简洁漂亮,可以简化整个求解过程
数学真的很神奇!
reference:
机器学习实战:peter harrington(美)
深度学习入门:基于python的理论与实现 斋藤康毅(日)
交叉熵误差(cross entropy error)相关推荐
- TensorFlow 实战(一)—— 交叉熵(cross entropy)的定义
对多分类问题(multi-class),通常使用 cross-entropy 作为 loss function.cross entropy 最早是信息论(information theory)中的概念 ...
- 【AI学习总结】均方误差(Mean Square Error,MSE)与交叉熵(Cross Entropy,CE)损失函数
出发点 对于一个样本,有输入和输出结果,我们的目的是优化训练我们的模型,使得对于样本输入,模型的预测输出尽可能的接近真实输出结果.现在需要一个损失函数来评估预测输出与真实结果的差距. 均方误差 回归问 ...
- pytorch:交叉熵(cross entropy)
1.entropy entropy中文叫做熵,也叫不确定性,某种程度上也叫惊喜度(measure of surprise) = 如果p(x)采用0-1分部,那么entropy=1log1=0 而对于e ...
- 机器学习中使用的交叉熵(cross entropy)透彻分析
从字面分析交叉熵,1是交叉.2是熵(熵与信息量有关):首先交叉熵涉及信息论里面的东西,想要彻底理解交叉熵就要明白此概念跟信息量的关系以及里边的熵怎么理解. (1)信息量 衡量信息量可以用大小或者多少来 ...
- Pytorch 手工复现交叉熵损失(Cross Entropy Loss)
如果直接调包的话很简单,例子如下: import torch import torch.nn as nntorch.manual_seed(1234) ce_loss = nn.CrossEntrop ...
- 机器学习经典损失函数复习:交叉熵(Cross Entropy)和KL散度
目录 1 交叉熵 2 KL散度 时间一长就忘记了,今天看见缩写CE,突然有点陌生,写个图文并茂的博客加深一下印象. 1 交叉熵 交叉熵,在机器学习中广泛用于衡量两个分布的相似度: 交叉熵一般跟在sof ...
- 关于交叉熵(Cross Entropy)与Softmax
目录 写在前面 KL散度 交叉熵 Softmax 交叉熵与Softmax的关系 交叉熵损失 Softmax的求导 堆叠+向量化 其他关于Softmax函数的问题 赠品 写在前面 Softmax.交叉熵 ...
- 机器学习入门(08)— 损失函数作用和分类(均方误差、交叉熵误差)
神经网络的学习中的"学习"是指从训练数据中自动获取最优权重参数的过程. 为了使神经网络能进行学习,将导入损失函数这一指标.而学习的目的就是以该损失函数为基准,找出能使它的值达到最小 ...
- DL之SoftmaxWithLoss:SoftmaxWithLoss算法(Softmax+交叉熵误差)简介、使用方法、应用案例之详细攻略
DL之SoftmaxWithLoss:SoftmaxWithLoss算法(Softmax函数+交叉熵误差)简介.使用方法.应用案例之详细攻略 目录 SoftmaxWithLoss算法简介 1.Soft ...
最新文章
- 物理光学11 衍射的基本概念与惠更斯原理
- python 文本框内容变化_jquery文本框内容改变事件
- GWT与Eclipse集成开发初步研究
- 解决OSError: [Errno 22] Invalid argument:C:\\Windows\\Fonts\\simhei.ttf\u202a
- 算法设计与分析——图像的压缩
- 如何将较大的PDF文件压缩变小?PDF压缩方法!
- coldfusion php,将一些PHP移植到ColdFusion
- Python MySQLdb 模块使用方法
- 在线电影订票系统 - 数据库建模
- 事业单位计算机技术岗工资,事业单位管理岗和技术岗工资区别,不得不知!
- 乐理分析笔记(二) 莫扎特 土耳其进行曲
- 最简单的平面制图用什么软件_新手用什么软件学习视频剪辑?简单又好学?
- javascript面向对象(三):class语法详解
- Docker网络地址冲突问题及解决【手到病除】
- 内网穿透 —— 利用 ISS 和 ngrok 搭建可以让外网访问的个人网站
- pgsql sql字段拼接
- 子域名收集 -- Maltego CE
- 匠客传媒:论文降重的必备技巧
- ios关于GPUImage图片拍摄及视频录制
- Sql Developer 和 PL/SQL Developer工具日期显示格式问题