Softmax与SoftmaxWithLoss原理及代码详解
一直对softmax的反向传播的caffe代码看不懂,最近在朱神的数学理论支撑下给我详解了它的数学公式,才豁然开朗
SoftmaxWithLoss的由来
SoftmaxWithLoss也被称为交叉熵loss。
回忆一下交叉熵的公式,H(p,q)=−∑jpjlogqjH(p,q)=−∑jpjlogqjH(p, q) = -\sum_j p_j\log q_j,其中向量 ppp是原始的分布,这里指的是 ground-truth label,具体是 One-hot 编码结果。q" role="presentation">qqq则是模型预测的输出,且 qj=efj∑jefjqj=efj∑jefjq_j = \frac{e^{f_j}}{\sum_j e^{f_j}},由于 ppp 是one-hot向量,里面一堆的零只有 label 那项会保留下来,即H(p,q)=−plabellogqlabel=−logqlabel=eflabel∑jefj" role="presentation">H(p,q)=−plabellogqlabel=−logqlabel=eflabel∑jefjH(p,q)=−plabellogqlabel=−logqlabel=eflabel∑jefjH(p, q) = - p_{label} \log q_{label} = - \log q_{label} = \frac{e^{f_{label} }}{\sum_j e^{f_j}} 。
再考虑交叉熵,因为 H(p,q)=H(p)+DKL(p‖q)H(p,q)=H(p)+DKL(p‖q)H(p, q) = H(p) + D_{KL}(p\|q)( 交叉熵= KL散度 + 熵),而 H(p)=0H(p)=0H(p) = 0,所以最小化交叉熵,其实就是最小化 KLKL 散度,也就是想让两个分布尽量相同。
上面是信息论的角度来看 Softmax,其实也可以用概率的角度来解释,即把结果看做是对每个类别预测分类的概率值,p(yi|xi;W)=efyi∑jefjp(yi|xi;W)=efyi∑jefjp(y_i | x_i;W) = \frac{e^{f_{y_i}}}{\sum_j e^{f_j}},因为有归一化的步骤,所以可以看做合法的概率值。
Softmax
公式推导:
// top_diff是下一层传过来的梯度,bottom_diff是该层往前反传的梯度
// top_data是该层输出到下一层的结果
template <typename Dtype>
void SoftmaxLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,const vector<bool>& propagate_down,const vector<Blob<Dtype>*>& bottom) {const Dtype* top_diff = top[0]->cpu_diff();const Dtype* top_data = top[0]->cpu_data();Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();Dtype* scale_data = scale_.mutable_cpu_data();int channels = top[0]->shape(softmax_axis_);int dim = top[0]->count() / outer_num_;// bottom_diff = top_diff而top_diff是dloss/da(见我手写的公式推导) shape: Cx1caffe_copy(top[0]->count(), top_diff, bottom_diff);for (int i = 0; i < outer_num_; ++i) {// compute dot(top_diff, top_data) and subtract them from the bottom diff// dloss/da和a的内积(见我手写的公式推导),scale_data保存了该内积for (int k = 0; k < inner_num_; ++k) {scale_data[k] = caffe_cpu_strided_dot<Dtype>(channels,bottom_diff + i * dim + k, inner_num_,top_data + i * dim + k, inner_num_);}// subtraction// sum_multiplier_.cpu_data()由Reshape函数定义了该向量,shape: C×1,值都为1// 作用是把dloss/da和a的内积这个标量变成Cx1的行向量// bottom_diff = -1*sum_multiplier_.cpu_data()*scale_data+bottom_diff 大括号里的减法caffe_cpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, channels, inner_num_, 1,-1., sum_multiplier_.cpu_data(), scale_data, 1., bottom_diff + i * dim);}// elementwise multiplication// 大括号外的对应元素相乘caffe_mul(top[0]->count(), bottom_diff, top_data, bottom_diff);
}
SoftmaxWithLoss
公式推导:
template <typename Dtype>
void SoftmaxWithLossLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,const vector<bool>& propagate_down, const vector<Blob<Dtype>*>& bottom) {if (propagate_down[1]) {LOG(FATAL) << this->type()<< " Layer cannot backpropagate to label inputs.";}if (propagate_down[0]) {Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();const Dtype* prob_data = prob_.cpu_data();// 梯度全部设为: ak(见我手写的公式推导)caffe_copy(prob_.count(), prob_data, bottom_diff);const Dtype* label = bottom[1]->cpu_data();int dim = prob_.count() / outer_num_;int count = 0;for (int i = 0; i < outer_num_; ++i) {for (int j = 0; j < inner_num_; ++j) {const int label_value = static_cast<int>(label[i * inner_num_ + j]);// 设置ignor_label的地方,梯度设为0if (has_ignore_label_ && label_value == ignore_label_) {for (int c = 0; c < bottom[0]->shape(softmax_axis_); ++c) {bottom_diff[i * dim + c * inner_num_ + j] = 0;}} else {// 在k==y的地方把梯度改为: ak-1(见我手写的公式推导)bottom_diff[i * dim + label_value * inner_num_ + j] -= 1;++count;}}}// Scale gradientDtype loss_weight = top[0]->cpu_diff()[0] /get_normalizer(normalization_, count);caffe_scal(prob_.count(), loss_weight, bottom_diff);}
}
Softmax注意点
Softmax前传时有求指数的操作,如果z很小或者很大,很容易发生float/double的上溢和下溢。这个问题其实也是有解决办法的,caffe源码中求 exponential 之前将z的每一个元素减去z分量中的最大值。这样求 exponential 的时候会碰到的最大的数就是 0 了,不会发生 overflow 的问题,但是如果其他数原本是正常范围,现在全部被减去了一个非常大的数,于是都变成了绝对值非常大的负数,所以全部都会发生 underflow,但是 underflow 的时候得到的是 0,这其实是非常 meaningful 的近似值,而且后续的计算也不会出现奇怪的 NaN。
详情参考这篇博客Softmax vs. Softmax-Loss: Numerical Stability
template <typename Dtype>
void SoftmaxLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,const vector<Blob<Dtype>*>& top) {const Dtype* bottom_data = bottom[0]->cpu_data();Dtype* top_data = top[0]->mutable_cpu_data();Dtype* scale_data = scale_.mutable_cpu_data();int channels = bottom[0]->shape(softmax_axis_);int dim = bottom[0]->count() / outer_num_;caffe_copy(bottom[0]->count(), bottom_data, top_data);// We need to subtract the max to avoid numerical issues, compute the exp,// and then normalize.for (int i = 0; i < outer_num_; ++i) {// initialize scale_data to the first plane// 计算z分量中的最大值caffe_copy(inner_num_, bottom_data + i * dim, scale_data);for (int j = 0; j < channels; j++) {for (int k = 0; k < inner_num_; k++) {scale_data[k] = std::max(scale_data[k],bottom_data[i * dim + j * inner_num_ + k]);}}// subtractioncaffe_cpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, channels, inner_num_,1, -1., sum_multiplier_.cpu_data(), scale_data, 1., top_data);// exponentiationcaffe_exp<Dtype>(dim, top_data, top_data);// sum after expcaffe_cpu_gemv<Dtype>(CblasTrans, channels, inner_num_, 1.,top_data, sum_multiplier_.cpu_data(), 0., scale_data);// divisionfor (int j = 0; j < channels; j++) {caffe_div(inner_num_, top_data, scale_data, top_data);top_data += inner_num_;}}
}
参考博客
- 深度学习笔记8:softmax层的实现
- Caffe Softmax层的实现原理?
- cs231n 课程作业 Assignment 1
- pytorch loss function 总结
- 微调的回答: 为什么交叉熵(cross-entropy)可以用于计算代价?
Softmax与SoftmaxWithLoss原理及代码详解相关推荐
- DeepLearning tutorial(1)Softmax回归原理简介+代码详解
FROM: http://blog.csdn.net/u012162613/article/details/43157801 DeepLearning tutorial(1)Softmax回归原理简介 ...
- DeepLearning tutorial(3)MLP多层感知机原理简介+代码详解
FROM:http://blog.csdn.net/u012162613/article/details/43221829 @author:wepon @blog:http://blog.csdn.n ...
- DeepLearning tutorial(4)CNN卷积神经网络原理简介+代码详解
FROM: http://blog.csdn.net/u012162613/article/details/43225445 DeepLearning tutorial(4)CNN卷积神经网络原理简介 ...
- Pytorch|YOWO原理及代码详解(二)
Pytorch|YOWO原理及代码详解(二) 本博客上接,Pytorch|YOWO原理及代码详解(一),阅前可看. 1.正式训练 if opt.evaluate:logging('evaluating ...
- batchnorm原理及代码详解
转载自:http://www.ishenping.com/ArtInfo/156473.html batchnorm原理及代码详解 原博文 原微信推文 见到原作者的这篇微信小文整理得很详尽.故在csd ...
- 人脸识别SeetaFace2原理与代码详解
人脸识别SeetaFace2原理与代码详解 前言 一.人脸识别步骤 二.SeetaFace2基本介绍 三.seetaFace2人脸注册.识别代码详解 3.1 人脸注册 3.1.1 人脸检测 3.1.2 ...
- Pytorch | yolov3原理及代码详解(二)
阅前可看: Pytorch | yolov3原理及代码详解(一) https://blog.csdn.net/qq_24739717/article/details/92399359 分析代码: ht ...
- 【OpenCV/C++】KNN算法识别数字的实现原理与代码详解
KNN算法识别数字 一.KNN原理 1.1 KNN原理介绍 1.2 KNN的关键参数 二.KNN算法识别手写数字 2.1 训练过程代码详解 2.2 预测分类的实现过程 三.KNN算法识别印刷数字 2. ...
- BilSTM 实体识别_NLP-入门实体命名识别(NER)+Bilstm-CRF模型原理Pytorch代码详解——最全攻略
最近在系统地接触学习NER,但是发现这方面的小帖子还比较零散.所以我把学习的记录放出来给大家作参考,其中汇聚了很多其他博主的知识,在本文中也放出了他们的原链.希望能够以这篇文章为载体,帮助其他跟我一样 ...
最新文章
- TCPDUMP详解(续)
- 腾讯正式进军电商:小鹅拼拼,出自微信
- protobuf 下载、安装、编译
- etc/ld.so.conf
- 微型计算机简化结构,基于FPGA的简易微型计算机结构分析与实现
- 20171113_Python学习五周一次课
- 18 张图彻底弄懂 HTTPS 的原理!
- Spring Validation
- windows server 2003 IIS 调试 ASP时路径问题
- mysql 修改前缀_批量修改mysql的表前缀
- Atitit 让maven pom.xml不编译 1.build 2. defaultGoalinstall/defaultGoal 3. directory${bas
- SQL Server从入门到精通(三)
- POI导出Excel换行
- 软件工程造价师有用吗?
- 五胡十六国、东晋南北朝这280年历史,你知道多少?5000字带你看个清楚明白
- 解读机械图样——剖视图
- Java 大厂面试必刷题 Day1:何为面向对象编程的思想?面向对象三大特征是什么?
- a-upload文件夹上传
- ubuntu 安装GPU黑屏 修改GRUB_Ubuntu 18.04 安装笔记
- latex超级基础的文档手册——第二部分:符号、图片、表格
热门文章
- 如何打造自己的WebRTC 服务器
- bim计算机考试,2020年BIM等级考试练习题(十四)
- 显卡升级为啥总显示登录账号_苹果史上最重大更新,iOS13、iPadOS全放出,必须升级...
- 市场调研报告-全球与中国仅相位空间光调制器(SLM)市场现状及未来发展趋势
- [HEVC] Palette Mode
- VUE中实现三维地图Cesium加载全国地质管地质地图
- python免费对接快递鸟api单号识别查询接口
- java后台时间格式校验
- ja-netfilter 2022.1 配置
- CAP 理论 - zookeeper 和 eureka 比较