一直对softmax的反向传播的caffe代码看不懂,最近在朱神的数学理论支撑下给我详解了它的数学公式,才豁然开朗

SoftmaxWithLoss的由来

SoftmaxWithLoss也被称为交叉熵loss。
回忆一下交叉熵的公式,H(p,q)=−∑jpjlogqjH(p,q)=−∑jpjlog⁡qjH(p, q) = -\sum_j p_j\log q_j,其中向量 ppp是原始的分布,这里指的是 ground-truth label,具体是 One-hot 编码结果。q" role="presentation">qqq则是模型预测的输出,且 qj=efj∑jefjqj=efj∑jefjq_j = \frac{e^{f_j}}{\sum_j e^{f_j}},由于 ppp 是one-hot向量,里面一堆的零只有 label 那项会保留下来,即H(p,q)=−plabellog⁡qlabel=−log⁡qlabel=eflabel∑jefj" role="presentation">H(p,q)=−plabellogqlabel=−logqlabel=eflabel∑jefjH(p,q)=−plabellog⁡qlabel=−log⁡qlabel=eflabel∑jefjH(p, q) = - p_{label} \log q_{label} = - \log q_{label} = \frac{e^{f_{label} }}{\sum_j e^{f_j}} 。

再考虑交叉熵,因为 H(p,q)=H(p)+DKL(p‖q)H(p,q)=H(p)+DKL(p‖q)H(p, q) = H(p) + D_{KL}(p\|q)( 交叉熵= KL散度 + 熵),而 H(p)=0H(p)=0H(p) = 0,所以最小化交叉熵,其实就是最小化 KLKL 散度,也就是想让两个分布尽量相同。

上面是信息论的角度来看 Softmax,其实也可以用概率的角度来解释,即把结果看做是对每个类别预测分类的概率值,p(yi|xi;W)=efyi∑jefjp(yi|xi;W)=efyi∑jefjp(y_i | x_i;W) = \frac{e^{f_{y_i}}}{\sum_j e^{f_j}},因为有归一化的步骤,所以可以看做合法的概率值。

Softmax

公式推导:

// top_diff是下一层传过来的梯度,bottom_diff是该层往前反传的梯度
// top_data是该层输出到下一层的结果
template <typename Dtype>
void SoftmaxLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,const vector<bool>& propagate_down,const vector<Blob<Dtype>*>& bottom) {const Dtype* top_diff = top[0]->cpu_diff();const Dtype* top_data = top[0]->cpu_data();Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();Dtype* scale_data = scale_.mutable_cpu_data();int channels = top[0]->shape(softmax_axis_);int dim = top[0]->count() / outer_num_;// bottom_diff = top_diff而top_diff是dloss/da(见我手写的公式推导) shape: Cx1caffe_copy(top[0]->count(), top_diff, bottom_diff);for (int i = 0; i < outer_num_; ++i) {// compute dot(top_diff, top_data) and subtract them from the bottom diff// dloss/da和a的内积(见我手写的公式推导),scale_data保存了该内积for (int k = 0; k < inner_num_; ++k) {scale_data[k] = caffe_cpu_strided_dot<Dtype>(channels,bottom_diff + i * dim + k, inner_num_,top_data + i * dim + k, inner_num_);}// subtraction// sum_multiplier_.cpu_data()由Reshape函数定义了该向量,shape: C×1,值都为1// 作用是把dloss/da和a的内积这个标量变成Cx1的行向量// bottom_diff = -1*sum_multiplier_.cpu_data()*scale_data+bottom_diff 大括号里的减法caffe_cpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, channels, inner_num_, 1,-1., sum_multiplier_.cpu_data(), scale_data, 1., bottom_diff + i * dim);}// elementwise multiplication// 大括号外的对应元素相乘caffe_mul(top[0]->count(), bottom_diff, top_data, bottom_diff);
}

SoftmaxWithLoss

公式推导:

template <typename Dtype>
void SoftmaxWithLossLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,const vector<bool>& propagate_down, const vector<Blob<Dtype>*>& bottom) {if (propagate_down[1]) {LOG(FATAL) << this->type()<< " Layer cannot backpropagate to label inputs.";}if (propagate_down[0]) {Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();const Dtype* prob_data = prob_.cpu_data();// 梯度全部设为: ak(见我手写的公式推导)caffe_copy(prob_.count(), prob_data, bottom_diff);const Dtype* label = bottom[1]->cpu_data();int dim = prob_.count() / outer_num_;int count = 0;for (int i = 0; i < outer_num_; ++i) {for (int j = 0; j < inner_num_; ++j) {const int label_value = static_cast<int>(label[i * inner_num_ + j]);// 设置ignor_label的地方,梯度设为0if (has_ignore_label_ && label_value == ignore_label_) {for (int c = 0; c < bottom[0]->shape(softmax_axis_); ++c) {bottom_diff[i * dim + c * inner_num_ + j] = 0;}} else {// 在k==y的地方把梯度改为: ak-1(见我手写的公式推导)bottom_diff[i * dim + label_value * inner_num_ + j] -= 1;++count;}}}// Scale gradientDtype loss_weight = top[0]->cpu_diff()[0] /get_normalizer(normalization_, count);caffe_scal(prob_.count(), loss_weight, bottom_diff);}
}

Softmax注意点

Softmax前传时有求指数的操作,如果z很小或者很大,很容易发生float/double的上溢和下溢。这个问题其实也是有解决办法的,caffe源码中求 exponential 之前将z的每一个元素减去z分量中的最大值。这样求 exponential 的时候会碰到的最大的数就是 0 了,不会发生 overflow 的问题,但是如果其他数原本是正常范围,现在全部被减去了一个非常大的数,于是都变成了绝对值非常大的负数,所以全部都会发生 underflow,但是 underflow 的时候得到的是 0,这其实是非常 meaningful 的近似值,而且后续的计算也不会出现奇怪的 NaN。

详情参考这篇博客Softmax vs. Softmax-Loss: Numerical Stability

template <typename Dtype>
void SoftmaxLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom,const vector<Blob<Dtype>*>& top) {const Dtype* bottom_data = bottom[0]->cpu_data();Dtype* top_data = top[0]->mutable_cpu_data();Dtype* scale_data = scale_.mutable_cpu_data();int channels = bottom[0]->shape(softmax_axis_);int dim = bottom[0]->count() / outer_num_;caffe_copy(bottom[0]->count(), bottom_data, top_data);// We need to subtract the max to avoid numerical issues, compute the exp,// and then normalize.for (int i = 0; i < outer_num_; ++i) {// initialize scale_data to the first plane// 计算z分量中的最大值caffe_copy(inner_num_, bottom_data + i * dim, scale_data);for (int j = 0; j < channels; j++) {for (int k = 0; k < inner_num_; k++) {scale_data[k] = std::max(scale_data[k],bottom_data[i * dim + j * inner_num_ + k]);}}// subtractioncaffe_cpu_gemm<Dtype>(CblasNoTrans, CblasNoTrans, channels, inner_num_,1, -1., sum_multiplier_.cpu_data(), scale_data, 1., top_data);// exponentiationcaffe_exp<Dtype>(dim, top_data, top_data);// sum after expcaffe_cpu_gemv<Dtype>(CblasTrans, channels, inner_num_, 1.,top_data, sum_multiplier_.cpu_data(), 0., scale_data);// divisionfor (int j = 0; j < channels; j++) {caffe_div(inner_num_, top_data, scale_data, top_data);top_data += inner_num_;}}
}

参考博客

  • 深度学习笔记8:softmax层的实现
  • Caffe Softmax层的实现原理?
  • cs231n 课程作业 Assignment 1
  • pytorch loss function 总结
  • 微调的回答: 为什么交叉熵(cross-entropy)可以用于计算代价?

Softmax与SoftmaxWithLoss原理及代码详解相关推荐

  1. DeepLearning tutorial(1)Softmax回归原理简介+代码详解

    FROM: http://blog.csdn.net/u012162613/article/details/43157801 DeepLearning tutorial(1)Softmax回归原理简介 ...

  2. DeepLearning tutorial(3)MLP多层感知机原理简介+代码详解

    FROM:http://blog.csdn.net/u012162613/article/details/43221829 @author:wepon @blog:http://blog.csdn.n ...

  3. DeepLearning tutorial(4)CNN卷积神经网络原理简介+代码详解

    FROM: http://blog.csdn.net/u012162613/article/details/43225445 DeepLearning tutorial(4)CNN卷积神经网络原理简介 ...

  4. Pytorch|YOWO原理及代码详解(二)

    Pytorch|YOWO原理及代码详解(二) 本博客上接,Pytorch|YOWO原理及代码详解(一),阅前可看. 1.正式训练 if opt.evaluate:logging('evaluating ...

  5. batchnorm原理及代码详解

    转载自:http://www.ishenping.com/ArtInfo/156473.html batchnorm原理及代码详解 原博文 原微信推文 见到原作者的这篇微信小文整理得很详尽.故在csd ...

  6. 人脸识别SeetaFace2原理与代码详解

    人脸识别SeetaFace2原理与代码详解 前言 一.人脸识别步骤 二.SeetaFace2基本介绍 三.seetaFace2人脸注册.识别代码详解 3.1 人脸注册 3.1.1 人脸检测 3.1.2 ...

  7. Pytorch | yolov3原理及代码详解(二)

    阅前可看: Pytorch | yolov3原理及代码详解(一) https://blog.csdn.net/qq_24739717/article/details/92399359 分析代码: ht ...

  8. 【OpenCV/C++】KNN算法识别数字的实现原理与代码详解

    KNN算法识别数字 一.KNN原理 1.1 KNN原理介绍 1.2 KNN的关键参数 二.KNN算法识别手写数字 2.1 训练过程代码详解 2.2 预测分类的实现过程 三.KNN算法识别印刷数字 2. ...

  9. BilSTM 实体识别_NLP-入门实体命名识别(NER)+Bilstm-CRF模型原理Pytorch代码详解——最全攻略

    最近在系统地接触学习NER,但是发现这方面的小帖子还比较零散.所以我把学习的记录放出来给大家作参考,其中汇聚了很多其他博主的知识,在本文中也放出了他们的原链.希望能够以这篇文章为载体,帮助其他跟我一样 ...

最新文章

  1. TCPDUMP详解(续)
  2. 腾讯正式进军电商:小鹅拼拼,出自微信
  3. protobuf 下载、安装、编译
  4. etc/ld.so.conf
  5. 微型计算机简化结构,基于FPGA的简易微型计算机结构分析与实现
  6. 20171113_Python学习五周一次课
  7. 18 张图彻底弄懂 HTTPS 的原理!
  8. Spring Validation
  9. windows server 2003 IIS 调试 ASP时路径问题
  10. mysql 修改前缀_批量修改mysql的表前缀
  11. Atitit 让maven pom.xml不编译 1.build   2.  defaultGoalinstall/defaultGoal   3.  directory${bas
  12. SQL Server从入门到精通(三)
  13. POI导出Excel换行
  14. 软件工程造价师有用吗?
  15. 五胡十六国、东晋南北朝这280年历史,你知道多少?5000字带你看个清楚明白
  16. 解读机械图样——剖视图
  17. Java 大厂面试必刷题 Day1:何为面向对象编程的思想?面向对象三大特征是什么?
  18. a-upload文件夹上传
  19. ubuntu 安装GPU黑屏 修改GRUB_Ubuntu 18.04 安装笔记
  20. latex超级基础的文档手册——第二部分:符号、图片、表格

热门文章

  1. 如何打造自己的WebRTC 服务器
  2. bim计算机考试,2020年BIM等级考试练习题(十四)
  3. 显卡升级为啥总显示登录账号_苹果史上最重大更新,iOS13、iPadOS全放出,必须升级...
  4. 市场调研报告-全球与中国仅相位空间光调制器(SLM)市场现状及未来发展趋势
  5. [HEVC] Palette Mode
  6. VUE中实现三维地图Cesium加载全国地质管地质地图
  7. python免费对接快递鸟api单号识别查询接口
  8. java后台时间格式校验
  9. ja-netfilter 2022.1 配置
  10. CAP 理论 - zookeeper 和 eureka 比较