weight_decay防止过拟合的参数,使用方式:
1 样本越多,该值越小
2 模型参数越多,该值越大
一般建议值:
weight_decay: 0.0005

lr_mult,decay_mult
关于偏置与参数使用不同的学习率与权重衰减项:
1 偏置的学习率一般为参数的两倍
比如一个卷积,有偏置的话,其学习率应该是
  param { lr_mult: 1 }
  param { lr_mult: 2 }

偏置设为2倍,能够加速收敛

对于偏置,其衰减项一般设置为0,还是对应上面的卷积:
  param { lr_mult: 1
          decay_mult:1 }
  param { lr_mult: 2 
          decay_mult:0}

批处理,批处理中需要加上3个0,即批处理的参数是根据上一批的数据进行滑动平均来更新,而不是根据梯度来更新:
  param { lr_mult: 0 
          decay_mult:0} 
  param { lr_mult: 0 
          decay_mult:0}           
  param { lr_mult: 0 
          decay_mult:0} 
还有参数:use_global_stats
在训练时要设置为false,代表需要批处理的均值方差要参考全局信息来更新
在测试时,要为true,代表不使用自己均值方差和全局的均值方差来得到批处理的均值和方差,而是使用全局均值方差,即训练好的均值方差
另一个参数:moving_average_fraction
代表参考训练时均值方差更新的速度,默认是0.999,参考值是0.9~0.999之间
最后一个参数eps:
防止批处理时除以0,默认值是1e-5

caffe 下与loss相关的一些说明:
1 train loss 不断下降,test loss 不断下降,说明网络正在学习
2 train loss 不断下降,test loss 趋于不变,说明网络过拟合
3 train loss 趋于不变,test loss 趋于不变,说明学习遇到瓶颈,需要减小学习率或者批处理大小
4 train loss 趋于不变,test loss 不断下降,说明数据集100%有问题
5 train loss 不断上升,test loss 不断上升(最终变为NaN),可能是网络结构设计不当,训练超参数设置不当,程序bug等某个问题引起
6 train loss 不断上下跳动,可能引起的原因:学习率过大,或者批处理大小太小

---------------------
作者:跬步达千里
来源:CSDN
原文:https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/74453980
版权声明:本文为博主原创文章,转载请附上博文链接!

caffe 下一些参数的设置相关推荐

  1. darwin转发时,摄像机在3G和4G模式下的参数设置

    darwin转发时,摄像机在3G和4G模式下的参数设置 我们转发的是摄像机的子码流,因为在不同的网络环境下,为了达到当前网络环境下最清晰,最流畅的目标,在转发前要根据使用的是3G还是4G及信号强度来自 ...

  2. linux设置蓝牙可连接网络,Linux下蓝牙参数设置程序

    由于项目需要蓝牙功能,前些日子,我负责开发蓝牙模块,这个子项目主要涉及到获取蓝牙模块参数.设置蓝牙参数.多线程收发数据等 由于项目需要蓝牙功能,前些日子,我负责开发蓝牙模块,这个子项目主要涉及到获取蓝 ...

  3. 帆软参数设置_帆软报表(finereport)参数组合/下拉参数联动

    首先实现下拉参数联动 1.参数的定义→添加控件绑定数据→参数过滤和参数面板样式 下拉复选框控件注意事项: select * from table where 1=1 ${if(len(控件名称)=0, ...

  4. linux curl命令 post,linux环境下使用curl命令设置Header参数发送post请求

    linux环境下使用curl命令设置Header参数发送post请求 linux环境下使用curl命令设置Header参数发送post请求 案例1:curl命令发送post请求并且获取返回结果以及响应 ...

  5. Caffe下自己的数据训练和测试

    在caffe提供的例程当中,例如mnist与cifar10中,数据集的准备均是通过调用代码自己完成的,而对于ImageNet1000类的数据库,对于高校实验室而言,常常面临电脑内存不足的尴尬境地.而对 ...

  6. caffe 下测试 MNIST数据

    详细说明可参考网页:http://blog.csdn.net/wangchuansnnu/article/details/44341753                                ...

  7. 从.caffemodel/.caffemodel.h5提取Caffe模型的参数

    系列博客目录:Caffe转Pytorch模型系列教程 概述 目录 一.通用的提取参数方法 1.编译Caffe 2.打印.caffemodel的网络参数 3.保存.caffemodel的网络参数 二.提 ...

  8. 关于MySql链接url参数的设置 专题

    报错: Establishing SSL connection without server's identity verification is not recommended. According ...

  9. 【Android 组件化】路由组件 ( 注解处理器参数选项设置 )

    文章目录 一.注解处理器 接收参数设置 二.注解处理器 生成路由表 Java 代码 三.博客资源 组件化系列博客 : [Android 组件化]从模块化到组件化 [Android 组件化]使用 Gra ...

最新文章

  1. 智能家居 (3) ——智能家居工厂模式介绍实现继电器控制灯
  2. 【生活】我的2019年度总结
  3. Flutter加载Html并实现与JS 的双向调用
  4. 说说你对Jdk并发包中的CAS实现的了解?
  5. 每日算法系列【LeetCode 927】三等分
  6. flashlite3无法接入网络的解决办法
  7. 记录uluuuuuuu
  8. 【论文笔记】FaceNet: A Unified Embedding for Face Recognition and Clustering
  9. linux下查看CPU、内存、硬盘方法
  10. CSS-线性渐变无畸变-环形普通进度条-环形能量块进度条-局部环形普通进度条
  11. 恒指赵鑫:8.9恒指德指实盘指导记录总结与晚盘前瞻
  12. 2021.4.3en
  13. css3学习以及移动端开发基本概念的思考
  14. Vue3+elementplus搭建通用管理系统实例十五:界面美化及样式调整
  15. 飞飞影视php 漏洞,飞飞影视SQL injection exploit[转]
  16. 【跨境电商】5个最佳WordPress插件推荐
  17. 你们能送我一句加油的话吗?
  18. 计算机领域前沿热点研究方向,计算机科学前沿热点及发展趋势.pdf
  19. python新建文件夹代码_Python文件夹与文件的操作实现代码
  20. 会python_20小时学会Python,可能吗?

热门文章

  1. 2022-2028年中国儿童保健品行业市场研究及前瞻分析报告
  2. Docker入门六部曲——Swarm
  3. 2022-2028年中国乳制品行业市场需求预测与投资战略规划分析报告
  4. 手撸一个JdbcTemplate,带你了解其原理
  5. 【Spring】事务控制API
  6. SpringBoot (一) :入门篇 Hello World
  7. 矩阵的卷积核运算(一个简单小例子的讲解)深度学习
  8. 计算机组成原理中的“上溢”和“下溢”分别的定义是什么?
  9. PyTorch学习笔记——softmax和log_softmax的区别、CrossEntropyLoss() 与 NLLLoss() 的区别、log似然代价函数...
  10. FPGA多功能应用处理器