记录一些炼丹的心得(都是坑啊)

以下都是经过很多实验得到的炼丹心得,希望对大家有帮助

  1. 模型很复杂,各种网络融合,尝试用更小的学习率和更多的epoch
  2. 学习率预热是个好东西,必须用上,学习率很重要,可以发掘模型的极限,但是无法改变模型的上限,模型的上限取决于其结构,学习率预热在pytorch的实现方法:
from transformers import get_linear_schedule_with_warmup
# 总步长:batch的个数*epoches
t_total = len(train_loader) * epoches
# optimizer:优化器,num_warmup_steps:达到最大学习率的步长,如果为0则一开始就是最大学习率,num_training_steps:总步长
scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=0, num_training_steps=t_total)
  1. batch_size太小模型不收敛,太大显存吃不消,一般来说batch_size会有一个最大值,32,48,64都可以试试,batch增大,学习率也要稍微增大
  2. 全连接层不需要太复杂,2-3层即可,第二层神经元增加(×2,3,4都可以试试),第三层减小(/2, /10, /100都可以试试),第四层就是我们的输出个数了。
  3. 卷积层(convs)的卷积核个数(out_channels)一般和词(字)嵌入维度差不多,2/3 ~ 3/2 都可以试试。
  4. LSTM的隐藏状态纬度(hidden_size)一般和词(字)嵌入差不多大, 层数(num_layers)一般为1层,两层也可以试试,太多肯定不好。
  5. 不管在lstm里还是全连接层,Dropout是必须的,0.1即可,激活函数用RELU系列。
  6. 模型效果不好,思考一下是否需要归一化,不同向量融合时数值是否差距过大,考虑用全连接层nn.Linear进行一次线性变换。

【DL】血与泪的炼丹心得相关推荐

  1. 关于JavaScript,这10条血与泪的建议大家一定要看

    (注:本文翻译自国外著名杂志Noteworthy,文章在Medium编程类目冲上了一周热榜的榜首,本文版权归原作者The Cat with a Dragon Tattoo所有) 使用JavaScrip ...

  2. 腾讯云服务器备案全流程详细内容记录40天备案的血与泪

    本文原创首发CSDN,链接 腾讯云服务器备案全流程 40天备案的血与泪_郑为中-CSDN博客_腾讯云服务器备案 ,作者博客郑为中_CSDN博客 ,转载请带上本段内容,尤其是脚本之家.码神岛等平台,谢谢 ...

  3. 腾讯云服务器备案完整流程 40天备案的血与泪

    本文原创首发CSDN,链接 腾讯云服务器备案全流程 40天备案的血与泪_郑为中-CSDN博客_腾讯云服务器备案 ,作者博客郑为中_CSDN博客 ,转载请带上本段内容,尤其是脚本之家.码神岛等平台,谢谢 ...

  4. 入职一家初创公司第一周的血与泪

    入职一家初创公司第一周的血与泪 也可用于面试题: 你在工作中遇到过哪些难题?你都是怎么解决的? 问题:Springboot在Window与Linux中图片回显不出来 小程序后台管理系统,学员页面,学员 ...

  5. MongoDB--Linux下搭建的副本集集群(踩过的坑,血和泪的教训)

    MongoDB–Linux下搭建的副本集集群(踩过的坑,血和泪的教训) 文章目录 MongoDB--Linux下搭建的副本集集群(踩过的坑,血和泪的教训) 一:环境准备 二:安装步骤 三:启动 1.关 ...

  6. VC的血与泪,最难尽调的是人性————失败风投案例分析

    VC的血与泪,最难尽调的是人性----失败风投案例分析 风险投资(Venture Capital)简称是VC,在中国是一个约定俗成的具有特定内涵的概念,其实把它翻译成创业投资更为妥当.广义的风险投资泛 ...

  7. 炼丹心得|技术信仰有多重要,我们邀请到了这位大咖来聊聊

    编者按 炼丹,中国秘术也. 从灵材采撷到丹炉选取,从丹方配制到真火运用,乃是集天地之气,与日月同光的修行之道 深度学习,机器学习进阶也. 从海量原始数据抓取到模型的新数据预测,乃是图像识别和自然语言处 ...

  8. sqoop将hbase数据导入mysql_Sqoop将mysql数据导入hbase的血与泪

    Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章. 如需转载请标明出处: https://my.oschina.net/yunsh ...

  9. 含泪吐槽学C++的血与泪

    含泪吐槽学C++的血与泪 C++在各位程序猿眼里并不陌生,但凡学习过C++的人,都极有可能被它曾经蹂躏得不要不要的,而我就是其中一个. 文章目录 1 我和C++的那段血泪史 2 再次与C++重逢 3 ...

最新文章

  1. 算法-- 删除排序链表中的重复元素(Java)
  2. linux docker 指定容器工作目录
  3. Oracle的sqlplus登录方式
  4. 超级usb万能启动盘
  5. Error: java.lang.RuntimeException: java.lang.NoSuchMethodException: com.henu.WC $WCMapper.init()
  6. 让你的Mac读给你听,还能听写,用来练习英语口语!
  7. tftp工具_tftp,tftp等八款最佳的FTP客户端工具
  8. 网络工程师考试-计算机网络笔记
  9. 图灵革命如何颠覆我们对世界的认知?
  10. adjacent cache line prefetch
  11. NO.3 微信第三方平台代创建小程序审核发布以及小程序信息(头像,名称,简介)修改 以及微信错误码 返回信息
  12. 【Lee-Teambition】团队任务协作工具Teambition
  13. 地图、比例尺基本认识
  14. mysql派生表(Derived Table)简单解析使用的小例子
  15. 推荐几个好用的在线编译器
  16. JS之键盘事件案例(重要)
  17. 我的计算机光盘无法显示,为何电脑上插上光盘显示不出来
  18. Unity3D 取消发布游戏启动时的设置窗口并窗口化运行
  19. 10年,知乎为何依旧“赚钱难”?
  20. php 图片一摸一样,PHP实现图片相似度对比

热门文章

  1. 苹果确认了!iPhone 将改用 USB-C 接口
  2. java 生成分页sql_DataGrid连接Access的快速分页法——动态生成SQL语句
  3. 阿里安全专家BlackHat和DEFCON现场演示:一分钟越狱iOS 11.4
  4. Notes from Google Play | Google Play 持续助力您的应用和游戏
  5. 【零信任落地案例】吉大正元某大型集团公司零信任实践案例
  6. Dbeaver链接hive和impala
  7. cnpm和npm使用,遇到的问题及解决方法
  8. 【苹果相册推】Xcode项目,我们将其命名为mypushchat,以及调试的iOS设备
  9. Unity_粒子特效
  10. python类的封装是什么意思_python类封装 python中将函数和变量封装成类的好处