点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:机器之心

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

神经网络的 debug 过程着实不容易,这里是一些有所帮助的 tips。

基于神经网络的项目瓶颈通常并非对网络的实现。有时候,在编写了所有代码并尝试了一大堆超参数配置之后,网络就是无法正常工作。尤其是面对着数百万的参数, 任何一个小变动都有可能前功尽弃。

在面对各种各样的问题后,有人总结了一些帮助调试神经网络的实用 tips,希望能够减少大家调试神经网络的成本。

检查梯度问题

有时梯度是引发问题的原因。下面是几种与梯度相关的调试方法:

  • 数值计算每个权重的梯度。这通常被称为「梯度检查」,有助于确保正确计算梯度,其中一种方法是使用有限差分。

  • 比较每个权重的大小和梯度的大小。要确保大小的比率是合理的。如果梯度大小远小于权重大小,网络将花费很长时间进行训练。如果梯度大小与权重大小大致相同或更大,网络将非常不稳定,可能根本不会训练。

  • 检查梯度爆炸或消失。如果梯度变为 0 或 nan/infinity,则可以确定网络没有被正确训练。需要首先弄清楚为什么会发生爆炸 / 消失梯度,是否步数太大。一旦弄清楚梯度爆炸 / 消失的原因,就有各种解决方案来解决这个问题,例如添加残差连接以更好地传播梯度或简单地使用较小的网络。

  • 激活函数也会导致梯度爆炸 / 消失。如果 sigmoid 激活函数的输入太大,梯度将非常接近 0。随着时间的推移检查激活函数的输入,然后确保这些输入不会导致梯度始终为 0 或很大。

检查训练过程

经常检查网络的训练进度可以节省时间。以训练贪吃蛇游戏为例,不是训练网络好几天,然后再检查网络是否学到了什么,而是每十分钟用当前学到的权重运行游戏。几个小时后,如果我们注意到每次都在做同样的事情并且获得零奖励,就知道可能有问题了,而这节省了几天的训练时间。

不要依赖定量输出

如果只查看定量输出,我们可能会错过有用的调试信息。例如,在训练语音翻译网络时,比起只检查评估函数是否在减少,更重要的是阅读翻译后的语音以确保它有意义;当训练一个用于图像识别的网络时,一定要确保手动检查网络提供的标签。

不应该依赖定量输出的原因有两个:首先,评估函数中可能存在错误。如果只查看错误评估函数输出的数字,可能需要数周时间才能意识到出现问题。其次,在神经网络输出中可能存在无法定量显示的错误模式。我们可能会意识到某个特定单词总是被错误翻译,或者在左上象限的图像识别网络总是错误的。这些观察结果反过来可以帮助找到数据处理部分的代码 bug,否则这些 bug 将被忽视。

尝试小数据集

确定代码是否存在 bug 或数据是否难以训练的另一种方法是首先拟合较小的数据集,比如将数据集中 100000 个训练示例修剪成只有 100 个甚至 1 个训练示例。如果在一个训练示例的情况下,网络仍然有很高的测试错误,不能够非常好地拟合数据,那么几乎可以肯定网络代码有问题。

尝试更简单的网络

如果全尺寸网络在训练时遇到问题,可以尝试使用层数较少的较小网络,这样可以更快地训练。如果较小的网络在全尺寸网络失败的情况下成功了,则表明全尺寸模型的网络架构过于复杂。如果简单网络和全尺寸网络都失败,则代码中可能存在 bug。

试着使用框架

如果没有使用机器学习框架编写神经网络的代码,那么可以通过在机器学习框架中编写相同的网络架构来检查问题何在。然后将打印语句放入非框架版本和框架版本中逐层比较输出,直到找到打印语句出现差异的位置,即错误所在。如果在反向传播期间发生错误,则可以从最后一层开始逐层打印权重的渐变,直到找到差异。但是此方法仅适用于网络的第一次迭代,因为由于第一次迭代输出的差异,第二次及以后的迭代将具有不同的起点。

参考内容:https://towardsdatascience.com/debugging-tips-for-neural-networks-f7dc699d6845

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

收藏 | 神经网络debug 6大技巧!相关推荐

  1. 果断收藏!Git和GitHub大神常用的20个技巧!

    果断收藏!Git和GitHub大神常用的20个技巧! Git不仅是编程世界最流行的分布式版本控制系统,而且你还可以用它查找,分享以及优化你的代码.接下来就来看看怎样让Git和GitHub更好地为你服务 ...

  2. GAN最新进展:8大技巧提高稳定性

    生成对抗网络GAN很强大,但也有很多造成GAN难以使用的缺陷.本文介绍了可以克服GAN训练缺点的一些解决方案,有助于提高GAN性能. 生成对抗网络 (GAN) 是一类功能强大的神经网络,具有广泛的应用 ...

  3. 原生态纯JavaScript 100大技巧大收集---你值得拥有

    原生态纯JavaScript 100大技巧大收集---你值得拥有 1.原生JavaScript实现字符串长度截取 function cutstr(str, len) {var temp;var ico ...

  4. 如果神经网络规模足够大,会产生智能吗?

    作者:桔了个仔 链接:https://www.zhihu.com/question/408690594/answer/1363115251 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非 ...

  5. Word画线条5大技巧,简单实用!

    [Word画线条5大技巧,简单实用!]1.输入三个"=",回车,就是一条双直线:2.输入三个"~",回车,就是一条波浪线:3.输入三个""回 ...

  6. [收藏]整理了一些T-SQL技巧

    [收藏]整理了一些T-SQL技巧 一. 只复制一个表结构,不复制数据 二. 获取数据库中某个对象的创建脚本 三. 分隔字符串 四. 一条语句执行跨越若干个数据库 五. 怎样获取一个表中所有的字段信息 ...

  7. ASP.NET应用程序设计的10大技巧

    ASP.NET应用程序设计的10大技巧 [ ASP.NET应用程序设计的10大技巧 | 责任编辑: 51欢乐吧 - 关涛 | 2007-09-25 10:38:16 ] 调整字体大小: 大 | 中 | ...

  8. jQuery Mobile高手必备的十大技巧和代码片段

    本文转自51ito布加迪编译版本: http://mobile.51cto.com/hot-276160.htm 其中未发现英文原作链接,为尊重版权,google之后附上: http://www.we ...

  9. cocos 禁掉快速点击_win10系统快速运行debug程序的技巧

    win10系统快速运行debug程序的技巧 dosBox和程序对很多用户来说都是非常陌生的,其中debug对用户来说亦是如此,其实debug程序是开发工具中的一种,作为系统中预装的开发工具在系统中存在 ...

最新文章

  1. oracle asm dd命令,ASM来用DD命令模拟数据块损坏
  2. java 静态 编译_Java中的动态和静态编译实例详解
  3. 运动目标检测_单高斯背景建模
  4. Mysqlbackup备份还原初识
  5. Android典型界面设计(3)——访网易新闻实现双导航tab切换
  6. 系统设计:github上学习如何设计大型系统的项目
  7. iqc工作职责和工作内容_监理工程师工作职责
  8. java avi转mp4_视频转GIF很麻烦?不!只需三步
  9. MySQL筛选重复数据
  10. android手机上传不了图片,【报Bug】nvue页面使用web-view组件,安卓手机无法调用页面的input标签上传图片...
  11. 56)函数模板的基本语法
  12. VirtualBox中,WIN虚拟机与WIN共享文件夹
  13. 综合项目之闪讯破解(六)之 如何解决程序/C++Dll的兼容性问题
  14. gitbook:gitbook-cli\node_modules\npm\node_modules\graceful-fs\polyfills.js
  15. jquery获取checkbox选中的值
  16. INH-RFP-BSA-NPs载INH和RFP白蛋白纳米粒/载卡巴他赛的白蛋白纳米粒的制备
  17. Cream Finance 重入漏洞事件分析
  18. 阅读作业第一弹——移山之道 by 吴煜
  19. 中科图灵发布国内首家开源免费的智慧消防云平台
  20. 网站栏目如何改为html页面,dedecms 栏目页面转换为单独页面

热门文章

  1. python 找出图片中的差异点,python opencv对目录下图片进行去重的技巧
  2. python copy函数用法_python shutil模块函数copyfile和copy的区别
  3. java 解析时间字符串_Java8解析给定字符串的日期或日期时间格式
  4. html条件查询的页面,如何在 url 中记录页面搜索条件
  5. php5.4配置gd库,php配置GD库
  6. 如何在django项目中使用django-ckeditor
  7. python学习06
  8. 【NLP_Stanford课堂】语言模型1
  9. redis设置key的有效期
  10. 设计模式8(享元模式,解释器模式)