摘要: 继Ian Goodfellow的推特小课堂之后,特斯拉的人工智能研究负责人、李飞飞斯坦福高徒Andrej Karpathy也在twitter上分享了他对神经网络的一些研究技巧。

继Ian Goodfellow的推特小课堂之后,特斯拉的人工智能研究负责人、李飞飞斯坦福高徒Andrej Karpathy也在twitter上分享了他对神经网络的一些研究技巧。

昨晚,他连发几条twitter,细数了六种神经网络研究中的常见错误。引发了一波研究者们对于自己入过坑的吐槽。

image

来看一下Ian Goodfellow让你当心的这六个坑吧:

最常见的神经网络错误:
没有先试过所有数据一批处理
忘了为网络切换训练/评估模式
忘了在.backward()之前.zero_grad()(在pytorch中)
将softmaxed输出传递给预期原始logits的损失
使用BatchNorm时,您没有对线性/ 二维卷积层使用bias = False,或者反过来忘记将其包含在输出层中。 这个倒不会让你失败,但它们是虚假的参数
以为view()和permute()是一样的事情(不正确地使用view)

之后,在评论区,也有读者针对“对数据初始化”展开了讨论。

对此,Ian也进一步详细解释:

是的,有几次我重新打开数据,得到的损失值却一致,而且如果这样做会产生一个漂亮的损失曲线,这表明对数据初始化并不是明智的做法。我有时喜欢调整最后一层偏差,使之接近基础分布。

我喜欢先从最简单的开始,例如,先对所有未处理的数据进行训练,看看基本输出分布的表现如何,然后逐增加输入和扩大网络,确保每次都比以前的表现更好。请添加链接描述

转载于:https://blog.51cto.com/13852775/2136602

学界 !李飞飞高徒Andrej Karpathy提醒你,小心搭建神经网络的六个坑相关推荐

  1. 李飞飞高徒 Andrej Karpathy:计算机科学博士的生存指南

    李飞飞高徒 Andrej Karpathy:计算机科学博士的生存指南 英文版:A Survival Guide to a PhD

  2. 李飞飞高徒Andrej Karpathy为大家答疑解惑

    编者按:李飞飞高徒Andrej Karpathy2015年在斯坦福大学获得计算机科学专业博士,2016进入OpenAI工作,主要研究兴趣为:深度学习,生成模型和强化学习.2011至2015年先后在Go ...

  3. 李飞飞高徒Andrej Karpathy用AI撰写内心独白:我的“进化”之路

    作者 | 白莎莎 编辑 | 陈彩娴 转自:AI科技评论 近日,李飞飞学生.现任特斯拉 AI 部门高级总监的Andrej Karpathy在其Github博客上发表了一篇题为"Short St ...

  4. ​“从0到1手搓GPT”教程来了!李飞飞高徒出品,马斯克点赞!

    来源:量子位 "从0到1手搓GPT"教程来了! 视频1个多小时,从原理到代码都一一呈现,训练微调也涵盖在内,手把手带着你搞定. 该内容刚发出来,在Twitter已吸引400万关注量 ...

  5. 【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

    在新智元上一篇文章中,Jim Fan(范麟熙)介绍了强化学习的概念和目的.今天是<强化学习炼金术>Introduction第三讲. 在这一课里,Jim Fan会跟各位炼金术师们聊一聊游戏中 ...

  6. ECCV 2020最佳论文讲了啥?作者为ImageNet一作、李飞飞高徒邓嘉

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 作为计算机视觉三大顶会之一,备受瞩目的ECCV 2020(欧洲计算机视觉国际会议)最近公布了所有奖项. 其中,最佳论文奖被ImageNet一 ...

  7. ECCV 2020最佳论文讲了什么?作者为ImageNet一作、李飞飞高徒

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习> ...

  8. 李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜

    来源:新智元 人工智能的爆炸正在扭曲我们的时间感. 你能相信Stable Diffusion只有4个月大,而ChatGPT的出现还不到一个月吗? 打个形象的比喻,只要眨一下眼,你就会错过一个全新的行业 ...

  9. 【强化学习炼金术】李飞飞高徒带你一文读懂RL来龙去脉

    强化学习炼金术 · 背景介绍(上) 欢迎来到<强化学习炼金术>第一讲.手摇芭蕉扇,支起八仙炉,再点上三昧真火.各位炼金术师,你们都准备好了吗? 在这一课里,我会跟大家说说强化学习的概念和目 ...

最新文章

  1. 继续咸鱼——2.18
  2. struts2中解决下载文件名中文乱码问题
  3. 硅谷蓝图创始人 Patrick:数据驱动规模化增长
  4. 分析现有 WPF / Windows Forms 程序能否顺利迁移到 .NET Core 3.0
  5. JS-this的使用
  6. Java 反射常用方法
  7. 关于蜂蜜牛奶供养佛菩萨的两段经文
  8. 实战 Nginx 与 PHP(FastCGI)的安装、配置与优化
  9. java 播放h264_一个可以解码并实时播放H264的播放器
  10. 15个国外最佳免费图片素材网站,快让小伙伴都知道
  11. C语言实现三种死循环
  12. 北京大学创业训练营专家讲座:创新大师乔布斯的创业理念与营销哲学
  13. 《读者》的“卷首语” (五)
  14. centos虚拟机上网慢的问题
  15. 服务器虚拟化双活,分布式双活数据中心部署模式
  16. android 3dtouch插件,标注点支持3DTouch效果
  17. 快速处理-小程序/uniapp,showToast没有效果
  18. 【AEC】【拍乐云Pano 】回声消除(AEC)怎么理解?
  19. [BJDCTF 2nd]燕言燕语-y1ng解析
  20. 懒惰使人沉睡;懈怠的人必受饥饿。

热门文章

  1. 2018.12.17知识感悟
  2. 传感器自学笔记第十六章——双轴摇杆模块
  3. SQL Server数据库基础知识汇总
  4. DPVO:深度patch视觉里程计(arXiv 2022)
  5. OpenJudge P4979 海贼王之伟大航路 DFS
  6. 2019上交计算机考研分数线,上海交通大学2019考研复试分数线已公布
  7. UNITY--读取Excel
  8. mysql server version_MYSQL错误:MySQL server version for the right syntax to use nea
  9. 计算机永远无法处理日语所具有的暧昧性,计算机永远无法处理日语所具有的暧昧性。() 答案:错误...
  10. C语言多线程的应用--局域网中多台计算机对同一文件读写