深度神经网络往往带有大量的参数,但依然表现出很强的泛化能力(指训练好的模型在未见过的数据上的表现)。深度神经网络为何会拥有如此强的泛化能力?2016年、2017年的两篇论文引起了广泛思考。

神经网络通过记忆学习

《Understanding deep learning requires rethinking generalization》 一文通过实验得出初步结论:

  神经网络极易记忆训练数据,其良好的泛化能力很可能与此记忆有关。

传统观点
  传统方法认为模型对训练数据的记忆是导致泛化能力差的重要原因,因此往往通过各种各样的正则化手段使得模型“简约”,从而打破这种记忆。

论文观点
  深度神经网络极易记忆数据,常用的正则化手段对于模型泛化能力的提高不是必要的而且也不足以控制泛化误差。深度神经网络发挥作用时可能很好的利用了其记忆能力。

论文实验
  论文通过大量试验挑战了传统机器学习的观点。

  实验一结果是:哪怕是随机的label、随机的噪声,神经网络也能获得零训练误差。虽然训练时间变长,测试误差也变高。因此,作者得出了结论:神经网络极易记忆数据,其泛化能力很可能与记忆有关。

我的看法
  作者试验中保证网络参数量大于数据量的2倍,如此巨大的网络能够记忆训练数据似乎一点也不让人惊奇。作者用零训练误差来表示网络记忆了数据,但对于正确label和随机label而言,同样的零训练误差可能代表完全不同形式的“记忆”,因此不能简单就说明神经网络的能力和记忆有关。

  实验二表图比较说明三种类型的显式正则化:data augmentation, weight decay and dropout的效果。 结论是:这些正则化手段虽然有助于减小泛化误差,但即使没用这些手段,模型依然可以比较好的泛华。即正则化不是模型泛化的根本原因。

神经网络 不 通过记忆学习

《DEEP NETS DON’T LEARN VIA MEMORIZATION》

文章结论
  深度神经网络的性能并非来自“记忆”, 而是源于在有限数据上学习简单的、切合的可用假设。

  实验一现象:对于真实数据,网络可以用较少的参数获得较好的性能;对于噪声,则需要增加网络容量。

  结论: 这暗示网络是在学习某种“模式”,而不是简单的暴力记忆。

  实验二现象:减小网络容量或者增加数据集的大小会使网络收敛速度变慢,但这一现象对真实数据并不明显。

  结论: 这暗示网络是在学习某种“模式”,而不是简单的暴力记忆。(否则的话,样本增多,训练速度应该变慢很多。)

—————————————————————————————

参考资料
[1] 新智元文章:【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

[2] Reddit评论

[3] ICLR 论文公开评审

思考深度学习的泛化能力相关推荐

  1. 从傅里叶分析角度解读深度学习的泛化能力

    作者丨许志钦 学校丨纽约大学阿布扎比分校博士后,纽约大学库朗研究所访问学者 研究方向丨计算神经科学,深度学习理论 深度学习成功地应用在很多领域,但对它的理论理解却非常缺乏.这两年,很多理论学家把关注点 ...

  2. 深度学习提高泛化能力的技术

    LeetCode题目记录 1.泛化能力(generalization) 2.正则化(regularization) 2.1 正则化方法 1.泛化能力(generalization) 对于模型,我们不仅 ...

  3. 评估方法提高深度学习模型泛化能力

    三种经典的评估方法提高模型泛化能力 ①留出验证:评估模型时,将数据划分为训练集.验证集.测试集.(比较适合大数据集) 在训练数据上训练模型,在验证数据上评估模型,最后在测试数据上测试最佳参数的模型. ...

  4. 深度学习:泛化能力、不收敛

    文章目录 一.什么是"泛化能力" 二.什么是"不收敛"? 一.什么是"泛化能力" 是指一个机器学习算法对于没有见过的样本的识别能力.我们也叫 ...

  5. 图解深度学习-提高泛化能力的方法

    数据集 在深度学习的训练过程中,神经网络的类型和结构固然重要,但训练样本才是重中之重. 数据增强 当训练样本数量较少时,可以通过数据增强来增加样本的多样性. 数据增强就是通过对样本图像进行平移.旋转. ...

  6. 如何提高深度学习的泛化能力?

    数据增强 在样本有限的情况下,采用数据增强的方法对原有样本进行变换: 平移.旋转.镜像翻转 几何变换.对比度变换.颜色变换.添加随机噪声.图像模糊 弹性变换算法:双线性插值.双三次插值 预处理 均值减 ...

  7. 斯坦福马腾宇:用显式正则器提升深度神经网络的泛化能力

    2019年12月30日,在"智源论坛·海外学者学术报告会"上,斯坦福大学计算机科学和统计学助理教授马腾宇博士做了<为深度模型设计显式正则器>的主题演讲.马腾宇,本科就读 ...

  8. python3人工智能网盘_《Python3入门人工智能掌握机器学习+深度学习提升实战能力》百度云网盘资源分享下载[MP4/5.77GB]...

    内容简介 本资源为<Python3入门人工智能掌握机器学习+深度学习提升实战能力>百度云网盘资源分享下载,具体看下文目录,格式为MP4/5.77GB.本资源已做压缩包处理,请勿直接在百度网 ...

  9. 关于深度学习模型泛化问题的一些思考

    1.假设只有一个source domain的训练数据,那么训练时就会存在一个精度与泛化能力之间平衡的问题 精度是要求在source domain上效果好,而泛化能力是要求模型在未知的target do ...

最新文章

  1. 提升深度学习模型性能及网络调参
  2. 通过java.util.concurrent写多线程程序
  3. sql 减法_SQL学习笔记整理(持更)
  4. [转] 前端异常监控解决方案研究
  5. CRM_ORDER_PR_ASSIGN_SELECT_CB
  6. 孤傲授权系统网站源码
  7. C++获取exe文件版本号
  8. python怎么读取中文文件-python: py2下 中文 的 文件读写 及 打印
  9. 近期解决问题经历和感悟
  10. 小程序UI库 iView Weapp
  11. 读书笔记-《 我的成功可以复制》四
  12. 中文繁体与简体字转换
  13. Java---SSM---Spring(1)
  14. 分享Python采集的77个PHP整站程序源码
  15. SoapUI-一款强大的Rest和Soap测试工具
  16. 蓝桥杯第十二届真题解析
  17. Asp.Net头部动态加载css和js文件的方法
  18. 【虚拟现实】Unity3D+VR的实现
  19. 同济大学高等数学上册电子版_函数的凹凸性漫谈|高等数学漫步(二)
  20. 5.2 我们要什么样的知识和能力结构?——《逆袭大学》连载

热门文章

  1. 餐饮如何运用人工智能
  2. 迷宫问题的DFS和BFS解法
  3. 七鑫易维彭凡演讲实录:眼球追踪技术让VR更“人性”
  4. Git 报错:You have not concluded your cherry-pick (CHERRY_PICK_HEAD exists).Please, commit your changes
  5. 用Python做一个抢票脚本,演唱会门票轻松到手!
  6. matlab nan变成0_最优化计算与matlab实现(17)——粒子群优化算法——带压缩因子的粒子群算法...
  7. 书法特征提取matlab,基于深度学习的软笔书法临摹评价方法与流程
  8. [渝粤教育] 广东-国家-开放大学 21秋期末考试马克思主义基本原理概论(A)10882k1
  9. 数据中心管理常见错误,犯一个就是致命的
  10. web自动化测试——QQ邮箱登录之Bussiness(login)登录操作