1.ultra deep network

世界上的摩天大楼有很多,而且大家也都一直在互相攀比谁的更高。文中给出了几个标志性建筑,Great Pyramid < Eiffel Tower < Empire State < World Trade Center < CN Tower < Burj Khalifa,有兴趣可以去查查

在神经网络的世界里,前面也提到过了,Thin and Tall会好一些,文中给出了几个经典的CNN网络层次图,如下

网络的层数越多,意味着能够提取到不同level的特征越丰富。并且,越深的网络提取的特征越抽象,越具有语义信息。原来的网络,如果简单地增加深度,会导致梯度弥散或梯度爆炸。即使通过上述方法能够训练了,但是又会出现另一个问题,就是退化问题,网络层数增加,但是在训练集上的准确率却饱和甚至下降了。这个不能解释为overfitting,因为overfit应该表现为在训练集上表现更好才对。退化问题说明了深度网络不能很简单地被很好地优化。作者通过实验证明:通过浅层网络+ y=x 等同映射构造深层模型,结果深层模型并没有比浅层网络有等同或更低的错误率,推断退化问题可能是因为深层的网络并不是那么好训练,也就是求解器很难去利用多层网络拟合同等函数。 参考http://www.jianshu.com/p/e58437f39f65

2.Attention-based Model

这个地方我觉得PDF文档写的不怎么精细,找了一个知乎的回答,算是个学习了参考https://www.zhihu.com/question/36591394

在大部分的论文中,Attention是一个权重vector(通常是softmax的输出),其维度等于context的长度。越大的权重代表对应位置的context越重要。不同论文对attention权重的计算方式不同,但其核心抛不开上述两点。

这篇博文没什么自己的内容,主要对几个比较重要的知识点做了提及,并且给出了相应的好的解释博文的连接。这篇加上以上三篇论文作为自己进入这个领域的理论知识点的一个归纳总结。希望自己以后多阅读一些机器学习的论文,向前辈学习,同时多进行整理归纳。

一天搞懂深度学习—学习笔记4(knowledge and tricks)相关推荐

  1. 太强了! 李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT

    <1 天搞懂深度学习>,300 多页的 ppt,台湾李宏毅教授写的,非常棒.不夸张地说,是我看过最系统,也最通俗易懂的,关于深度学习的文章. 这份 300 页的 PPT,被搬运到了 Sli ...

  2. 下载 | 李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT

    <1 天搞懂深度学习>,300 多页的 ppt,台湾李宏毅教授写的,非常棒.不夸张地说,是我看过最系统,也最通俗易懂的,关于深度学习的文章. 这份 300 页的 PPT,被搬运到了 Sli ...

  3. 【深度学习】李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)...

    转载自:机器学习算法那些事 ID:Charlotte77 公众号:Charlotte数据挖掘 By    Charlotte77 前言:李宏毅的教材,非常经典,B站有配套视频,文末附下载链接!     ...

  4. 干货 | 台大“一天搞懂深度学习”课程PPT(下载方式见文末!!)

    微信公众号 关键字全网搜索最新排名 [机器学习算法]:排名第一 [机器学习]:排名第一 [Python]:排名第三 [算法]:排名第四 Deep Learing Tutorial 本篇文章我们给出了一 ...

  5. 李宏毅——一天搞懂深度学习PPT学习笔记

    李宏毅一天搞懂机器学习PPT,SildeShare链接:https://www.slideshare.net/tw_dsconf/ss-62245351?qid=108adce3-2c3d-4758- ...

  6. 读懂深度迁移学习,看这文就够了 | 赠书

    百度前首席科学家.斯坦福大学副教授吴恩达(Andrew Ng)曾经说过:迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力. 本文选自<深度学习500问:AI工程师面试宝典> ...

  7. [1天搞懂深度学习] 读书笔记 lecture I:Introduction of deep learning

    - 通常机器学习,目的是,找到一个函数,针对任何输入:语音,图片,文字,都能够自动输出正确的结果. - 而我们可以弄一个函数集合,这个集合针对同一个猫的图片的输入,可能有多种输出,比如猫,狗,猴子等, ...

  8. 一文搞懂深度学习正则化的L2范数

    想要彻底弄明白L2范数,必须要有一定的矩阵论知识,L2范数涉及了很多的矩阵变换.在我们进行数学公式的推到之前,我们先对L2范数有一个感性的认识. L2范数是什么? L2范数的定义其实是一个数学概念,其 ...

  9. 搞懂深度网络初始化(Xavier and Kaiming initialization)

    参数初始化就是这么一个容易被忽视的重要因素,因为不仅使用者对其重要性缺乏概念,而且这些操作都被TF.pytorch这些框架封装了,你可能不知道的是,糟糕的参数初始化是会阻碍复杂非线性系统的训练的. 本 ...

  10. 一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理

    知识蒸馏算法原理精讲 文章目录 知识蒸馏算法原理精讲 1. 什么是知识蒸馏? 2. 轻量化网络的方式有哪些? 3. 为什么要进行知识蒸馏? 3.1 提升模型精度 3.2 降低模型时延,压缩网络参数 3 ...

最新文章

  1. [转](不理想)Ubuntu下更改主显示器
  2. linux用户层驱动--VFIO(四)
  3. Linux 工程向 Windows 平台迁移的一些小小 tips
  4. 【数据结构与算法】之深入解析“柱状图中最大的矩形”的求解思路与算法示例
  5. 计算机发展最新趋势素材,计算机方面论文范文素材,与关于计算机科学与技术的趋势探究相关论文网...
  6. Cell子刊主编:文章被编辑拒稿,主要是这4大原因
  7. iphone双卡_满屏的iPhone12评测来了,看哪个不重要,买哪个才重要|iphone|国行|iphone12...
  8. 零空间追踪 matlab,中国科学院自动化研究所
  9. Hexo博客开发之——theme主题备份上传失败
  10. 基于QT和Rapidjson的Json编辑器
  11. linux wifi中继,树莓派无线中继
  12. 数据结构——计算节点个数和二叉树高度(C语言版)
  13. c语言判断素数 是返回1,c语言编程:设计一个函数用于判断一个数是否为素数,如果是素数返回1,否则返回0。...
  14. 3G、4G、5G背后的科学含义,你真的懂吗?
  15. 龙腾世纪审判一直连接服务器,【1.7.2】【rpg】我的世界龙腾世纪群组服务器
  16. editplus java显示竖线_EditPlus对齐竖线怎么调出来?
  17. 好书推荐:《爱因斯坦的错误:天才的人性弱点》
  18. 宝塔面板专业版企业版教程 纯手动 带原版脚本 插件免费用
  19. 在家看片利器,有Android App以及桌面应用(已开源)。
  20. 和python有关的转换音素的网址

热门文章

  1. TextWatcher使用
  2. 【Excel】数据透视表—简单数据分析实例
  3. 锐捷认证成功但是无法上网的问题
  4. 计算机网络习题集_主打选择填空
  5. Word2013实战技巧
  6. QT下的音乐播放器 (一)
  7. 泛微oa连接mysql,泛微OA 数据库维护笔记(e-cology)
  8. 推荐下载使用:功能强大的光盘刻录软件NERO 9.0中文版(最新官方原版+有效序列号)(转)...
  9. 里诺仓库管理软件(单机版)3.70 注册机 Code.By.HackWm.
  10. Unity_游戏源码