本部分是花书的最后一部分,也是目前DL领域的研究前沿。

第13章 线性因子模型

1、线性因子模型:基于潜变量的概率模型,通过对h的线性变换以及添加噪声来生成。描述为如下的数据生成过程:

  • 从一个分布(p(h)是一个因子分布)中抽取解释性因子h:h~p(h)
  • 对实值的可观察变量进行采样:x = Wh + b + noise
    #噪声通常是对角化(维度上是独立的)的且服从高斯分布。

2、概率PCA和因子分析

  • 因子分析:从变量群中提取共性因子的统计技术。
    #潜变量的作用是捕获不同观测变量xi之间的依赖关系。

  • 概率PCA
    #利用现象:除了一些微小残余的重构误差,数据中的大多数变化可以由潜变量h描述。

3、独立成分分析ICA

  • ICA与PCA的区别与联系,参考地址:https://blog.csdn.net/hellocsz/article/details/80727962
    #ICA经常用于学习稀疏特征
    #非线性扩展NICE——非线性独立成分估计(能高效地计算每个变换的Jacobian行列式)
  • 两个推广:(1)非线性自编码器;(2)通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组。
    #独立子空间分析
    #地质ICA(应用于图像,可学习Gabor滤波器(从而使得相邻特征具有相似的方向、位置或频率。在每个区域内Gabor函数的许多不同相位存在抵消作用,使得在小区域上的池化产生了平移不变性))

4、慢特征分析SFA:使用来自时间信号的信息学习不变特征的线性因子模型。

  • 慢性原则的基本思想:与场景中起描述作用的单个量度相比,场景的重要特性通常变化得十分缓慢。
  • SFA算法
  • 一个优点:即使在深度非线性条件下,它依然能够在理论上预测SFA能够学习到哪些特征。

5、稀疏编码
#补laplace、cauchy和student-t分布基础知识
稀疏编码:线性因子模型,在模型中推断h值的过程。
稀疏建模:设计和学习模型的过程。

6、PCA的流形解释

第14章 自编码器

1、欠完备自编码器:编码维度小于输入维度的自编码器。(强制自编码器捕捉训练数据中最显著的特征)
#若赋予过大的容量,则学习不到任何有用的信息。
2、正则自编码器

  • 稀疏自编码器:在训练时结合编码层的稀疏惩罚和重构误差。(必须反映训练数据集的独特统计特征)
    参考地址:https://www.cnblogs.com/bzjia-blog/p/SparseAutoencoder.html

  • 去噪自编码:在输入加入噪声,增强编码器鲁棒性
    参考地址1:http://c.biancheng.net/view/1967.html
    参考地址2:https://baike.baidu.com/item/去噪自编码器/22768227?fr=aladdin

  • 收缩自编码器

  • 参考地址:https://baike.baidu.com/item/收缩自编码器/22768373?fr=aladdin

3、预测稀疏分解
优化过程是最小化:

4、使用自编码器学习流形

第15章 表示学习

1、贪心逐层无监督预训练)(目前用的少了,但是启发了监督预训练)
#每一层使用无监督学习预训练,将前一层的输出作为输入,输出数据的新的表示。
#结合了两个想法:(1)利用深度神经网络对初始参数的选择,可以对模型有着显著的正则化效果的想法;(2)学习输入分布有助于学习从输入到输出的映射。
2、迁移学习与领域自适应

  • 多任务学习/迁移学习架构示例

  • 领域自适应

  • 概念漂移
    #概念漂移和迁移学习都可以看成多任务学习的特定形式。

  • 表示学习的核心思想是相同的表示可能在两种情境中都是有用的。

  • 迁移学习的两种极端形式——One-Shot学习和Zero-shot学习
    One-shot学习:利用一个标注样本来推断表示空间中聚集在相同点周围的=许多可能测试样本的标签。
    Zero-shot学习(零样本学习):一个例子,学习器已经读取了大量文本,然后要解决对象识别的问题。如果文本足够好描述了对象,那么即使没有看到某对象的图像,也能识别出该对象的类别。比如,已知猫有四条腿和尖尖的耳朵,那么学习器可以在没有见过猫的情况下猜测该图像中是猫。
    (只有在训练时候使用了额外的信息,零样本学习才是可能的)
    零样本学习示例图:

3、半监督解释因果关系

  • 表示学习的一个重要问题:“什么原因能够使一个表示比另一个表示更好?”一种假设是,理想表示中的特征对应到观测数据的潜在成因,特征空间中不同的特征或方向对应着不同的原因,从而表示能够区分这些原因。
  • 生成式对抗网络——学习显著性。(预测生成网络)

4、分布式表示

  • 非分布式算法:聚类算法、K-近邻算法、决策树、高斯混合体和专家混合体、具有高斯核(或其他类似的局部核)的核机器、基于n-gram的语言或翻译模型。
    #优点是给定足够参数可以拟合一个训练集而不需要复杂的优化算法;缺点是非分布式表示的模型只能通过平滑先验来局部地泛化。

  • 当一个明显复杂的结构可以用较少参数紧致地表示时,分布式表示具有统计上的优点。

5、得益于深度的指数增益

  • 非线性和重用特征层次结构的组合来组织计算,可以使分布式表示获得指数级加速外,还可以获得统计效率的指数级提升。
  • 关于深度架构表达能力的理论结果表明,有些函数族可以高效地通过深度k层的网络架构表示,但是深度不够(深度为1或k-1)时会需要指数级(相对于输入大小而言)的隐藏单元。
    #和-积网络,参考地址:https://blog.csdn.net/wydbyxr/article/details/8389461

6、一些正则化策略

  • 平滑(允许学习器从训练样本泛化到输入空间中附近的点,但不能克服维度灾难)
  • 线性(能够预测远离观测数据的点,但有时会导致一些极端的预测)
  • 多个解释因子(启发假设:数据是由多个潜在解释因子生成的,并且给定每一个因子的状态,大多数任务都能轻易解决)
  • 因果因子(认为学成表示所描述的变差因素是观察数据x的成因,而并非反过来。对半监督学习有利)
  • 深度,或者解释因子的层次组织
  • 任务间的共享因素(任务间共享统计强度)
  • 流形(概率质量集中,并且集中区域是局部连通的,且占据很小的体积。在连续情况下,这些区域可以用比数据所在原始空间低很多位的低维流形来近似)
  • 自然聚类(正切传播、双反向传播、流形正切分类器、对抗训练等)
  • 时间和空间相干性
  • 稀疏性(假设大部分特征和大部分输入不相关)
  • 简化因子依赖

第16章 深度学习中的结构化概率模型

1、非结构化建模的挑战:

  • 内存:存储参数的开销
  • 统计的高效性
  • 运行时间:推断的开销
  • 运行时间:采样的开销

2、使用图描述模型结构

  • 有向图模型——结构化概率模型(也称信念网络/贝叶斯网络)

  • 无向模型(也被称为马尔可夫随机场/马尔科夫网络)

  • 配分函数——归一化概率分布

  • 基于能量的模型(玻尔兹曼机)
    #一种特殊的马尔可夫网络

  • 分离和d分离
    #分离——集合无关,连接两个团之间的的团是可观测的;
    #无向模型中称为分离,有向模型中称为d分离;

  • 在有向模型和无向模型中转换
    完全图:任意有向无环图
    有向图与无向图之间的转换。(道德图——不道德图,道德化操作)

  • 因子图—无向二分图的无向模型的图形化表示
    #圆形对应随机变量,方形对应未归一化概率函数的因子。

3、从图模型中采样
原始采样:对变量进行排序,然后依次从每个变量对应的分布中采样。
优点:快
缺点:仅适用于有向图模型;并不是每次采样都是条件采样操作。
#Gibbs采样

4、结构化建模的优势:显著降低表示概率分布、学习和推断的成本。

5、学习依赖关系
#结构学习:大多数结构学习技术基于一种贪婪搜索的形式。它们提出了一种结构,对具有该结构的模型进行训练,然后给出分数。该分数奖励训练集上的高精度并对模型的复杂度进行惩罚。然后提出添加或移除少量边的候选结构作为搜索的下一步,搜索会朝着增加分数的新结构发展。

6、推断和近似推断

7、受限玻尔兹曼机

第17章 蒙特卡洛方法

1、Las Vegas算法
参考:https://blog.csdn.net/u013453787/article/details/83144551
2、蒙特卡洛采样
把计算和或者计算积分看成某个分布的期望,然后通过估计这个分布的平均值来近似这个期望。
(和相当于“离散分布求期望”,积相当于“连续分布求期望”,从公式可以看出来)
平均值的计算方法:从分布p中抽取n个样本求经验平均。
理论基础:大数定理+中心极限定理

3、重要采样

4、马尔科夫链蒙特卡洛方法

  • 利用马尔科夫链来进行蒙特卡洛估计
  • 从基于能量的模型中进行原始采样
  • MCMC方法是使用马尔科夫链的蒙特卡洛积分,其基木思想是:构造一条Markov链,使其平稳分布为待估参数的后验分布,通过这条马尔科夫链产生后验分布的样本,并基于马尔科夫链达到平稳分布时的样本(有效样本)进行蒙特卡洛积分。
  • 主要难点:混合时间(理论能保证马尔科夫链最终收敛,但不知道收敛所需时间长度)

5、样本峰值之间的混合问题

  • MCMC方法存在峰值混合困难问题。分布越尖锐,马尔科夫链采样越难混合。并会影响收敛速度。
  • 两种解决方法:(1)模拟退火;(2)训练深度生成模型。

第18章 直面配分函数

1、配分函数是未归一化概率所有状态的积分(连续变量)或求和(离散变量)。
#配分函数依赖于参数
2、对比散度算法参考:https://blog.csdn.net/qian2729/article/details/50542764
3、虚假模态:模型分布中出现但是数据分布中却不存在的模式。
4、快速持续性对比散度:在学习期间加速混合,不改变蒙特卡洛采样技术,而是改变模型的参数化和代价函数。
5、伪似然
(本章其余跳过,回补)

最后两章跳过,回补。

《深度学习》(美)Ian Goodfellow 花书简要笔记(第三部分:深度学习研究)(完)相关推荐

  1. 《深度学习》(美)Ian Goodfellow 花书简要笔记(第二部分:深度网络)

    本部分是目前应用比较成熟的深度学习基础方法.推荐李飞飞老师的CS231n课程(网易云课堂有全部视频和课件,建议把编程作业刷了)配合学习~ 第六章 深度前馈网络 1.我们最好将前馈神经网络想成是为了实现 ...

  2. 《深度学习》(美)Ian Goodfellow 花书简要笔记(第一部分:应用数学与机器学习基础)

    说明:本篇Blog为自己刷<深度学习>时的简要笔记,仅记录对自己有启发或不熟悉的知识点,并非全面笔记.不过,对于任何一个学深度学习的人来说,这本书真的算是很好的一本入门书籍,公式推导都特别 ...

  3. homeassistant mysql_学习笔记 篇三:HomeAssistant学习笔记docker安装的ha更换数据库

    学习笔记 篇三:HomeAssistant学习笔记docker安装的ha更换数据库 2018-11-15 12:06:58 4点赞 18收藏 3评论 是返乡过年?还是就地过年?最新一届#双面过节指南# ...

  4. 基于 OpenVINO™ 的 AI 视觉应用基础课学习笔记(三)深度学习简介

    机器学习与深度学习 机器学习 机器学习(Machine Learning):专门研究计算机怎样模拟或实现人类的学习行为,以获取新知识或技能,重新组织已有的知识结构使之不断改善自身的性能. 是人工智能的 ...

  5. python基础学习[python编程从入门到实践读书笔记(连载三)]:django学习笔记web项目

    文章目录 Django项目:学习笔记web网页 项目部署 参考 自己部署的网站,还是小有成就感的,毕竟踩过很多坑,实战技能也有些许进步. 网站链接:http://lishizheng.herokuap ...

  6. 机器学习基石笔记(三):学习的类型

    文章目录 Lecture 3: Types of Learning Learning with Different Output Space $Y$ Fun Time Learning with Di ...

  7. android 学习笔记(三) Android学习路线之3.2 游戏程序员的学习资料

    看到一篇文章,总结一个游戏程序员的学习资料,作者是一个大二的学生,很羡慕作者大二时就有这么清晰的职业目标.我大学学的是自动化专业,大学时也算博览群书,可惜现在大多不知道遗忘在那个角落了.毕业后,单片机 ...

  8. 云e办学习笔记(三)SpringSecurity学习(一)

    前言 本系列博客基于B站的云e办管理系统,前端和后端我都自己敲了一遍,这里做一个学习记录.云e办的原始视频链接如下:https://www.bilibili.com/video/BV1Ai4y1P7T ...

  9. 重磅!深度学习圣经“花书”核心笔记、代码发布

    点击上方"AI有道",选择"置顶"公众号 重磅干货,第一时间送达 <深度学习>,又名"花书".该书由三位大佬 Ian Goodf ...

最新文章

  1. PPT 下载 | 神策数据孙超赟:多场景解读运营的价值、生存状态与解决方案
  2. java注释日志打印_java 注解结合 spring aop 实现自动输出日志
  3. 数据库原理与应用(SQL Server)笔记 第四章 嵌套查询和其他查询子句
  4. 第三次学JAVA再学不好就吃翔(part22)--匿名对象
  5. SAP CRM WebClient UI根据扩展字段搜索出结果的实现原理
  6. P2571 [SCOI2010]传送带
  7. 室内主题元素分析图_2020届室内设计专业优秀毕业设计作品展(五)
  8. 【UOJ139】【UER #4】被删除的黑白树
  9. wincc与第三方软件opc通讯_OPC 通讯不得不说的强大软件
  10. 广告流量分析之评价指标的选择(二)
  11. 使用过滤器实现网站访问计数器的功能
  12. oracle查询不等于1000,解决oracle查询时 in 大于1000的办法
  13. 最新如何解决git 输入github时每次都要输入用户名和密码问题
  14. 最常用的五种PDF阅读器,你都用过了吗!
  15. 绘制计算机网络拓扑图,绘制网络拓扑图1.ppt
  16. 3.33 利用快速蒙版制作选区 [原创Ps教程]
  17. Java开发工程师的工作内容包含哪些?
  18. 已解决The method is not allowed for the requested URL.
  19. php 编辑器 插入视频,织梦dedecms默认编辑器实现上传视频功能
  20. canvas-绘制矩形

热门文章

  1. mmdetection解决 ImportError: cannot import name ‘deform_conv_cuda’
  2. KEIL新建STM32F030F工程文件
  3. python从零开始搭建fdtd架构-1原理
  4. 2020清华大学计算机学院黄翔,2020清华大学计算机考研辅导
  5. PHP购物网站开发之四:零碎知识
  6. 《魔鬼搭讪培训班》全部1~6集
  7. ssas脚本组织程序_SSAS系列——【01】准备知识
  8. C#实现具有Aero效果的窗体
  9. 浅析TVS管的分类及选型的注意事项
  10. 2022年,我的年终总结