《深度学习》(美)Ian Goodfellow 花书简要笔记（第三部分：深度学习研究）（完）

本部分是花书的最后一部分，也是目前DL领域的研究前沿。

第13章线性因子模型

1、线性因子模型：基于潜变量的概率模型，通过对h的线性变换以及添加噪声来生成。描述为如下的数据生成过程：

从一个分布（p(h)是一个因子分布）中抽取解释性因子h：h~p(h)
对实值的可观察变量进行采样：x = Wh + b + noise
#噪声通常是对角化（维度上是独立的）的且服从高斯分布。

2、概率PCA和因子分析

因子分析：从变量群中提取共性因子的统计技术。
#潜变量的作用是捕获不同观测变量xi之间的依赖关系。
概率PCA
#利用现象：除了一些微小残余的重构误差，数据中的大多数变化可以由潜变量h描述。

3、独立成分分析ICA

ICA与PCA的区别与联系，参考地址：https://blog.csdn.net/hellocsz/article/details/80727962
#ICA经常用于学习稀疏特征
#非线性扩展NICE——非线性独立成分估计（能高效地计算每个变换的Jacobian行列式）
两个推广：（1）非线性自编码器；（2）通过鼓励组内统计依赖关系、抑制组间依赖关系来学习特征组。
#独立子空间分析
#地质ICA（应用于图像，可学习Gabor滤波器（从而使得相邻特征具有相似的方向、位置或频率。在每个区域内Gabor函数的许多不同相位存在抵消作用，使得在小区域上的池化产生了平移不变性））

4、慢特征分析SFA：使用来自时间信号的信息学习不变特征的线性因子模型。

慢性原则的基本思想：与场景中起描述作用的单个量度相比，场景的重要特性通常变化得十分缓慢。
SFA算法
一个优点：即使在深度非线性条件下，它依然能够在理论上预测SFA能够学习到哪些特征。

5、稀疏编码
#补laplace、cauchy和student-t分布基础知识
稀疏编码：线性因子模型，在模型中推断h值的过程。
稀疏建模：设计和学习模型的过程。

6、PCA的流形解释

第14章自编码器

1、欠完备自编码器：编码维度小于输入维度的自编码器。（强制自编码器捕捉训练数据中最显著的特征）
#若赋予过大的容量，则学习不到任何有用的信息。
2、正则自编码器

稀疏自编码器：在训练时结合编码层的稀疏惩罚和重构误差。（必须反映训练数据集的独特统计特征）
参考地址：https://www.cnblogs.com/bzjia-blog/p/SparseAutoencoder.html
去噪自编码：在输入加入噪声，增强编码器鲁棒性
参考地址1：http://c.biancheng.net/view/1967.html
参考地址2：https://baike.baidu.com/item/去噪自编码器/22768227?fr=aladdin
收缩自编码器
参考地址：https://baike.baidu.com/item/收缩自编码器/22768373?fr=aladdin

3、预测稀疏分解
优化过程是最小化：

4、使用自编码器学习流形

第15章表示学习

1、贪心逐层无监督预训练）（目前用的少了，但是启发了监督预训练）
#每一层使用无监督学习预训练，将前一层的输出作为输入，输出数据的新的表示。
#结合了两个想法：（1）利用深度神经网络对初始参数的选择，可以对模型有着显著的正则化效果的想法；（2）学习输入分布有助于学习从输入到输出的映射。
2、迁移学习与领域自适应

多任务学习/迁移学习架构示例

领域自适应
概念漂移
#概念漂移和迁移学习都可以看成多任务学习的特定形式。
表示学习的核心思想是相同的表示可能在两种情境中都是有用的。
迁移学习的两种极端形式——One-Shot学习和Zero-shot学习
One-shot学习：利用一个标注样本来推断表示空间中聚集在相同点周围的=许多可能测试样本的标签。
Zero-shot学习（零样本学习）：一个例子，学习器已经读取了大量文本，然后要解决对象识别的问题。如果文本足够好描述了对象，那么即使没有看到某对象的图像，也能识别出该对象的类别。比如，已知猫有四条腿和尖尖的耳朵，那么学习器可以在没有见过猫的情况下猜测该图像中是猫。
（只有在训练时候使用了额外的信息，零样本学习才是可能的）
零样本学习示例图：

3、半监督解释因果关系

表示学习的一个重要问题：“什么原因能够使一个表示比另一个表示更好？”一种假设是，理想表示中的特征对应到观测数据的潜在成因，特征空间中不同的特征或方向对应着不同的原因，从而表示能够区分这些原因。
生成式对抗网络——学习显著性。（预测生成网络）

4、分布式表示

非分布式算法：聚类算法、K-近邻算法、决策树、高斯混合体和专家混合体、具有高斯核（或其他类似的局部核）的核机器、基于n-gram的语言或翻译模型。
#优点是给定足够参数可以拟合一个训练集而不需要复杂的优化算法；缺点是非分布式表示的模型只能通过平滑先验来局部地泛化。
当一个明显复杂的结构可以用较少参数紧致地表示时，分布式表示具有统计上的优点。

5、得益于深度的指数增益

非线性和重用特征层次结构的组合来组织计算，可以使分布式表示获得指数级加速外，还可以获得统计效率的指数级提升。
关于深度架构表达能力的理论结果表明，有些函数族可以高效地通过深度k层的网络架构表示，但是深度不够（深度为1或k-1）时会需要指数级（相对于输入大小而言）的隐藏单元。
#和-积网络，参考地址：https://blog.csdn.net/wydbyxr/article/details/8389461

6、一些正则化策略

平滑（允许学习器从训练样本泛化到输入空间中附近的点，但不能克服维度灾难）
线性（能够预测远离观测数据的点，但有时会导致一些极端的预测）
多个解释因子（启发假设：数据是由多个潜在解释因子生成的，并且给定每一个因子的状态，大多数任务都能轻易解决）
因果因子（认为学成表示所描述的变差因素是观察数据x的成因，而并非反过来。对半监督学习有利）
深度，或者解释因子的层次组织
任务间的共享因素（任务间共享统计强度）
流形（概率质量集中，并且集中区域是局部连通的，且占据很小的体积。在连续情况下，这些区域可以用比数据所在原始空间低很多位的低维流形来近似）
自然聚类（正切传播、双反向传播、流形正切分类器、对抗训练等）
时间和空间相干性
稀疏性（假设大部分特征和大部分输入不相关）
简化因子依赖

第16章深度学习中的结构化概率模型

1、非结构化建模的挑战：

内存：存储参数的开销
统计的高效性
运行时间：推断的开销
运行时间：采样的开销

2、使用图描述模型结构

有向图模型——结构化概率模型（也称信念网络/贝叶斯网络）
无向模型（也被称为马尔可夫随机场/马尔科夫网络）
配分函数——归一化概率分布
基于能量的模型（玻尔兹曼机）
#一种特殊的马尔可夫网络
分离和d分离
#分离——集合无关，连接两个团之间的的团是可观测的；
#无向模型中称为分离，有向模型中称为d分离；
在有向模型和无向模型中转换
完全图：任意有向无环图
有向图与无向图之间的转换。（道德图——不道德图，道德化操作）
因子图—无向二分图的无向模型的图形化表示
#圆形对应随机变量，方形对应未归一化概率函数的因子。

3、从图模型中采样
原始采样：对变量进行排序，然后依次从每个变量对应的分布中采样。
优点：快
缺点：仅适用于有向图模型；并不是每次采样都是条件采样操作。
#Gibbs采样

4、结构化建模的优势：显著降低表示概率分布、学习和推断的成本。

5、学习依赖关系
#结构学习：大多数结构学习技术基于一种贪婪搜索的形式。它们提出了一种结构，对具有该结构的模型进行训练，然后给出分数。该分数奖励训练集上的高精度并对模型的复杂度进行惩罚。然后提出添加或移除少量边的候选结构作为搜索的下一步，搜索会朝着增加分数的新结构发展。

6、推断和近似推断

7、受限玻尔兹曼机

第17章蒙特卡洛方法

1、Las Vegas算法
参考:https://blog.csdn.net/u013453787/article/details/83144551
2、蒙特卡洛采样
把计算和或者计算积分看成某个分布的期望，然后通过估计这个分布的平均值来近似这个期望。
（和相当于“离散分布求期望”，积相当于“连续分布求期望”，从公式可以看出来）
平均值的计算方法：从分布p中抽取n个样本求经验平均。
理论基础：大数定理+中心极限定理

3、重要采样

4、马尔科夫链蒙特卡洛方法

利用马尔科夫链来进行蒙特卡洛估计
从基于能量的模型中进行原始采样
MCMC方法是使用马尔科夫链的蒙特卡洛积分，其基木思想是：构造一条Markov链，使其平稳分布为待估参数的后验分布，通过这条马尔科夫链产生后验分布的样本，并基于马尔科夫链达到平稳分布时的样本(有效样本)进行蒙特卡洛积分。
主要难点：混合时间（理论能保证马尔科夫链最终收敛，但不知道收敛所需时间长度）

5、样本峰值之间的混合问题

MCMC方法存在峰值混合困难问题。分布越尖锐，马尔科夫链采样越难混合。并会影响收敛速度。
两种解决方法：（1）模拟退火；（2）训练深度生成模型。

第18章直面配分函数

1、配分函数是未归一化概率所有状态的积分（连续变量）或求和（离散变量）。
#配分函数依赖于参数
2、对比散度算法参考：https://blog.csdn.net/qian2729/article/details/50542764
3、虚假模态：模型分布中出现但是数据分布中却不存在的模式。
4、快速持续性对比散度：在学习期间加速混合，不改变蒙特卡洛采样技术，而是改变模型的参数化和代价函数。
5、伪似然
（本章其余跳过，回补）

最后两章跳过，回补。