#DeepLearningBook#算法概览之八：Representation Learning

什么是Representation Learning？
根据Bengio在2013年的一篇综述论文里的描述，所谓Representation Learning，就是“learning the representations of the data that make it easier to extract useful information when building classifiers or other predictions”。简单来说就是在进行正式训练之前，提取训练数据的特征的一种方法。

一、 Greedy Layer-Wise Unsupervised Pretraining

这种算法的基本思想是：利用unsupervised learning来抓取输入数据的特征，然后把这些特征运用到supervised learning里面。这种算法应用的场景是，我们手上有大量未标定的数据，与此同时人工标定会耗费大量的时间和物力，因此我们就先用非监督学习提取大部分没有标定的数据的特征后，再将这些特征运用于监督学习中。
Greedy：对于我们训练的模型，通常是有多层的。因此我们每次取出一层，每层将其参数优化到最佳状态，逐层进行。这样，我们得到的每一层的参数，对于那一层来说都是最优的。
Fine tune：虽然每一层的参数对那层来说都是最优的，但对于整体而言，参数并不一定式最优的，因此需要使用BP算法来对所有参数做一次整体更新，这一步骤称作微调(fine tuning)。

二、Transfer Learning and Domain Adaption

Transfer Learning指的是从某个分布P1中学习到的特征可以用于另一个分布P2的学习/generalization。
更笼统地说，迁移学习（Transfer Learning）的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。因此，迁移学习不会像传统机器学习那样作同分布假设。比如上面的greedy layer-wise unsupervised pretraining，它是得到非监督学习下的特征后，利用这些特征来帮助监督学习的一种方法。

Domain adaptation中文名称是域自适应学习，可以有效处理训练数据与测试数据具有不同分布的问题。
啰嗦一点说就是：传统的机器学习算法中, 通常假设训练样本和测试样本来自同一概率分布, 然后设计相应的模型和判别准则对待测试的样例的输出进行预测.。但是实际上当前很多学习场景下训练样本的概率分布和测试样本的概率分布是不同的, 例如如何根据老用户的邮件信息设计一种面向新用户的垃圾邮件过滤系统、自然语言处理方面的情感分析、依存句法分析、跨语言处理等都属于域自适应学习问题.。如何在这种源域和目标域概率分布不一致的情况下进行学习即为域自适应学习问题。因此, 域自适应学习的重点在于如何克服源域分布和目标域分布不同, 实现目标域上的学习任务。
两类极端的Transfer learning应用是one-shot learning和zero-shot learning。one-shot learning就是对某一／某些类别只提供一个或者少量的训练样本；而zero-shot learning就是对某一／某些类别完全不提供训练样本。
One-shot learning，DLB上面的篇幅不多讲得也比较寡淡，这里不多说。对zero-shot learning，DLB上面提到了一个概念就是，对于zero-shot learning往往需要一个an additional random variable describing the task T，个人觉得可以把这个理解为一个先验的知识，从而计算P（y | x, T）。比如判断图片上的动物是否是一只猫，x表征的是这个动物的特征，T则描述猫的特征：四足、胡须、有尾巴等等。

三、Distributed Representation

一种最简单的词向量方式是 one-hot representation，就是用一个很长的向量来表示一个词，向量的长度为词典的大小，向量的分量只有一个 1，其他全为 0， 1 的位置对应该词在词典中的位置。但这种词表示有两个缺点：
（1）容易受维数灾难的困扰，尤其是将其用于 Deep Learning 的一些算法时；
（2）不能很好地刻画词与词之间的相似性（术语好像叫做“词汇鸿沟”）。
另一种就是 Distributed Representation 这种表示，可以克服 one-hot representation 的缺点。Distributed 表示一个个体用几个编码单元而不是一个编码单元表示，即一个个体分布在几个编码单元上，主要是相对one-hot编码中一个编码单元表示一个个体。其基本想法是：
通过训练将某种语言中的每一个词映射成一个固定长度的短向量（当然这里的“短”是相对于 one-hot representation 的“长”而言的），将所有这些向量放在一起形成一个词向量空间，而每一向量则为该空间中的一个点，在这个空间上引入“距离”，则可以根据词之间的距离来判断它们之间的（词法、语义上的）相似性了。比如我们选择文字的n个feature，每个feature有k个量值（比如说一个feature是骂人的话，对应量值是骂得有多难听 =￣ω￣=如斯如斯…），那么总共可以表达knk^n个concepts。
文章https://arxiv.org/pdf/1309.4168.pdf 内关于西班牙语和英语的例子可以帮助理解Distributed Representation:
1) 考虑英语和西班牙语两种语言，通过训练分别得到它们的词向量空间；
2) 我们将英语和西班牙语里面的一组词汇转换成它的distributed representation表达方式，用一组坐标点表示它们的含义；
3）然后经过PCA等降维方法把它们降到二维平面上表示出来可以得到：

从这里我们可以看出，五个词在两个向量空间中的相对位置差不多，这说明两种不同语言对应向量空间的结构之间具有相似性，从而进一步说明了在词向量空间中利用距离刻画词之间相似性的合理性。

参考文献：
[1] http://blog.csdn.net/qrlhl/article/details/51119973
[2]http://blog.sina.com.cn/s/blog_4a1853330100lui7.html
[3]Distributed Representation: https://www.zhihu.com/question/21714667/answer/19433618

越到后面越觉得很多内容都相对比较新，资料不是特别多。光看DLB略感吃力。(:зゝ∠)明天就是期限了…觉得自己要跪…