嵌入矩阵 (Embedding Matrix)

接下来我们要将学习词嵌入这一问题具体化，当你应用算法来学习词嵌入时，实际上是学习一个嵌入矩阵，我们来看一下这是什么意思。

和之前一样，假设我们的词汇表含有10,000个单词，词汇表里有a，aaron，orange，zulu，可能还有一个未知词标记<UNK>。我们要做的就是学习一个嵌入矩阵 $E$ ，它将是一个300×10,000的矩阵，如果你的词汇表里有10,000个，或者加上未知词就是10,001维。这个矩阵的各列代表的是词汇表中10,000个不同的单词所代表的不同向量。假设orange的单词编号是6257（下图编号1所示），代表词汇表中第6257个单词，我们用符号 $O_{6527}$ 来表示这个one-hot向量，这个向量除了第6527个位置上是1（下图编号2所示），其余各处都为0，显然它是一个10,000维的列向量，它只在一个位置上有1，它不像图上画的那么短，它的高度应该和左边的嵌入矩阵的宽度相等。

假设这个嵌入矩阵叫做矩阵 $E$ ，注意如果用 $E$ 去乘以右边的one-hot向量（上图编号3所示），也就是，那么就会得到一个300维的向量， $E$ 是300×10,000的，是10,000×1的，所以它们的积是300×1的，即300维的向量。要计算这个向量的第一个元素，你需要做的是把 $E$ 的第一行（上图编号4所示）和 $O_{6527}$ 的整列相乘，不过 $O_{6527}$ 的所有元素都是0，只有6257位置上是1，最后你得到的这个向量的第一个元素（上图编号5所示）就是orange这一列下的数字（上图编号6所示）。然后我们要计算这个向量的第二个元素，就是把 $E$ 的第二行（上图编号7所示）和这个 $O_{6527}$ 相乘，和之前一样，然后得到第二个元素（上图编号8所示），以此类推，直到你得到这个向量剩下的所有元素（上图编号9所示）。

这就是为什么把矩阵和这个one-hot向量相乘，最后得到的其实就是这个300维的列，就是单词orange下的这一列，它等于 $e_{6527}$ ，这个符号是我们用来表示这个300×1的嵌入向量的符号，它表示的单词是orange。

更广泛来说，假如说有某个单词w，那么 $e_w$ 就代表单词w的嵌入向量。同样， $EO_j，O_j$ 就是只有第 $j$ 个位置是1的one-hot向量，得到的结果就是 $e_j$ ，它表示的是字典中单词 $j$ 的嵌入向量。

在这一小节中，要记住的一件事就是我们的目标是学习一个嵌入矩阵 $E$ 。在下节视频中你将会随机地初始化矩阵 $E$ ，然后使用梯度下降法来学习这个300×10,000的矩阵中的各个参数， $E$ 乘以这个one-hot向量（上图编号1所示）会得到嵌入向量。再多说一点，当我们写这个等式（上图编号2所示）的时候，写出这些符号是很方便的，代表用矩阵 $E$ 乘以one-hot向量 $O_j$ 。但当你动手实现时，用大量的矩阵和向量相乘来计算它，效率是很低下的，因为one-hot向量是一个维度非常高的向量，并且几乎所有元素都是0，所以矩阵向量相乘效率太低，因为我们要乘以一大堆的0。所以在实践中你会使用一个专门的函数来单独查找矩阵 $E$ 的某列，而不是用通常的矩阵乘法来做，但是在画示意图时（上图所示，即矩阵 $E$ 乘以one-hot向量示意图），这样写比较方便。但是例如在Keras中就有一个嵌入层，然后我们用这个嵌入层更有效地从嵌入矩阵中提取出你需要的列，而不是对矩阵进行很慢很复杂的乘法运算。

在本视频中你见到了在学习嵌入向量的过程中用来描述这些算法的符号以及关键术语，矩阵 $E$ 它包含了词汇表中所有单词的嵌入向量。在下节视频中，我们将讨论学习矩阵 $E$ 的具体算法。

课程板书

2.4 嵌入矩阵-深度学习第五课《序列模型》-Stanford吴恩达教授相关推荐

深度学习教程(6) | 神经网络优化算法（吴恩达·完整版）
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/35 本文地址:https://www.showmeai.tech/article-d ...
深度学习教程(10) | 卷积神经网络解读（吴恩达·完整版）
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
2.19 总结-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.18 Logistic 损失函数的解释回到目录 3.1 神经网络概览文章目录总结习题第 11 题第 12 题第 13 题第 14 题第 15 题第 1 ...
机器学习和深度学习到底怎么学？顶尖专家吴恩达告诉你
机器学习和深度学习到底怎么学? 在外国版知乎上,有位网友问:新手如何学习机器学习?学习完MOOC的课程后有没有能力阅读研究论文或者真正的做出一点研究成果? 这个困惑很多人的问题吴恩达给出了详细的回答, ...
3.12 总结-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.11 随机初始化回到目录 4.1 深层神经网络文章目录总结习题第 21 题第 22 题第 23 题第 24 题第 25 题第 26 题第 27 题 ...
3.5 向量化实现的解释-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.4 多个例子中的向量化回到目录 3.6 激活函数向量化实现的解释 (Explanation for Vectorized Implementation) 在上一个视频 ...
1.1 欢迎-深度学习第一课《神经网络与深度学习》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 无回到目录 1.2 什么是神经网络欢迎第一个视频主要讲了什么是深度学习,深度学习能做些什么事情.以下是吴恩达老师的原话: 深度学习改变了传统互联网业务,例如如网络搜索和 ...
3.10 直观理解反向传播-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.9 神经网络的梯度下降法回到目录 3.11 随机初始化直观理解反向传播 (Backpropagation Intuition (Optional)) 这个视频主要是推 ...
2.5 学习词嵌入-深度学习第五课《序列模型》-Stanford吴恩达教授
学习词嵌入 (Learning Word Embeddings) 在本节视频中,你将要学习一些具体的算法来学习词嵌入.在深度学习应用于学习词嵌入的历史上,人们一开始使用的算法比较复杂,但随着时间推移, ...

2.4 嵌入矩阵-深度学习第五课《序列模型》-Stanford吴恩达教授

嵌入矩阵 (Embedding Matrix)

课程板书

2.4 嵌入矩阵-深度学习第五课《序列模型》-Stanford吴恩达教授相关推荐

最新文章

热门文章