习题

第二周 - 自然语言处理与词嵌入

第 151 题

假设你为10000个单词学习词嵌入，为了捕获全部范围的单词的变化以及意义，那么词嵌入向量应该是10000维的。

A.正确 B.错误

第 152 题

什么是t-SNE？

A.一种非线性降维算法

B.一种能够解决词向量上的类比的线性变换

C.一种用于学习词嵌入的监督学习算法

D.一个开源序列模型库

第 153 题

假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据，然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感，判断这段文字的内容是否表达了“快乐”。

x（输入文本）	y（是否快乐）
我今天感觉很好！	1
我觉得很沮丧，因为我的猫生病了。	0
真的很享受这个！	1

那么即使“欣喜若狂”这个词没有出现在你的小训练集中，你的RNN也会认为“我欣喜若狂”应该被贴上 y=1y=1y=1 的标签。

A.正确 B.错误

第 154 题

对于词嵌入而言，下面哪一个（些）方程是成立的？

A. eboy−egirl≈ebrother−esistere_{boy} - e_{girl} \approx e_{brother} - e_{sister}eboy−egirl≈ebrother−esister
B. eboy−egirl≈esister−ebrothere_{boy} - e_{girl} \approx e_{sister} - e_{brother}eboy−egirl≈esister−ebrother
C. eboy−ebrother≈egirl−esistere_{boy} - e_{brother} \approx e_{girl} - e_{sister}eboy−ebrother≈egirl−esister
D. eboy−ebrother≈esister−egirle_{boy} - e_{brother} \approx e_{sister} - e_{girl}eboy−ebrother≈esister−egirl

第 155 题

设 EEE 为嵌入矩阵， e1234e_{1234}e1234 对应的是词“1234”的独热向量，为了获得1234的词嵌入，为什么不直接在Python中使用代码 E∗e1234E*e_{1234}E∗e1234 呢？

A.因为这个操作是在浪费计算资源

B.因为正确的计算方式是 ET∗e1234E^T*e_{1234}ET∗e1234

C.因为它没有办法处理未知的单词（<UNK>）

D.以上全都不对，因为直接调用 E∗e1234E*e_{1234}E∗e1234 是最好的方案

第 156 题

在学习词嵌入时，我们创建了一个预测 P(target∣context)P(target|context)P(target∣context) 的任务，如果这个预测做的不是很好那也是没有关系的，因为这个任务更重要的是学习了一组有用的嵌入词。

A.正确 B.错误

第 157 题

在word2vec算法中，你要预测 P(t∣c)P(t|c)P(t∣c) ，其中 ttt 是目标词（target word）， ccc 是语境词（context word）。你应当在训练集中怎样选择 ttt 与 ccc 呢？

A. ttt 与 ccc 应当在附近词中

B. ccc 是 ttt 在前面的一个词

C. ccc 是 ttt 之前句子中所有单词的序列

D. ccc 是 ttt 之前句子中几个单词的序列

第 158 题

假设你有1000个单词词汇，并且正在学习500维的词嵌入，word2vec模型使用下面的softmax函数：

P(t∣c)=exp(θtTec)∑t′=110,000exp(θt′Tec)P(t|c)=\frac{exp(\theta^T_te_c)}{\sum_{t\prime=1}^{10,000}exp(\theta^T_{t\prime}e_c)}P(t∣c)=∑t′=110,000exp(θt′Tec)exp(θtTec)

以下说法中哪一个（些）是正确的？

A. θt\theta_tθt 与 ece_cec 都是500维的向量

B. θt\theta_tθt 与 ece_cec 都是10000维的向量

C. θt\theta_tθt 与 ece_cec 都是通过Adam或梯度下降等优化算法进行训练的

D.训练之后， θt\theta_tθt 应该非常接近 ece_cec ，因为ttt和ccc是一个词

第 159 题

假设你有10000个单词词汇，并且正在学习500维的词嵌入，GloVe模型最小化了这个目标:

min⁡∑i=110,000∑j=110,000f(Xi,j)(θiTej+bi+bj′−log⁡Xij)2\min\sum_{i=1}^{10,000}\sum_{j=1}^{10,000}f(X_{i,j})(\theta^T_ie_j+b_i+b_j^\prime-\log X_{ij})^2mini=1∑10,000j=1∑10,000f(Xi,j)(θiTej+bi+bj′−logXij)2

以下说法中哪一个（些）是正确的？

A. θi\theta_iθi 与 eje_jej 应当初始化为0

B. θi\theta_iθi 与 eje_jej 与应当使用随机数进行初始化

C. Xi,jX_{i,j}Xi,j 是单词 iii 在 jjj 中出现的次数

D.加权函数 f(.)f(.)f(.) 必须满足 f(0)=0f(0)=0f(0)=0

第 160 题

你已经在文本数据集上 m1m_1m1 训练了词嵌入，现在准备将它用于一个语言任务中，对于这个任务，你有一个单独标记的数据集 m2m_2m2 ，请记住，使用词嵌入是一种迁移学习的形式。在以下那种情况中，词嵌入会有帮助？

A. m1>>m2m_1>>m_2m1>>m2
B. m1<<m2m_1<<m_2m1<<m2

151-160题答案

151.B 152.A 153.A 154.AC 155.A 156.B 157.A 158.AC 159.BCD 160.A

第三周 - 序列模型与注意力机制

第 161 题

想一想使用如下的编码-解码模型来进行机器翻译：

这个模型是“条件语言模型”,编码器部分(绿色显示)的意义是建模中输入句子x的概率

A.正确 B.错误

第 162 题

在集束搜索中，如果增加集束宽度 bbb ，以下哪一项是正确的？

A.集束搜索将运行的更慢

B.集束搜索将使用更多的内存

C.集束搜索通常将找到更好地解决方案（比如：在最大化概率 P(y∣x)P(y|x)P(y∣x) 上做的更好）

D.集束搜索将在更少的步骤后收敛

第 163 题

在机器翻译中，如果我们在不使用句子归一化的情况下使用集束搜索，那么算法会输出过短的译文。

A.正确 B.错误

第 164 题

假设你正在构建一个能够让语音片段 xxx 转为译文 yyy 的基于RNN模型的语音识别系统，你的程序使用了集束搜索来试着找寻最大的 P(y∣x)P(y|x)P(y∣x) 的值yyy。在开发集样本中，给定一个输入音频，你的程序会输出译文 y^\hat{y}y^ = “I’m building an A Eye system in Silly con Valley.”，人工翻译为 y∗y*y∗ = “I’m building an AI system in Silicon Valley.”
在你的模型中,

P(y^∣x)=1.09∗10−7P(\hat{y}|x)=1.09*10^{-7}P(y^∣x)=1.09∗10−7P(y∗∣x)=7.21∗10−8P(y*|x)=7.21*10^{-8}P(y∗∣x)=7.21∗10−8

那么，你会增加集束宽度 BBB 来帮助修正这个样本吗？

A.不会，因为 P(y∗∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y∗∣x)<=P(y^∣x) 说明了问题在RNN，而不是搜索算法

B.不会，因为 P(y∗∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y∗∣x)<=P(y^∣x) 说明了问题在搜索算法，而不是RNN

C.会的，因为 P(y∗∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y∗∣x)<=P(y^∣x) 说明了问题在RNN，而不是搜索算法

D.会的，因为 P(y∗∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y∗∣x)<=P(y^∣x) 说明了问题在搜索算法，而不是RNN

第 165 题

接着使用第4题的样本，假设你花了几周的时间来研究你的算法，现在你发现，对于绝大多数让算法出错的例子而言，P(y∗∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y∗∣x)<=P(y^∣x)，这表明你应该将注意力集中在改进搜索算法上，对吗？

A.正确 B.错误

第 166 题

回想一下机器翻译的模型：

除此之外，还有个公式 α<t,t′>=exp(e<t,t′>)∑t′=1Txexp(<t,t′>)\alpha^{<t,t\prime>}=\frac{exp(e^{<t,t\prime>})}{\sum_{t\prime=1}^{T_x}exp(^{<t,t\prime>})}α<t,t′>=∑t′=1Txexp(<t,t′>)exp(e<t,t′>)下面关于 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 的选项那个（些）是正确的？

A.对于网络中与输出 y<t>y^{<t>}y<t> 高度相关的 α<t′>\alpha^{<t\prime>}α<t′> 而言，我们通常希望α<t,t>\alpha^{<t,t>}α<t,t>的值更大（请注意上标）

B.对于网络中与输出 y<t>y^{<t>}y<t> 高度相关的 α<t>\alpha^{<t>}α<t> 而言，我们通常希望 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 的值更大（请注意上标）

C. ∑tα<t,t′>=1\sum_t\alpha^{<t,t\prime>}=1∑tα<t,t′>=1 (注意是和除以t)

D. ∑t′α<t,t′>=1\sum_{t\prime}\alpha^{<t,t\prime>}=1∑t′α<t,t′>=1 (注意是和除以t’)

第 167 题

网络通过学习的值 e<t,t′>e^{<t,t\prime>}e<t,t′> 来学习在哪里关注“关注点”，这个值是用一个小的神经网络的计算出来的：

这个神经网络的输入中，我们不能将 s<t>s^{<t>}s<t> 替换为 s<t−1>s^{<t-1>}s<t−1> 这是因为 s<t>s^{<t>}s<t> 依赖于 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> ，而 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 又依赖于 e<t,t′>e^{<t,t\prime>}e<t,t′> ；所以在我们需要评估这个网络时，我们还没有计算出 sts^tst

A.正确 B.错误

第 168 题

与题1中的编码-解码模型（没有使用注意力机制）相比，我们希望有注意力机制的模型在下面的情况下有着最大的优势：

A.输入序列的长度 TxT_xTx 比较大

B.输入序列的长度 TxT_xTx 比较小

第 169 题

在CTC模型下，不使用"空白"字符（_）分割的相同字符串将会被折叠。那么在CTC模型下，以下字符串将会被折叠成什么样子？__c_oo_o_kk___booooo_oo__kkk

A.cokbok

B.cookbook

C.cook book

D.coookkboooooookkk

第 170 题

在触发词检测中， x<t>x^{<t>}x<t> 是：

A.时间 ttt 时的音频特征（就像是频谱特征一样）

B.第 ttt 个输入字，其被表示为一个独热向量或者一个字嵌入

C.是否在第 ttt 时刻说出了触发词

D.是否有人在第 ttt 时刻说完了触发词

161-170题答案

161.B 162.ABC 163.A 164.A 165.A 166.AD 167.A 168.A 169.B 170.A

3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授相关推荐

深度学习教程(10) | 卷积神经网络解读（吴恩达·完整版）
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
深度学习教程(6) | 神经网络优化算法（吴恩达·完整版）
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/35 本文地址:https://www.showmeai.tech/article-d ...
2.19 总结-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.18 Logistic 损失函数的解释回到目录 3.1 神经网络概览文章目录总结习题第 11 题第 12 题第 13 题第 14 题第 15 题第 1 ...
1.1 欢迎-深度学习第一课《神经网络与深度学习》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 无回到目录 1.2 什么是神经网络欢迎第一个视频主要讲了什么是深度学习,深度学习能做些什么事情.以下是吴恩达老师的原话: 深度学习改变了传统互联网业务,例如如网络搜索和 ...
3.12 总结-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.11 随机初始化回到目录 4.1 深层神经网络文章目录总结习题第 21 题第 22 题第 23 题第 24 题第 25 题第 26 题第 27 题 ...
1.8 其他正则化方法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.7 理解 Dropout 回到目录 1.9 归一化输入其他正则化方法 (Other Regularization Methods) 除了 L2L2L2 正则化和随机失活 ...
机器学习和深度学习到底怎么学？顶尖专家吴恩达告诉你
机器学习和深度学习到底怎么学? 在外国版知乎上,有位网友问:新手如何学习机器学习?学习完MOOC的课程后有没有能力阅读研究论文或者真正的做出一点研究成果? 这个困惑很多人的问题吴恩达给出了详细的回答, ...
3.5 向量化实现的解释-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.4 多个例子中的向量化回到目录 3.6 激活函数向量化实现的解释 (Explanation for Vectorized Implementation) 在上一个视频 ...
0.0 目录-深度学习第五课《序列模型》-Stanford吴恩达教授
文章目录目录第五课第四课第三课第二课第一课目录第五课 <序列模型> 笔记列表 Week 1 循环序列模型 Week 1 传送门 -> 1.1 为什么选择序列模型 1. ...

3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授

习题

第二周 - 自然语言处理与词嵌入

第 151 题

第 152 题

第 153 题

第 154 题

第 155 题

第 156 题

第 157 题

第 158 题

第 159 题

第 160 题

151-160题答案

第三周 - 序列模型与注意力机制

第 161 题

第 162 题

第 163 题

第 164 题

第 165 题

第 166 题

第 167 题

第 168 题

第 169 题

第 170 题

161-170题答案

3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授相关推荐

最新文章

热门文章

3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授

习题

第二周 - 自然语言处理与词嵌入

第 151 题

第 152 题

第 153 题

第 154 题

第 155 题

第 156 题

第 157 题

第 158 题

第 159 题

第 160 题

151-160题 答案

第三周 - 序列模型与注意力机制

第 161 题

第 162 题

第 163 题

第 164 题

第 165 题

第 166 题

第 167 题

第 168 题

第 169 题

第 170 题

161-170题 答案

3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授相关推荐

最新文章

热门文章

151-160题答案

161-170题答案