1.13 总结-深度学习第五课《序列模型》-Stanford吴恩达教授
←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
1.12 深层循环神经网络 | 回到目录 | 1.13 总结 |
总结
习题
第 141 题
假设你的训练样本是句子(单词序列),下面哪个选项指的是第i个训练样本中的第j个词?
A.x(i)<j>x^{(i)<j>}x(i)<j>
B.x<i>(j)x^{<i>(j)}x<i>(j)
C.x(j)<i>x^{(j)<i>}x(j)<i>
D.x<j>(i)x^{<j>(i)}x<j>(i)
第 142 题
看一下下面的这个循环神经网络:
在下面的条件中,满足上图中的网络结构的参数是:
A.Tx=TyT_x=T_yTx=Ty
B.Tx<TyT_x<T_yTx<Ty
C.Tx>TyT_x>T_yTx>Ty
D.Tx=1T_x=1Tx=1
第 143 题
这些任务中的哪一个会使用多对一的RNN体系结构?
A.语音识别(输入语音,输出文本)
B.情感分类(输入一段文字,输出0或1表示正面或者负面的情绪)
C.图像分类(输入一张图片,输出对应的标签)
D.人声性别识别(输入语音,输出说话人的性别)
第 144 题
假设你现在正在训练下面这个RNN的语言模型:
在 ttt 时,这个RNN在做什么?
A.计算P(y<1>,y<2>,…,y<t−1>)P(y^{<1>},y^{<2>},…,y^{<t-1>})P(y<1>,y<2>,…,y<t−1>)
B.计算P(y<t>)P(y^{<t>})P(y<t>)
C.计算P(y<t>∣y<1>,y<2>,…,y<t−1>)P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>})P(y<t>∣y<1>,y<2>,…,y<t−1>)
D.计算P(y<t>∣y<1>,y<2>,…,y<t>)P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t>})P(y<t>∣y<1>,y<2>,…,y<t>)
第 145 题
你已经完成了一个语言模型RNN的训练,并用它来对句子进行随机取样,如下图:
在每个时间步 ttt 都在做什么?
A.(1)使用RNN输出的概率,选择该时间步的最高概率单词作为y^<t>\hat{y}^{<t>}y^<t>,(2)然后将训练集中的正确的单词传递到下一个时间步
B.(1)使用由RNN输出的概率将该时间步的所选单词进行随机采样作为y^<t>\hat{y}^{<t>}y^<t>,(2)然后将训练集中的实际单词传递到下一个时间步
C.(1)使用由RNN输出的概率来选择该时间步的最高概率词作为y^<t>\hat{y}^{<t>}y^<t>,(2)然后将该选择的词传递给下一个时间步
D.(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为y^<t>\hat{y}^{<t>}y^<t>,(2)然后将此选定单词传递给下一个时间步
第 146 题
你正在训练一个RNN网络,你发现你的权重与激活值都是“NaN”,下列选项中,哪一个是导致这个问题的最有可能的原因?
A.梯度消失
B.梯度爆炸
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
第 147 题
假设你正在训练一个LSTM网络,你有一个10,000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中, Γu\Gamma_uΓu 的维度是多少?
A.1
B.100
C.300
D.10000
第 148 题
这里有一些GRU的更新方程:
爱丽丝建议通过移除 Γu\Gamma_uΓu 来简化GRU,即设置 Γu=1\Gamma_u=1Γu=1 。贝蒂提出通过移除 Γr\Gamma_rΓr 来简化GRU,即设置 Γr=1\Gamma_r=1Γr=1 。哪种模型更容易在梯度不消失问题的情况下训练,即使在很长的输入序列上也可以进行训练?
A.爱丽丝的模型(即移除 Γu\Gamma_uΓu ),因为对于一个时间步而言,如果 Γr≈0\Gamma_r\approx0Γr≈0 ,梯度可以通过时间步反向传播而不会衰减。
B.爱丽丝的模型(即移除 Γu\Gamma_uΓu ),因为对于一个时间步而言,如果 Γr≈1\Gamma_r\approx1Γr≈1 ,梯度可以通过时间步反向传播而不会衰减。
C.贝蒂的模型(即移除 Γr\Gamma_rΓr ),因为对于一个时间步而言,如果 Γu≈0\Gamma_u\approx0Γu≈0 ,梯度可以通过时间步反向传播而不会衰减。
D.贝蒂的模型(即移除 Γr\Gamma_rΓr ),因为对于一个时间步而言,如果 Γu≈1\Gamma_u\approx1Γu≈1 ,梯度可以通过时间步反向传播而不会衰减。
第 149 题
这里有一些GRU和LSTM的方程:
从这些我们可以看到,在LSTM中的更新门和遗忘门在GRU中扮演类似___与___的角色,空白处应该填什么?
A. Γu\Gamma_uΓu 与 1−Γu1-\Gamma_u1−Γu
B. Γu\Gamma_uΓu 与 Γr\Gamma_rΓr
C. 1−Γu1-\Gamma_u1−Γu 与 Γu\Gamma_uΓu
D. Γr\Gamma_rΓr 与 Γu\Gamma_uΓu
第 150 题
你有一只宠物狗,它的心情很大程度上取决于当前和过去几天的天气。你已经收集了过去365天的天气数据 x<1>,⋯,x<365>x^{<1>},\cdots,x^{<365>}x<1>,⋯,x<365> ,这些数据是一个序列,你还收集了你的狗心情的数据 y<1>,⋯,y<365>y^{<1>},\cdots,y^{<365>}y<1>,⋯,y<365> ,你想建立一个模型来从x到y进行映射,你应该使用单向RNN还是双向RNN来解决这个问题?
A.双向RNN,因为在 ttt 日的情绪预测中可以考虑到更多的信息。
B.双向RNN,因为这允许反向传播计算中有更精确的梯度。
C.单向RNN,因为y的值仅依赖于x<1>,…,x,而不依赖于x,…,x<365>y^{}的值仅依赖于x^{<1>},…,x^{},而不依赖于x^{},…,x^{<365>}y的值仅依赖于x<1>,…,x,而不依赖于x,…,x<365>
D.单向RNN,因为y的值只取决于xy^{}的值只取决于x^{}y的值只取决于x,而不是其他天的天气。
141-150题 答案
141.A 142.A 143.BD 144.C 145.D 146.B 147.B 148.C 149.A 150.C
←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
1.12 深层循环神经网络 | 回到目录 | 1.13 总结 |
1.13 总结-深度学习第五课《序列模型》-Stanford吴恩达教授相关推荐
- 深度学习教程(10) | 卷积神经网络解读(吴恩达·完整版)
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/35 本文地址:http://www.showmeai.tech/article-det ...
- 深度学习教程(6) | 神经网络优化算法(吴恩达·完整版)
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/35 本文地址:https://www.showmeai.tech/article-d ...
- 2.19 总结-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.18 Logistic 损失函数的解释 回到目录 3.1 神经网络概览 文章目录 总结 习题 第 11 题 第 12 题 第 13 题 第 14 题 第 15 题 第 1 ...
- 1.1 欢迎-深度学习第一课《神经网络与深度学习》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 无 回到目录 1.2 什么是神经网络 欢迎 第一个视频主要讲了什么是深度学习,深度学习能做些什么事情.以下是吴恩达老师的原话: 深度学习改变了传统互联网业务,例如如网络搜索和 ...
- 1.8 其他正则化方法-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.7 理解 Dropout 回到目录 1.9 归一化输入 其他正则化方法 (Other Regularization Methods) 除了 L2L2L2 正则化和随机失活 ...
- 机器学习和深度学习到底怎么学?顶尖专家吴恩达告诉你
机器学习和深度学习到底怎么学? 在外国版知乎上,有位网友问:新手如何学习机器学习?学习完MOOC的课程后有没有能力阅读研究论文或者真正的做出一点研究成果? 这个困惑很多人的问题吴恩达给出了详细的回答, ...
- 3.12 总结-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.11 随机初始化 回到目录 4.1 深层神经网络 文章目录 总结 习题 第 21 题 第 22 题 第 23 题 第 24 题 第 25 题 第 26 题 第 27 题 ...
- 3.5 向量化实现的解释-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.4 多个例子中的向量化 回到目录 3.6 激活函数 向量化实现的解释 (Explanation for Vectorized Implementation) 在上一个视频 ...
- 0.0 目录-深度学习第五课《序列模型》-Stanford吴恩达教授
文章目录 目录 第五课 第四课 第三课 第二课 第一课 目录 第五课 <序列模型> 笔记列表 Week 1 循环序列模型 Week 1 传送门 -> 1.1 为什么选择序列模型 1. ...
- 3.8 注意力模型-深度学习第五课《序列模型》-Stanford吴恩达教授
注意力模型 (Attention Model) 在上个视频中你已经见到了,注意力模型如何让一个神经网络只注意到一部分的输入句子.当它在生成句子的时候,更像人类翻译.让我们把这些想法转化成确切的式子,来 ...
最新文章
- 笔记-信息系统安全管理-安全审计
- 3月第3周中国五大顶级域名总量增5.4万 美国减31.5万
- python语言打印菱形_Python 实现打印单词的菱形字符图案
- 心得 | 《用得上的商学课》 004 边际成本 | 飞机起飞前的座位,只卖一块钱?...
- 智能一代云平台(二十四):已安装的Nginx上安装echo插件
- JDBC 增删改查操作示例
- 添加jackson_Jackson,最牛掰的 Java JSON 解析器
- 「零基础从零开始写VO视觉里程计」如何求解线性方程 Hdx=b?(7-)
- HCIA-虚拟化与网络存储技术
- java 响应式编程_响应式编程
- QQ坦白说查看好友方法攻略
- 大数据的七大核心具体价值
- 怎么把外部参照合并到图纸_为什么CAD图纸作为外部参照插入时位置变了?
- Python pass 用法
- hangfire支持mysql_abp 使用 hangfire结合mysql
- 快速画简笔画网站推荐以及思考
- CAN控制器和CAN收发器初始化
- 最详细的Java程序打包成“可安装使用”的桌面应用
- javascript数组 去重
- ES的安装使用(windows版)
热门文章
- javascript中Math.random()产生随机数总结
- 翻译:XtraDB/InnoDB中的AUTO_INCREMENT处理方式(已提交到MariaDB官方手册)
- JVM原理和性能调优
- 浅谈 Request Response
- 向服务器端提交数据的两种方式
- PHP新手上路(十二)
- UA MATH563 概率论的数学基础 中心极限定理5 Renyi定理
- UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式与Khintchine不等式
- UA MATH565C 随机微分方程V Markov Family的特征函数
- UMDF驱动开发入门