8.Attention 对比 RNN 和 CNN,分别有哪点你觉得的优势

对比 RNN 的是,RNN 是基于马尔可夫决策过程,决策链路太短,且单向
对比 CNN 的是,CNN 基于的是窗口式捕捉,没有受限于窗口大小,局部信息获取,且无序

9.写出 Attention 的公式

10.Attention 机制,里面的 q,k,v 分别代表什么

  • Q:指的是query,相当于decoder的内容
  • K:指的是key,相当于encoder的内容
  • V:指的是value,相当于encoder的内容

q 和 k 对齐了解码端和编码端的信息相似度,相似度的值进行归一化后会生成对齐概率值 (注意力值)。V 对应的是 encoder 的内容,刚说了 attention 是对 encoder 对重编码, qk 完成权重重新计算,v 复制重编码

11.为什么 self-attention 可以替代 seq2seq

  • seq2seq最大的问题在于将Encoder端的所有信息压缩到一个固定长度的向量中, 并将其作为 Decoder 端首个隐藏状态的输入,来预测 Decoder 端第一个单词 (token)的隐藏状态。在输入序列比较长的时候,这样做显然会损失 Encoder 端的 很多信息,而且这样一股脑的把该固定向量送入 Decoder 端,Decoder 端不能够关 注到其想要关注的信息。
  • self-attention让源序列和目标序列首先“自关联”起来,这样的话,源序列和 目标序列自身的 embedding 表示所蕴含的信息更加丰富,而且后续的 FFN 层也增 强了模型的表达能力,并且 Transformer 并行计算的能力是远远超过 seq2seq 系 列的模型。

解释 GolVe 的损失函数?

其实,一句话解释就是想构造一个向量表征方式,使得向量的点击和共现矩阵中的对应关 系一致。因为共现矩阵中的对应关系证明了,存在 i,k,j 三个不同的文本,如果 i 和 k 相关,j 和 k 相关,那么 p(i,j)=p(j,k)近似于 1,其他情况都过大和过小。

  • 如何处理未出现词?

按照词性进行已知词替换,[unknow-n],[unknow-a],[unknow-v]...,然后再进行训练。 实际去用的时候,判断词性后直接使用对应的 unknown-?向量替代

为什么 GolVe 会用的相对比 W2V 少?

GloVe 算法本身使用了全局信息,自然内存费的也就多一些 公现矩阵,NXN 的,N 为词袋量
W2V 的工程实现结果相对来说支持的更多,比如 most_similarty 等功能

层次 softmax 流程

构造 Huffman Tree 最大化对数似然函数

  • 输入层:是上下文的词语的词向量
  • 投影层:对其求和,所谓求和,就是简单的向量加法
  • 输出层:输出最可能的word

沿着哈夫曼树找到对应词,每一次节点选择就是一次 logistics 选择过程,连乘即为似然 函数
对每层每个变量求偏导,参考 sgd

深度学习试题_深度学习理论类常见面试题(二)相关推荐

  1. 深度学习 图像分类_深度学习时代您应该阅读的10篇文章了解图像分类

    深度学习 图像分类 前言 (Foreword) Computer vision is a subject to convert images and videos into machine-under ...

  2. 深度学习算法_深度学习算法

    人工智能领域广泛,存在时间较长.深度学习是机器学习领域的一个子集,而机器学习是人工智能领域的一个子集.一般将深度学习网络与"典型"前馈多层网络从如下方面进行区分: 深度学习网络具有 ...

  3. 深度学习推荐系统_深度推荐系统

    深度学习推荐系统 The aim of this post is to describe how one can leverage a deep learning framework to creat ...

  4. eta 深度学习 参数_深度学习中的参数梯度推导(一)

    必备的数学知识 矩阵微分与求导 前言 深度学习向来被很多人认为是"黑盒",因为似乎很多人都不清楚深度学习的运作方式,本系列<深度学习中的数学>的连载文章主要目的就是向大 ...

  5. 深度学习英文缩写_深度学习相关专业词汇简称汇总

    深度学习相关专业词汇简称汇总 zoerywzhou@gmail.com 作者:Zhouw 2016-3-15 版权声明:本文为博主原创文章,未经博主允许不得转载. 作者是深度学习的初学者,经由导师指导 ...

  6. python 数据类笔试题_一道 Python 类的笔试题详解

    r = {} class C(object): def __init__(self, a, b): self.a = a self.b = b if b == 'a': orig = super(C, ...

  7. java 知乎面试题_面试题|Java基础17道常见面试题

    1. JDK 和 JRE 有什么区别? 面向人群不同: JDK是面向开发人员使用的SDK. JRE是Java Runtime Enviroment是指Java的运行环境,是面向Java程序的使用者. ...

  8. Kubernetes学习总结(5)——Kubernetes 常见面试题汇总

    简述etcd及其特点 etcd是CoreOS团队发起的开源项目,是一个管理配置信息和服务发现(service discovery)的项目,它的目标是构建一个高可用的分布式键值(key-value)数据 ...

  9. 消息中间件学习总结(18)——MQ常见面试题总结

    一.为什么使用 MQ? 好的架构不是设计出来的,是演进出来的,使用 MQ 必定有其道理,是用来解决实际问题的.其实使用 MQ 的场景挺多的,但是比较核心的有 3 个:异步.解耦.削峰填谷. 1.异步 ...

最新文章

  1. c语言自定义char*函数返回值是乱码_[每日C语言」printf()函数的修饰符和返回值...
  2. [转载] Python新手写出漂亮的爬虫代码1——从html获取信息
  3. android h5链接蓝牙,h5+runtime Native.js 混合APP连接蓝牙打印机
  4. 【设计模式】重载和重写
  5. 学生考勤及行为管理系统_幼儿园接送考勤管理系统,可抓拍陌生人 预警黑白名单!...
  6. 美颜重磅技术之GPUImage源码分析
  7. 傅里叶变换1 ~ 离散时间傅里叶变换(DTFT)
  8. 斯坦福NLP名课带学详解 | CS224n 第14讲 - Transformers自注意力与生成模型(NLP通关指南·完结)
  9. php 翻转180度,如何翻转视频—将视频翻转90或180度
  10. 智能音箱硬件和软件介绍[上] 硬件结构解析[Soomal]
  11. oracle默认导出dmp路径_Oracle导入导出dmp文件
  12. OSChina 周三乱弹 ——grath最近睡了一主播
  13. 亚马逊工作室与Gillian Flynn签订全面协议,将制作《乌托邦》新剧集
  14. SCA IDEA插件开发思路
  15. GitHub开源的诺基亚短信生成器
  16. YARN假死处理(JOB超过10000个)
  17. PHP(4)PHP数据类型
  18. 2018开门红,格力电器1月大涨28.01%,怒送1个涨停
  19. 中国马口铁市场供需现状调研与前景趋势分析报告2022-2028年
  20. ECMAScript,javascript,jscript

热门文章

  1. 修改Chrome默认搜索引擎
  2. dumpsys gfxinfo packacges计算帧率
  3. Android系统启动-SystemServer下篇
  4. ffmpeg一些filter用法、以及一些功能命令
  5. tensorflow之安装PIL
  6. 视频编解码(十三):list_for_each_entry列表总结
  7. Ubuntu20.04更新源步骤
  8. 设置php语言,PHP语言之php-fpm 基本设置与启动
  9. 在pytorch中使用tensorboard
  10. 《机器学习》二刷超详细笔记| 第一章 绪论