习题

1.关于Word2vec,下列哪些说法是正确的()
(A) Word2vec是有监督学习
(B)Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品
(C)Word2vec不能够表示词汇之间的语义相关性
(D)Word2vec是一个三层的深度神经网络模型

2.Transformer 结构中不包括以下哪个内容?
(A) Encoder-Decoder
(B) Self-Attention
(C) Add & Norm
(D) Single-Head Attention

3.Transformer 的优点不包括以下哪点?
(A) 每层都计算复杂度
(B) 用最小的序列化运算来测量可以被并行化的计算。
(C) 从1到n逐个进行计算一个序列长度为n的信息要经过的路径长度
(D) Self-attention可以比RNN更好地解决长时依赖问题

4. Bert模型输入不包括以下哪些内容
(A) 文本向量
(B) 位置向量
(C) 字向量
(D) 时间

5. 不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?

答案及解析

1.答案:B 解析:A,word2vec利用的是中心词预测周围词或者周围词预测中心词的方法,可以看作是自监督,是直接从一段文本构造而来,原始数据是没有对应的标签的。C,由于语义相近的词通常具有类似的上下文,所以word2vec是可以学习到语义相关性的。D,word2vec包括一个embedding层,然后就是输出层,不算做深度神经网络

2.答案:D

3.答案:C 解析:A选项每层的计算复杂度为O(n2*d),n 代表序列长度,d代表embedding维度,而RNN的复杂度为O(n*d2),通常d大于n所以通常transformer每层的计算复杂度小于RNN。B,由于序列中每个token之间的计算并没有时间先后的依赖所以可并行。D,self-attention两个不连续的token之间可以直接通过query和key产生交互,并不需要像RNN那样只能一步步传递过来,所以可以更好地解决长时依赖问题。C选项的解释应该是说,比如在 RNN 中,两个 token 之间的交互需要经过序列一步步过来,而在 self-attention 中两个位置的token直接通过点积计算,这个信息的传递路径就很短

4.答案:D 解析:BERT的输入包括三种embedding,token embedding、position embedding、segment embedding,时间步的信息由position embedding控制。

5.答案:解析:不乘以QKV参数那么QKV全部等于输入的embedding,整个模型的参数基本只有embedding和Position-wise Feed-Forward部分的参数,模型表达能力大大下降,结果可能会比较差;具体来说,qk一致会使得自身的比重非常大,当前词很难较好的注意到其他词,对于词表征的学习产生不利影响。

本部分习题都是参考开课吧NLP训练营的,欢迎大家讨论哟

从词向量到Bert——简单作业题+讲解相关推荐

  1. ALBERT第一作者亲自讲解:词向量、BERT、ALBERT、XLNet全面解析

    现在是国家的非常时期,由于疫情各地陆续延迟复工,以及各大院校延期开学.作为一家AI教育领域的创业公司,我们希望在这个非常时期做点有价值的事情,并携手共渡难关.在疫情期间,我们决定联合国内外顶尖AI专家 ...

  2. 企业隐患排查文本挖掘比赛(二):算法篇(从词向量到BERT)

    1.文本挖掘的历程 对于NLP问题,首先要解决的是文本表示的问题.虽然人能够清楚地了解文本的含义,但是计算机只能处理数值运算,因此首先要考虑如何将文本转化为数值. 1.1 向量表示 1.1.1 词袋模 ...

  3. 词向量到Bert代码——部分习题

    习题 from gensim.models import word2vec sentences = ... model = Word2Vec(sentences, size=100, window=5 ...

  4. 初次遇见NLP:从词向量到BERT

    目录 一.词向量Word2vector 二.Transformer 三.Bert 一.词向量Word2vector 语言的表达形式有两种:一种是离散的符号,一种是基于上下文的.eg.我 爱 你 我 1 ...

  5. Python word2vec训练词向量,电子病历训练词向量,超简单训练电子病历的词向量,医学电子病历词向量预训练模型

    1.词向量预训练模型的优势: (1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好: (2)可以用预训练好的词向量模型直接计算两个词 ...

  6. 词向量之BERT 结构

    QNLI:用于判断文本是否包含问题的答案,类似于我们做阅读理解定位问题所在的段落. (d)命名实体识别 CoNLL-2003 NER:判断一个句子中的单词是不是Person,Organization, ...

  7. 使用pytorch获取bert词向量 将字符转换成词向量

    转载保存: 使用pytorch获取bert词向量_海蓝时见鲸_的博客-CSDN博客_获取bert词向量 pytorch-pretrained-bert简单使用_风吹草地现牛羊的马的博客-CSDN博客_ ...

  8. 使用pytorch获取bert词向量

    本文主要为如何使用pytorch来获取bert词向量. 首先安装pytorch-pretrained-bert包: pip install pytorch-pretrained-bert 然后加载预训 ...

  9. 斯坦福NLP名课带学详解 | CS224n 第2讲 - 词向量进阶(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

最新文章

  1. C++Kosaraju找有向图的强连通分量算法(附完整源码)
  2. 【云栖大会】探索云时代下的游戏开发模式
  3. C while 循环
  4. 生成网站缩略图代码(C#)
  5. LeetCode 6 - ZigZag Conversion
  6. 【PostgreSQL-9.6.3】如何得到psql中命令的实际执行SQL
  7. 【数据结构】深度优先和广度优先比较
  8. LINQ 花3个礼拜的时间来弄清楚
  9. 【面试题7】用两个栈实现队列
  10. 适合有基础的Java实战项目——坦克大战 练手实战项目
  11. ab测试post如何用文件提交json格式的参数
  12. java poi生成word
  13. sqlite优化简单分析
  14. Ballerina语言有望改善应用程序集成
  15. 如何用python制作三维动画_用Python制作3D动画
  16. Keras中predict()方法和predict_classes()方法的区别
  17. 如果不懂这些搜索技巧,就别说你懂 GitHub
  18. 29-lao-58案例:弹性盒子实现移动导航布局
  19. 0032-PAT满分行动第二天:简单模拟1046、1008、1012
  20. 一句话证明你是java开发_如何用一句话证明你是程序员?41 个答案揭晓!

热门文章

  1. 城市追风口,车企“缉拿”路测牌照
  2. AlphaGo的制胜秘诀:蒙特卡洛树搜索初学者指南
  3. 推荐一款基于 SpringBoot 的接口快速开发框架
  4. 如何优雅的转换 Bean 对象?
  5. 重磅!分布式数据库解决方案Apache ShardingSphere毕业成为顶级项目
  6. 支付宝架构师眼中的高并发架构
  7. 原创推荐!B站最强学习资源汇总(数据科学,机器学习,Python)
  8. 35岁中年博士失业,决定给后辈一些建议!
  9. 深度学习作弊,用单个参数 fit 任何数据集,这篇 19 年的论文重新「火」了
  10. 五年之内博士会开始内卷吗?