从词向量到Bert——简单作业题+讲解

习题

1．关于Word2vec，下列哪些说法是正确的（）
(A) Word2vec是有监督学习
(B)Word2vec利用当前特征词的上下文信息实现词向量编码，是语言模型的副产品
(C)Word2vec不能够表示词汇之间的语义相关性
(D)Word2vec是一个三层的深度神经网络模型

2.Transformer 结构中不包括以下哪个内容？
（A） Encoder-Decoder
（B） Self-Attention
（C） Add & Norm
（D） Single-Head Attention

3.Transformer 的优点不包括以下哪点？
(A) 每层都计算复杂度
(B) 用最小的序列化运算来测量可以被并行化的计算。
(C) 从1到n逐个进行计算一个序列长度为n的信息要经过的路径长度
(D) Self-attention可以比RNN更好地解决长时依赖问题

4. Bert模型输入不包括以下哪些内容
(A) 文本向量
(B) 位置向量
(C) 字向量
(D) 时间

5. 不考虑多头的原因，self-attention中词向量不乘QKV参数矩阵，会有什么问题？

答案及解析

1.答案：B 解析：A，word2vec利用的是中心词预测周围词或者周围词预测中心词的方法，可以看作是自监督，是直接从一段文本构造而来，原始数据是没有对应的标签的。C，由于语义相近的词通常具有类似的上下文，所以word2vec是可以学习到语义相关性的。D，word2vec包括一个embedding层，然后就是输出层，不算做深度神经网络

2.答案：D

3.答案：C 解析：A选项每层的计算复杂度为O(n2*d)，n 代表序列长度，d代表embedding维度，而RNN的复杂度为O(n*d2)，通常d大于n所以通常transformer每层的计算复杂度小于RNN。B，由于序列中每个token之间的计算并没有时间先后的依赖所以可并行。D，self-attention两个不连续的token之间可以直接通过query和key产生交互，并不需要像RNN那样只能一步步传递过来，所以可以更好地解决长时依赖问题。C选项的解释应该是说，比如在 RNN 中，两个 token 之间的交互需要经过序列一步步过来，而在 self-attention 中两个位置的token直接通过点积计算，这个信息的传递路径就很短

4.答案：D 解析：BERT的输入包括三种embedding，token embedding、position embedding、segment embedding，时间步的信息由position embedding控制。

5.答案：解析：不乘以QKV参数那么QKV全部等于输入的embedding，整个模型的参数基本只有embedding和Position-wise Feed-Forward部分的参数，模型表达能力大大下降，结果可能会比较差;具体来说，qk一致会使得自身的比重非常大，当前词很难较好的注意到其他词，对于词表征的学习产生不利影响。

本部分习题都是参考开课吧NLP训练营的，欢迎大家讨论哟

从词向量到Bert——简单作业题+讲解相关推荐

ALBERT第一作者亲自讲解：词向量、BERT、ALBERT、XLNet全面解析
现在是国家的非常时期,由于疫情各地陆续延迟复工,以及各大院校延期开学.作为一家AI教育领域的创业公司,我们希望在这个非常时期做点有价值的事情,并携手共渡难关.在疫情期间,我们决定联合国内外顶尖AI专家 ...
企业隐患排查文本挖掘比赛（二）：算法篇（从词向量到BERT）
1.文本挖掘的历程对于NLP问题,首先要解决的是文本表示的问题.虽然人能够清楚地了解文本的含义,但是计算机只能处理数值运算,因此首先要考虑如何将文本转化为数值. 1.1 向量表示 1.1.1 词袋模 ...
词向量到Bert代码——部分习题
习题 from gensim.models import word2vec sentences = ... model = Word2Vec(sentences, size=100, window=5 ...
初次遇见NLP：从词向量到BERT
目录一.词向量Word2vector 二.Transformer 三.Bert 一.词向量Word2vector 语言的表达形式有两种:一种是离散的符号,一种是基于上下文的.eg.我爱你我 1 ...
Python word2vec训练词向量，电子病历训练词向量，超简单训练电子病历的词向量，医学电子病历词向量预训练模型
1.词向量预训练模型的优势: (1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好: (2)可以用预训练好的词向量模型直接计算两个词 ...
词向量之BERT 结构
QNLI:用于判断文本是否包含问题的答案,类似于我们做阅读理解定位问题所在的段落. (d)命名实体识别 CoNLL-2003 NER:判断一个句子中的单词是不是Person,Organization, ...
使用pytorch获取bert词向量将字符转换成词向量
转载保存: 使用pytorch获取bert词向量_海蓝时见鲸_的博客-CSDN博客_获取bert词向量 pytorch-pretrained-bert简单使用_风吹草地现牛羊的马的博客-CSDN博客_ ...
使用pytorch获取bert词向量
本文主要为如何使用pytorch来获取bert词向量. 首先安装pytorch-pretrained-bert包: pip install pytorch-pretrained-bert 然后加载预训 ...
斯坦福NLP名课带学详解 | CS224n 第2讲 - 词向量进阶（NLP通关指南·完结）
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

从词向量到Bert——简单作业题+讲解

习题

答案及解析

从词向量到Bert——简单作业题+讲解相关推荐

最新文章

热门文章