从词向量到Bert——简单作业题+讲解
习题
1.关于Word2vec,下列哪些说法是正确的()
(A) Word2vec是有监督学习
(B)Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品
(C)Word2vec不能够表示词汇之间的语义相关性
(D)Word2vec是一个三层的深度神经网络模型
2.Transformer 结构中不包括以下哪个内容?
(A) Encoder-Decoder
(B) Self-Attention
(C) Add & Norm
(D) Single-Head Attention
3.Transformer 的优点不包括以下哪点?
(A) 每层都计算复杂度
(B) 用最小的序列化运算来测量可以被并行化的计算。
(C) 从1到n逐个进行计算一个序列长度为n的信息要经过的路径长度
(D) Self-attention可以比RNN更好地解决长时依赖问题
4. Bert模型输入不包括以下哪些内容
(A) 文本向量
(B) 位置向量
(C) 字向量
(D) 时间
5. 不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?
答案及解析
1.答案:B 解析:A,word2vec利用的是中心词预测周围词或者周围词预测中心词的方法,可以看作是自监督,是直接从一段文本构造而来,原始数据是没有对应的标签的。C,由于语义相近的词通常具有类似的上下文,所以word2vec是可以学习到语义相关性的。D,word2vec包括一个embedding层,然后就是输出层,不算做深度神经网络
2.答案:D
3.答案:C 解析:A选项每层的计算复杂度为O(n2*d),n 代表序列长度,d代表embedding维度,而RNN的复杂度为O(n*d2),通常d大于n所以通常transformer每层的计算复杂度小于RNN。B,由于序列中每个token之间的计算并没有时间先后的依赖所以可并行。D,self-attention两个不连续的token之间可以直接通过query和key产生交互,并不需要像RNN那样只能一步步传递过来,所以可以更好地解决长时依赖问题。C选项的解释应该是说,比如在 RNN 中,两个 token 之间的交互需要经过序列一步步过来,而在 self-attention 中两个位置的token直接通过点积计算,这个信息的传递路径就很短
4.答案:D 解析:BERT的输入包括三种embedding,token embedding、position embedding、segment embedding,时间步的信息由position embedding控制。
5.答案:解析:不乘以QKV参数那么QKV全部等于输入的embedding,整个模型的参数基本只有embedding和Position-wise Feed-Forward部分的参数,模型表达能力大大下降,结果可能会比较差;具体来说,qk一致会使得自身的比重非常大,当前词很难较好的注意到其他词,对于词表征的学习产生不利影响。
本部分习题都是参考开课吧NLP训练营的,欢迎大家讨论哟
从词向量到Bert——简单作业题+讲解相关推荐
- ALBERT第一作者亲自讲解:词向量、BERT、ALBERT、XLNet全面解析
现在是国家的非常时期,由于疫情各地陆续延迟复工,以及各大院校延期开学.作为一家AI教育领域的创业公司,我们希望在这个非常时期做点有价值的事情,并携手共渡难关.在疫情期间,我们决定联合国内外顶尖AI专家 ...
- 企业隐患排查文本挖掘比赛(二):算法篇(从词向量到BERT)
1.文本挖掘的历程 对于NLP问题,首先要解决的是文本表示的问题.虽然人能够清楚地了解文本的含义,但是计算机只能处理数值运算,因此首先要考虑如何将文本转化为数值. 1.1 向量表示 1.1.1 词袋模 ...
- 词向量到Bert代码——部分习题
习题 from gensim.models import word2vec sentences = ... model = Word2Vec(sentences, size=100, window=5 ...
- 初次遇见NLP:从词向量到BERT
目录 一.词向量Word2vector 二.Transformer 三.Bert 一.词向量Word2vector 语言的表达形式有两种:一种是离散的符号,一种是基于上下文的.eg.我 爱 你 我 1 ...
- Python word2vec训练词向量,电子病历训练词向量,超简单训练电子病历的词向量,医学电子病历词向量预训练模型
1.词向量预训练模型的优势: (1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好: (2)可以用预训练好的词向量模型直接计算两个词 ...
- 词向量之BERT 结构
QNLI:用于判断文本是否包含问题的答案,类似于我们做阅读理解定位问题所在的段落. (d)命名实体识别 CoNLL-2003 NER:判断一个句子中的单词是不是Person,Organization, ...
- 使用pytorch获取bert词向量 将字符转换成词向量
转载保存: 使用pytorch获取bert词向量_海蓝时见鲸_的博客-CSDN博客_获取bert词向量 pytorch-pretrained-bert简单使用_风吹草地现牛羊的马的博客-CSDN博客_ ...
- 使用pytorch获取bert词向量
本文主要为如何使用pytorch来获取bert词向量. 首先安装pytorch-pretrained-bert包: pip install pytorch-pretrained-bert 然后加载预训 ...
- 斯坦福NLP名课带学详解 | CS224n 第2讲 - 词向量进阶(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
最新文章
- C++Kosaraju找有向图的强连通分量算法(附完整源码)
- 【云栖大会】探索云时代下的游戏开发模式
- C while 循环
- 生成网站缩略图代码(C#)
- LeetCode 6 - ZigZag Conversion
- 【PostgreSQL-9.6.3】如何得到psql中命令的实际执行SQL
- 【数据结构】深度优先和广度优先比较
- LINQ 花3个礼拜的时间来弄清楚
- 【面试题7】用两个栈实现队列
- 适合有基础的Java实战项目——坦克大战 练手实战项目
- ab测试post如何用文件提交json格式的参数
- java poi生成word
- sqlite优化简单分析
- Ballerina语言有望改善应用程序集成
- 如何用python制作三维动画_用Python制作3D动画
- Keras中predict()方法和predict_classes()方法的区别
- 如果不懂这些搜索技巧,就别说你懂 GitHub
- 29-lao-58案例:弹性盒子实现移动导航布局
- 0032-PAT满分行动第二天:简单模拟1046、1008、1012
- 一句话证明你是java开发_如何用一句话证明你是程序员?41 个答案揭晓!