NLP高频面试_CodingPark编程公园
NLP高频面试
1.LSTM
- 画图,写公式
- 计算一层的参数量
假设lstm层的一个时间点上的输入特征长度是n,输出长度是m,
那么参数量是4*((n+m)*m+m)
https://www.cnblogs.com/wushaogui/p/9176617.html
- RNN LSTM GRU区别
- LSTM与GRU的特点,为什么比RNN好
- 梯度消失与梯度爆炸的原因与解决办法
- RNN梯度消失是真消失了么?:答不是,只是乘没了,
- LSTM彻底解决了梯度消失吗?:答不是,只是减轻了,累乘变累加
- 三个门以及sigmod对每个门的作用
- 为什么lstm用tanh
LSTM中的三个门是用的sigmoid作为激活函数,生成候选记忆时候用的才是tanh,
门j的激活函数如果用relu的话会有个问题,就是relu是没有饱和区域的,那么就没
法起到门的作用。候选记忆用tanh是因为tanh的输出在-1~1,是0中心的,并且在0
附近的梯度大,模型收敛快
- lstm可以用什么代替
2.Attention
- self-attention
- 最常用的attention计算相似度方式有哪些,写一下
3. self-attention的Q, K , V是什么,乘积是什么和社么的Q和K相乘
4. self-attention的乘法计算和加法计算有什么区别,什么时候用乘,什么时候用加
a. 如果dk很小时,加法与乘法的效果差不多
b. 如果dk很大,加法比不加放缩的乘法效果好
c. 相同规模下点积比加法速度更快,更加节省空间
5. 为什么要除以根号
6. 多头注意力机制是什么
7. Transformer是那种attention机制
3.Transformer
- 原理、画图
- 为什么transformer比lstm好,项目里为什么用lstm不用transformer
1:lstm所需数据量小于Tranxformer. 2:我在实际应用中的感受,lstm 相对于 transformer这种结构 在训练的时候要稳定一些
- 为什么要用位置编码
a. 在没有 Position embedding 的 Transformer 模型并不能捕捉序列的顺序,交换单词位置后 attention map 的对应位置数值也会进行交换,并不会产生数值变化,即没有词序信息。所以这时候想要将词序信息加入到模型中。
b. 简单来说,因为不是顺序输入,transformer无法识别词序信息,所以要将词序信息加入到编码中 - position embedding为什么可以跟word embedding相加,
a. 因为拼接和相加两种方案,效果差不多,但是相加之后参数不变,拼接之后参数变多,因此更倾向于相加
b. 无论拼接还是相加,在经过self-attention开始时的线性变换时,都进行了特征重新组合与降维,所以还是参数少一些好 - 为什么用相对位置编码,如何保证周期性
a. 不同维度使用不同频率的正/余弦公式进而生成不同位置的高维位置向量。
4.Bert
- bert前期与寻来你怎么处理
- bert为什么效果好(1.数据大 2.网络深 3.双向 4.方便),Bert相比Elmo的优点
- 画Elmo图,为什么能实现词义消歧
- 画Bert图,将原理,预训练的过程
- Bert的输入有哪些
- bert和transformer的关系
- Bert和transformer的embedding的不同之处(位置编码有什么不同)
- 如何处理长文本,如何处理短文本
将长的document分解成多个短的句子,每个句子在bert上独立推断,然后将这些句子的得分聚合得到document的得分。
- bert为什么需要多头
- 为什么bert有12层encoder
- 如果bert中去掉self-attention层,可以拿到词嵌入么?为什么
去掉attention仍然有全连接层,还是可以拿到,类似于word2vec
- albert对bert的改进,roberta对bert的改进
a. albert与bert
ⅰ. embedding因式分解
ⅱ. 跨层参数共享,极大减少参数量
ⅲ. 句间一致loss(NSP任务)
b. roberta与bert
ⅰ. 去掉了NSP任务
ⅱ. 使用了更大的batch
ⅲ. 使用动态mask - bert怎么分词
- 模型蒸馏是什么
- 多语场景下的bert有哪些改进
- bert自回归 字编码?
https://zhuanlan.zhihu.com/p/163455527
- 为什么BERT是768维
5.损失函数、梯度算法与激活函数
1 . 交叉熵公式、熵、相对熵 文章目录 神经网络知识大串联 1:第一代的神经元模型 3 2:从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 6:卷积神经网络CNN ... Gensim库生成与导入W2V模型 语料目录 gensim函数库Word2Vec配置参数 gensim.models.word2vec.Word2Vec(sentences=None,size=100 ... 文章结构速览 关系梳理 数据挖掘:从海量数据中找到隐藏的规则,数据分析:待分析的目标比较明确 数据分析更侧重业务,一般分析的目标比较明确,重点在观察数据,得出结论: 数据挖掘更侧重技术,利用统计学/机 ... GPU和CPU的区别 设计目标 CPU:处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理 GPU:处理类型高度统一的.相互无依赖的大规模数据,不需要被打断的纯净的计算环境 G ... 文章介绍 本文主要介绍: Linux的基础参数 Linux压缩 Linux解压缩 基础参数 tar - 5大参数 -c:压缩 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原 ... 问题 navigator无法打开.停在adding featured channels状态下. 解决 在mac终端下更新navigator 输入 conda install navigator 即可解 ... 引子 下采样和池化应该是包含关系,池化属于下采样,而下采样不局限于池化,如果卷积 stride=2,此时也可以把这种卷积叫做下采样. 池化 通常池化层紧跟在 CNN 的卷积层之后. 池化方法: max ... 基本概念 什么是词性 在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类.同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集.不同的语料库采用了不 ... 基本概念 引言 HMM - 估计特征与序列的联合概率 p(x,y) 感知机 - 给它们打一个分数 score(x,y) CRF - 与感知机同属于结构化学习家族,但性能比感知机强大 机器学习的模型谱系 ...【信息熵】是衡量随机变量分布的混乱程度,是随机分布各事件发生的信息量的期望值,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大;信息熵推广到多维领域,则可得到联合信息熵;条件熵表示的是在
NLP高频面试_CodingPark编程公园相关推荐
最新文章
热门文章