NLP高频面试

1.LSTM

画图，写公式
计算一层的参数量

假设lstm层的一个时间点上的输入特征长度是n，输出长度是m，
那么参数量是4*((n+m)*m+m)
https://www.cnblogs.com/wushaogui/p/9176617.html

RNN LSTM GRU区别
LSTM与GRU的特点，为什么比RNN好
梯度消失与梯度爆炸的原因与解决办法
RNN梯度消失是真消失了么？：答不是，只是乘没了，
LSTM彻底解决了梯度消失吗？：答不是，只是减轻了，累乘变累加
三个门以及sigmod对每个门的作用
为什么lstm用tanh

LSTM中的三个门是用的sigmoid作为激活函数，生成候选记忆时候用的才是tanh，
门j的激活函数如果用relu的话会有个问题，就是relu是没有饱和区域的，那么就没
法起到门的作用。候选记忆用tanh是因为tanh的输出在-1~1，是0中心的，并且在0
附近的梯度大，模型收敛快

lstm可以用什么代替

2.Attention

self-attention
最常用的attention计算相似度方式有哪些，写一下

3. self-attention的Q, K , V是什么，乘积是什么和社么的Q和K相乘
4. self-attention的乘法计算和加法计算有什么区别，什么时候用乘，什么时候用加
a. 如果dk很小时，加法与乘法的效果差不多
b. 如果dk很大，加法比不加放缩的乘法效果好
c. 相同规模下点积比加法速度更快，更加节省空间
5. 为什么要除以根号
6. 多头注意力机制是什么
7. Transformer是那种attention机制

3.Transformer

原理、画图
为什么transformer比lstm好，项目里为什么用lstm不用transformer1:lstm所需数据量小于Tranxformer. 2:我在实际应用中的感受，lstm 相对于 transformer这种结构在训练的时候要稳定一些
为什么要用位置编码
a. 在没有 Position embedding 的 Transformer 模型并不能捕捉序列的顺序，交换单词位置后 attention map 的对应位置数值也会进行交换，并不会产生数值变化，即没有词序信息。所以这时候想要将词序信息加入到模型中。
b. 简单来说，因为不是顺序输入，transformer无法识别词序信息，所以要将词序信息加入到编码中
position embedding为什么可以跟word embedding相加，
a. 因为拼接和相加两种方案，效果差不多，但是相加之后参数不变，拼接之后参数变多，因此更倾向于相加
b. 无论拼接还是相加，在经过self-attention开始时的线性变换时，都进行了特征重新组合与降维，所以还是参数少一些好
为什么用相对位置编码，如何保证周期性
a. 不同维度使用不同频率的正/余弦公式进而生成不同位置的高维位置向量。

4.Bert

bert前期与寻来你怎么处理
bert为什么效果好（1.数据大 2.网络深 3.双向 4.方便），Bert相比Elmo的优点
画Elmo图，为什么能实现词义消歧
画Bert图，将原理，预训练的过程
Bert的输入有哪些
bert和transformer的关系
Bert和transformer的embedding的不同之处（位置编码有什么不同）
如何处理长文本，如何处理短文本将长的document分解成多个短的句子，每个句子在bert上独立推断，然后将这些句子的得分聚合得到document的得分。
bert为什么需要多头
为什么bert有12层encoder
如果bert中去掉self-attention层，可以拿到词嵌入么？为什么去掉attention仍然有全连接层，还是可以拿到，类似于word2vec
albert对bert的改进，roberta对bert的改进
a. albert与bert
ⅰ. embedding因式分解
ⅱ. 跨层参数共享，极大减少参数量
ⅲ. 句间一致loss（NSP任务）
b. roberta与bert
ⅰ. 去掉了NSP任务
ⅱ. 使用了更大的batch
ⅲ. 使用动态mask
bert怎么分词
模型蒸馏是什么
多语场景下的bert有哪些改进
bert自回归字编码？

https://zhuanlan.zhihu.com/p/163455527

为什么BERT是768维

5.损失函数、梯度算法与激活函数

1 . 交叉熵公式、熵、相对熵【信息熵】是衡量随机变量分布的混乱程度，是随机分布各事件发生的信息量的期望值，随机变量的取值个数越多，状态数也就越多，信息熵就越大，混乱程度就越大。当随机分布为均匀分布时，熵最大；信息熵推广到多维领域，则可得到联合信息熵；条件熵表示的是在



											
NLP高频面试_CodingPark编程公园相关推荐	

								人工智能中神经网络与自然语言处理共生关系_CodingPark编程公园
		文章目录 神经网络知识大串联 1:第一代的神经元模型 3 2:从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 6:卷积神经网络CNN ...
		
						Gensim库生成与导入W2V模型_CodingPark编程公园
		Gensim库生成与导入W2V模型 语料目录 gensim函数库Word2Vec配置参数 gensim.models.word2vec.Word2Vec(sentences=None,size=100 ...
		
						数据分析调研报告_CodingPark编程公园
		文章结构速览 关系梳理 数据挖掘:从海量数据中找到隐藏的规则,数据分析:待分析的目标比较明确 数据分析更侧重业务,一般分析的目标比较明确,重点在观察数据,得出结论: 数据挖掘更侧重技术,利用统计学/机 ...
		
						GPU概述_CodingPark编程公园
		GPU和CPU的区别 设计目标 CPU:处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理 GPU:处理类型高度统一的.相互无依赖的大规模数据,不需要被打断的纯净的计算环境 G ...
		
						Linux压缩｜解压_CodingPark编程公园
		文章介绍 本文主要介绍: Linux的基础参数 Linux压缩 Linux解压缩 基础参数 tar - 5大参数 -c:压缩 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原 ...
		
						anaconda-navigaotr出现adding featured channels并无法正常打开_CodingPark编程公园
		问题 navigator无法打开.停在adding featured channels状态下. 解决 在mac终端下更新navigator 输入 conda install navigator 即可解 ...
		
						谈谈池化吧！_CodingPark编程公园
		引子 下采样和池化应该是包含关系,池化属于下采样,而下采样不局限于池化,如果卷积 stride=2,此时也可以把这种卷积叫做下采样. 池化 通常池化层紧跟在 CNN 的卷积层之后. 池化方法: max ...
		
						词性标注_CodingPark编程公园
		基本概念 什么是词性 在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类.同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集.不同的语料库采用了不 ...
		
						条件随机场分词_CodingPark编程公园
		基本概念 引言 HMM - 估计特征与序列的联合概率 p(x,y) 感知机 - 给它们打一个分数 score(x,y) CRF - 与感知机同属于结构化学习家族,但性能比感知机强大 机器学习的模型谱系 ...
		
		

					
最新文章	

						【机器学习入门】(3) 朴素贝叶斯算法：多项式、高斯、伯努利，实例应用（心脏病预测）附python完整代码及数据集
		
						惊了，老板要我开发一个工作流引擎！
		
						使用 gperf 实现高效的 C/C++ 命令行处理
		
						android 中Dialog对话框及自定义Dialog的方法
		
						c++ error函数_回调函数地狱
		
						支付宝微信支付回调地址访问不成功
		
						FFmpeg常用命令
		
						bootstrap实现树节点、树结构
		
						PCA、最小平方差等中用拉格朗日求极值时对常见的一个f(x)=X'A'AX求导的证明
		
						stm32 火灾自动报警及联动控制源码_1个视频了解火灾自动报警系统联动全过程！...
		
						【Pigeon源码阅读】服务注册发布流程（四）
		
						java操作word替换文字和在固定位置插入表格
		
						【UE4】【笔记】7、照明阴影和后期处理
		
						使用阿里云的短信服务发送短信
		
						sklearn文档 — 1.6. 最近邻
		
						为什么和中国的人口结构相似，都是男多女少，印度的女性却愁嫁还要为男方提供巨额嫁妆呢？
		
						教你把gps服务器修改为中国加速搜星,彻底解决搜星定位问题 A-GPS终极教程
		
						⒒ Vue子组件向父组件传值
		
						[基础知识点] 利用消失点进行相机标定
		
						解决当考生点击开始考试的时候出现卡顿问题
		
		
	

热门文章	

									2022第二届网刃杯网络安全大赛-ICS
			
						Excel如何快速制作二级下拉菜单
			
						Agile-Scrum
			
						vue发布订阅模式,发布订阅模型
			
						2022年自考专业考试（小学教育）比较教育练习题
			
						Excel如何实现单条件的一对多查找呢
			
						计算机学院运动会解说词,学院运动会解说词
			
						创建多个key并使用/指定key
			
						心情不好时，身边连一个能诉说的都没有
			
						[BZOJ1132][POI2008]Tro（计算几何）