NLP高频面试

1.LSTM

  1. 画图,写公式
  2. 计算一层的参数量
假设lstm层的一个时间点上的输入特征长度是n,输出长度是m,
那么参数量是4*((n+m)*m+m)
https://www.cnblogs.com/wushaogui/p/9176617.html
  1. RNN LSTM GRU区别
  2. LSTM与GRU的特点,为什么比RNN好
  3. 梯度消失与梯度爆炸的原因与解决办法
  4. RNN梯度消失是真消失了么?:答不是,只是乘没了,
  5. LSTM彻底解决了梯度消失吗?:答不是,只是减轻了,累乘变累加
  6. 三个门以及sigmod对每个门的作用
  7. 为什么lstm用tanh
LSTM中的三个门是用的sigmoid作为激活函数,生成候选记忆时候用的才是tanh,
门j的激活函数如果用relu的话会有个问题,就是relu是没有饱和区域的,那么就没
法起到门的作用。候选记忆用tanh是因为tanh的输出在-1~1,是0中心的,并且在0
附近的梯度大,模型收敛快
  1. lstm可以用什么代替

2.Attention

  1. self-attention
  2. 最常用的attention计算相似度方式有哪些,写一下


3. self-attention的Q, K , V是什么,乘积是什么和社么的Q和K相乘
4. self-attention的乘法计算和加法计算有什么区别,什么时候用乘,什么时候用加
a. 如果dk很小时,加法与乘法的效果差不多
b. 如果dk很大,加法比不加放缩的乘法效果好
c. 相同规模下点积比加法速度更快,更加节省空间
5. 为什么要除以根号
6. 多头注意力机制是什么
7. Transformer是那种attention机制

3.Transformer

  1. 原理、画图
  2. 为什么transformer比lstm好,项目里为什么用lstm不用transformer1:lstm所需数据量小于Tranxformer. 2:我在实际应用中的感受,lstm 相对于 transformer这种结构 在训练的时候要稳定一些
  3. 为什么要用位置编码
    a. 在没有 Position embedding 的 Transformer 模型并不能捕捉序列的顺序,交换单词位置后 attention map 的对应位置数值也会进行交换,并不会产生数值变化,即没有词序信息。所以这时候想要将词序信息加入到模型中。
    b. 简单来说,因为不是顺序输入,transformer无法识别词序信息,所以要将词序信息加入到编码中
  4. position embedding为什么可以跟word embedding相加,
    a. 因为拼接和相加两种方案,效果差不多,但是相加之后参数不变,拼接之后参数变多,因此更倾向于相加
    b. 无论拼接还是相加,在经过self-attention开始时的线性变换时,都进行了特征重新组合与降维,所以还是参数少一些好
  5. 为什么用相对位置编码,如何保证周期性
    a. 不同维度使用不同频率的正/余弦公式进而生成不同位置的高维位置向量。

4.Bert

  1. bert前期与寻来你怎么处理
  2. bert为什么效果好(1.数据大 2.网络深 3.双向 4.方便),Bert相比Elmo的优点
  3. 画Elmo图,为什么能实现词义消歧
  4. 画Bert图,将原理,预训练的过程
  5. Bert的输入有哪些
  6. bert和transformer的关系
  7. Bert和transformer的embedding的不同之处(位置编码有什么不同)
  8. 如何处理长文本,如何处理短文本将长的document分解成多个短的句子,每个句子在bert上独立推断,然后将这些句子的得分聚合得到document的得分。
  9. bert为什么需要多头
  10. 为什么bert有12层encoder
  11. 如果bert中去掉self-attention层,可以拿到词嵌入么?为什么去掉attention仍然有全连接层,还是可以拿到,类似于word2vec
  12. albert对bert的改进,roberta对bert的改进
    a. albert与bert
    ⅰ. embedding因式分解
    ⅱ. 跨层参数共享,极大减少参数量
    ⅲ. 句间一致loss(NSP任务)
    b. roberta与bert
    ⅰ. 去掉了NSP任务
    ⅱ. 使用了更大的batch
    ⅲ. 使用动态mask
  13. bert怎么分词
  14. 模型蒸馏是什么
  15. 多语场景下的bert有哪些改进
  16. bert自回归 字编码?

https://zhuanlan.zhihu.com/p/163455527

  1. 为什么BERT是768维

5.损失函数、梯度算法与激活函数

1 . 交叉熵公式、熵、相对熵【信息熵】是衡量随机变量分布的混乱程度,是随机分布各事件发生的信息量的期望值,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大;信息熵推广到多维领域,则可得到联合信息熵;条件熵表示的是在

NLP高频面试_CodingPark编程公园相关推荐

  1. 人工智能中神经网络与自然语言处理共生关系_CodingPark编程公园

    文章目录 神经网络知识大串联 1:第一代的神经元模型 3 2:从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 6:卷积神经网络CNN ...

  2. Gensim库生成与导入W2V模型_CodingPark编程公园

    Gensim库生成与导入W2V模型 语料目录 gensim函数库Word2Vec配置参数 gensim.models.word2vec.Word2Vec(sentences=None,size=100 ...

  3. 数据分析调研报告_CodingPark编程公园

    文章结构速览 关系梳理 数据挖掘:从海量数据中找到隐藏的规则,数据分析:待分析的目标比较明确 数据分析更侧重业务,一般分析的目标比较明确,重点在观察数据,得出结论: 数据挖掘更侧重技术,利用统计学/机 ...

  4. GPU概述_CodingPark编程公园

    GPU和CPU的区别 设计目标 CPU:处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理 GPU:处理类型高度统一的.相互无依赖的大规模数据,不需要被打断的纯净的计算环境 G ...

  5. Linux压缩|解压_CodingPark编程公园

    文章介绍 本文主要介绍: Linux的基础参数 Linux压缩 Linux解压缩 基础参数 tar - 5大参数 -c:压缩 -x:解压 -t:查看内容 -r:向压缩归档文件末尾追加文件 -u:更新原 ...

  6. anaconda-navigaotr出现adding featured channels并无法正常打开_CodingPark编程公园

    问题 navigator无法打开.停在adding featured channels状态下. 解决 在mac终端下更新navigator 输入 conda install navigator 即可解 ...

  7. 谈谈池化吧!_CodingPark编程公园

    引子 下采样和池化应该是包含关系,池化属于下采样,而下采样不局限于池化,如果卷积 stride=2,此时也可以把这种卷积叫做下采样. 池化 通常池化层紧跟在 CNN 的卷积层之后. 池化方法: max ...

  8. 词性标注_CodingPark编程公园

    基本概念 什么是词性 在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类.同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集.不同的语料库采用了不 ...

  9. 条件随机场分词_CodingPark编程公园

    基本概念 引言 HMM - 估计特征与序列的联合概率 p(x,y) 感知机 - 给它们打一个分数 score(x,y) CRF - 与感知机同属于结构化学习家族,但性能比感知机强大 机器学习的模型谱系 ...

最新文章

  1. 【机器学习入门】(3) 朴素贝叶斯算法:多项式、高斯、伯努利,实例应用(心脏病预测)附python完整代码及数据集
  2. 惊了,老板要我开发一个工作流引擎!
  3. 使用 gperf 实现高效的 C/C++ 命令行处理
  4. android 中Dialog对话框及自定义Dialog的方法
  5. c++ error函数_回调函数地狱
  6. 支付宝微信支付回调地址访问不成功
  7. FFmpeg常用命令
  8. bootstrap实现树节点、树结构
  9. PCA、最小平方差等中用拉格朗日求极值时对常见的一个f(x)=X'A'AX求导的证明
  10. stm32 火灾自动报警及联动控制源码_1个视频了解火灾自动报警系统联动全过程!...
  11. 【Pigeon源码阅读】服务注册发布流程(四)
  12. java操作word替换文字和在固定位置插入表格
  13. 【UE4】【笔记】7、照明阴影和后期处理
  14. 使用阿里云的短信服务发送短信
  15. sklearn文档 — 1.6. 最近邻
  16. 为什么和中国的人口结构相似,都是男多女少,印度的女性却愁嫁还要为男方提供巨额嫁妆呢?
  17. 教你把gps服务器修改为中国加速搜星,彻底解决搜星定位问题 A-GPS终极教程
  18. ⒒ Vue子组件向父组件传值
  19. [基础知识点] 利用消失点进行相机标定
  20. 解决当考生点击开始考试的时候出现卡顿问题

热门文章

  1. 2022第二届网刃杯网络安全大赛-ICS
  2. Excel如何快速制作二级下拉菜单
  3. Agile-Scrum
  4. vue发布订阅模式,发布订阅模型
  5. 2022年自考专业考试(小学教育)比较教育练习题
  6. Excel如何实现单条件的一对多查找呢
  7. 计算机学院运动会解说词,学院运动会解说词
  8. 创建多个key并使用/指定key
  9. 心情不好时,身边连一个能诉说的都没有
  10. [BZOJ1132][POI2008]Tro(计算几何)