task1

logistic回归的公式？

softmax和logistic的异同点？

都用于分类，logistic是二分类，softmax是多分类，在类别为2时两者等价

logistic sigmoid函数的优缺点

优点：

1. 函数取值范围为（0,1）,具有概率意义
2. 求导简单
3. 单调递增

缺点：

1. 非0中心化，只有取值在0附近才高度敏感，广泛的饱和性

softmax的特点

相比argmax，它是可导的函数

解释下bag of words 和 n-gram，有什么缺陷

词袋模型
N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。
每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。
该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram

交叉熵损失的作用，为什么不选择最小均方误差或者绝对值误差？

交叉熵用于衡量两个分布的差异，回归任务更适合最小均方误差

task2

RNN，LSTM，GRU的结构，为什么可以缓解长程依赖问题？

word embedding？Word2Vec，GloVe，还知道其他的词表征方式吗？（textrank，tf-idf，LSA，pLSA，ELMo，GPT，fastText，Bert，LDA）

史上最全词向量讲解（LSA/word2vec/Glove/FastText/ELMo/BERT）

task3

你对注意力机制的理解？

你输入一句话“春季男装男鞋”，这句话就是Q，你想要搜索而输入的东西，而K则是“春季男装男鞋”这句话里的关键词“春季、男装、男鞋”等，根据这个K搜索出来的结果就是V

注意力机制是一个加权表示，自注意力用自己的所有权重加权表示自己

软性注意力，硬性注意力

为什么缩放点积模型要除根号D_k？

textRNN？

卷积神经网络的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息

pooling层的作用是什么，average/sum pooling有什么特点

减小计算量
减小内存消耗
提高感受野大小
如果下一网络层的参数数量与特征图大小相关（例如全连接层），pooling可以减小参数个数
增加平移不变性

mean-pooling，即对邻域内特征点只求平均，max-pooling，即对邻域内特征点取最大。根据相关理论，特征提取的误差主要来自两个方面：

邻域大小受限造成的估计值方差增大
卷积层参数误差造成估计均值的偏移

一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。Stochastic-pooling则介于两者之间，通过对像素点按照数值大小赋予概率，再按照概率进行亚采样，在平均意义上，与mean-pooling近似，在局部意义上，则服从max-pooling的准则

task4

CRF和HMM的异同点？（判别，生成）

如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？
如何轻松愉快地理解条件随机场（CRF）？

维特比算法

如何简单地理解维特比算法（viterbi算法）？

F1，精度，召回率？

AUC, ROC曲线？

【面试看这篇就够了】如何理解ROC与AUC

了解其他类型的NER任务吗？

平面NER，嵌套NER，不连续NER

task5

困惑度的公式，你怎么理解困惑度

惑度实际上是计算每一个单词得到的概率导数的几何平均，因此困惑度可以理解为平均分支系数（average branching factor），即模型预测下一个单词时的平均可选择的单词数量

有什么更好的评价语言模型的准则吗？

交叉熵
BLEU

了解GPT等大模型吗，为什么表现好

GPT-3参数规模已经接近人类神经元的数量，这说明它的表示能力已经接近人类了。但是它有个阿喀琉斯之踵——没有常识

综合问

实验结果如何，在metric上的得分，有没有尝试过别的模型，有什么改进的思路吗？

数据增强
选择更好的模型
调参

使用了什么损失函数，什么损失函数适用于什么任务？

交叉熵损失 - 多分类
均方误差 - 回归

使用了什么优化器，说一下各种优化器的原理

mini-batch SGD
Adam

使用了什么正则化方法，有哪些正则化方法？为什么可以起到正则化作用？

L1，L2正则化，L1会导稀疏特征，L2会将权重往原点拉
梯度剪裁，防止梯度过大的时候，参数一次性被“发射”出去很远，大幅度更新
提前停止，当验证集上metric得分不再上升的时候，提前停止可以防止模型过拟合
dropout，
标签平滑

过拟合欠拟合怎么解决？

过拟合：

增加正则化
减少模型参数
增加训练数据
对数据进行清洗，去噪

欠拟合：

增加数据量
数据增强
扩充模型容量
训练更多个epoch

验证集上的得分不再提高怎么办，继续训练会发生什么？

过拟合

了解transformer吗？bert？gpt？bert的衍生家族？

Transformer论文逐段精读【论文精读】
BERT 论文逐段精读【论文精读】
GPT，GPT-2，GPT-3 论文精读【论文精读】

还知道NLP有哪些任务吗？

文本分类，序列标注，文本匹配，阅读理解，文本摘要，机器翻译，文本生成

有过科研经历吗？对科研有什么看法

各显神通

每个模型的结构，原理