task1

logistic回归的公式?

softmax和logistic的异同点?

都用于分类,logistic是二分类,softmax是多分类,在类别为2时两者等价

logistic sigmoid函数的优缺点

优点:

1. 函数取值范围为(0,1),具有概率意义
2. 求导简单
3. 单调递增

缺点:

1. 非0中心化,只有取值在0附近才高度敏感,广泛的饱和性

softmax的特点

  1. 相比argmax,它是可导的函数

解释下bag of words 和 n-gram,有什么缺陷

  1. 词袋模型

  2. N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。

  3. 每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。

  4. 该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram

交叉熵损失的作用,为什么不选择最小均方误差或者绝对值误差?

交叉熵用于衡量两个分布的差异,回归任务更适合最小均方误差

task2

RNN,LSTM,GRU的结构,为什么可以缓解长程依赖问题?




word embedding?Word2Vec,GloVe,还知道其他的词表征方式吗?(textrank,tf-idf,LSA,pLSA,ELMo,GPT,fastText,Bert,LDA)

史上最全词向量讲解(LSA/word2vec/Glove/FastText/ELMo/BERT)

task3

你对注意力机制的理解?

你输入一句话“春季男装男鞋”,这句话就是Q,你想要搜索而输入的东西,而K则是“春季男装男鞋”这句话里的关键词“春季、男装、男鞋”等,根据这个K搜索出来的结果就是V

注意力机制是一个加权表示,自注意力用自己的所有权重加权表示自己

软性注意力,硬性注意力

为什么缩放点积模型要除根号D_k?

textRNN?

卷积神经网络的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息

pooling层的作用是什么,average/sum pooling有什么特点

  1. 减小计算量
  2. 减小内存消耗
  3. 提高感受野大小
  4. 如果下一网络层的参数数量与特征图大小相关(例如全连接层),pooling可以减小参数个数
  5. 增加平移不变性

mean-pooling,即对邻域内特征点只求平均,max-pooling,即对邻域内特征点取最大。根据相关理论,特征提取的误差主要来自两个方面:

  1. 邻域大小受限造成的估计值方差增大
  2. 卷积层参数误差造成估计均值的偏移

一般来说,mean-pooling能减小第一种误差,更多的保留图像的背景信息,max-pooling能减小第二种误差,更多的保留纹理信息。Stochastic-pooling则介于两者之间,通过对像素点按照数值大小赋予概率,再按照概率进行亚采样,在平均意义上,与mean-pooling近似,在局部意义上,则服从max-pooling的准则

task4

CRF和HMM的异同点?(判别,生成)

如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?
如何轻松愉快地理解条件随机场(CRF)?

维特比算法

如何简单地理解维特比算法(viterbi算法)?

F1,精度,召回率?



AUC, ROC曲线?

【面试看这篇就够了】如何理解ROC与AUC

了解其他类型的NER任务吗?

平面NER,嵌套NER,不连续NER

task5

困惑度的公式,你怎么理解困惑度

惑度实际上是计算每一个单词得到的概率导数的几何平均,因此困惑度可以理解为平均分支系数(average branching factor),即模型预测下一个单词时的平均可选择的单词数量

有什么更好的评价语言模型的准则吗?

交叉熵
BLEU

了解GPT等大模型吗,为什么表现好

GPT-3参数规模已经接近人类神经元的数量,这说明它的表示能力已经接近人类了。但是它有个阿喀琉斯之踵——没有常识

综合问

实验结果如何,在metric上的得分,有没有尝试过别的模型,有什么改进的思路吗?

数据增强
选择更好的模型
调参

使用了什么损失函数,什么损失函数适用于什么任务?

交叉熵损失 - 多分类
均方误差 - 回归

使用了什么优化器,说一下各种优化器的原理

mini-batch SGD
Adam

使用了什么正则化方法,有哪些正则化方法?为什么可以起到正则化作用?

  1. L1,L2正则化,L1会导稀疏特征,L2会将权重往原点拉

  2. 梯度剪裁,防止梯度过大的时候,参数一次性被“发射”出去很远,大幅度更新

  3. 提前停止,当验证集上metric得分不再上升的时候,提前停止可以防止模型过拟合

  4. dropout,

  5. 标签平滑

过拟合欠拟合怎么解决?

过拟合:

  1. 增加正则化
  2. 减少模型参数
  3. 增加训练数据
  4. 对数据进行清洗,去噪

欠拟合:

  1. 增加数据量
  2. 数据增强
  3. 扩充模型容量
  4. 训练更多个epoch

验证集上的得分不再提高怎么办,继续训练会发生什么?

过拟合

了解transformer吗?bert?gpt?bert的衍生家族?

  1. Transformer论文逐段精读【论文精读】
  2. BERT 论文逐段精读【论文精读】
  3. GPT,GPT-2,GPT-3 论文精读【论文精读】

还知道NLP有哪些任务吗?

文本分类,序列标注,文本匹配,阅读理解,文本摘要,机器翻译,文本生成

有过科研经历吗?对科研有什么看法

各显神通

每个模型的结构,原理

各显神通

Raki的nlp-begginer 提问相关推荐

  1. 一些在NLP的面试中提问频率非常高的问题

    作者:Pratik Bhavsar      编译:ronghuaiyang 导读 在NLP的面试中提问频率非常高的问题. 练习NLP是一回事,破解面试是另一回事.对NLP人员的面试与一般的数据科学非 ...

  2. 刘群:华为诺亚方舟NLP预训练模型工作的研究与应用 | AI ProCon 2019

    演讲嘉宾 | 刘群(华为诺亚方舟实验首席科学家) 编辑 | Jane 出品 | AI科技大本营(ID:rgznai100) 预训练语言模型对自然语言处理领域产生了非常大的影响,在近期由CSDN主办的 ...

  3. 68款大规模机器学习数据集,涵盖CV、语音、NLP | 十年资源集

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 此前营长为大家分享过不少机器学习相关数据集的资源,例如 Mozilla ...

  4. NLP高阶:一文走遍完整自然语言处理流程

    NLP进阶之路上,你是否也遇到过这些疑问? 为什么在这个问题上使用Adam,而不是GD或者Adagrad? 对于特定的业务场景,我应该如何把领域知识考虑进去, 用先验,还是用限制条件? 对于拼车场景, ...

  5. 2020 AI前沿交流大会 | 聚焦CV/NLP最新学术及工业界实践

    自然语言处理(NLP)和计算机视觉(CV)无疑是AI中最火热的两大领域.过去几年,我们也目睹了各项技术的飞速发展,比如NLP领域的BERT,ALBERT等,以及AI技术在智慧零售.营销文本生成等场景中 ...

  6. 为NLP从业者/研究生/研究员专门定制的全网唯一高端NLP训练营

    谷歌Lab近日发布了一个新的预训练模型"ALBERT"全面在SQuAD 2.0.GLUE.RACE等任务上超越了BERT.XLNet.RoBERTa再次刷新了排行榜!ALBERT是 ...

  7. 借鉴人类,跨越模态 | NLP和预训练模型未来的发展之路

    [专栏:研究思路]近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议.基于深度学习的自然语言 处理技术正沿着"极大数据.极大模型.极大算力"的轨道,"无所不用其 ...

  8. 智源深度 | NLP 面临的三大真实挑战(含视频)

    自然语言处理一直被誉为人工智能皇冠上的明珠. 一方面,实现语言智能十分艰难.尽管机器人在电竞.围棋等方面频频超越人类,但目前的系统仍无法达到三.四岁孩童的语言和理解能力. 另一方面在于自然语言处理本身 ...

  9. 不同于NLP,数据驱动方法与机器学习无法攻克NLU,原因有三点

    来源:机器之心本文约4400字,建议阅读10分钟 本文介绍了机器学习虽然被广泛使用,但是却不能很好的解决自然语言理解问题,其中可能涉及的原因. 自然语言理解(NLU)是人工智能的核心课题之一,也被广泛 ...

  10. 干货 | 100+个NLP数据集大放送,再不愁数据!

    来源:大数据文摘 本文共4270字,建议阅读7分钟. 本文为你奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表. 奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化 ...

最新文章

  1. 其他算法-浅谈小波变换
  2. 《LINUX3.0内核源代码分析》第二章:中断和异常 【转】
  3. MySQL(5)日志管理、备份与恢复,断点
  4. 【撸码师的备忘录】java对redis的基本操作
  5. 图解 Python 算法
  6. 32位python和64位python区别_python32位和64位有什么区别
  7. 牛客网刷题 --- 输入输出数据处理
  8. 开发 OpenAM Java 客户端
  9. 黑猫论坛实战免杀教程
  10. 游戲外挂,其實是一種網絡藝術
  11. 微信小程序弹窗(提示框和确认框)
  12. sizeof 知多少
  13. 【软件测试】8年资深测试解析,软件测试行业情报,风风雨雨......
  14. Fiddler中Response 的Raw乱码问题解决
  15. python 时间戳转iso 8601_Python中的ISO时间(ISO 8601)
  16. php和h5哪个需求量大,【linux】thinkphp3.23开发的网站关于并发量大的优化有哪些?...
  17. LeetCode刷题报告2
  18. 剑指 Offer II 047. 二叉树剪枝
  19. 程序员你伤不起(二)
  20. 英语流利说王翌:AI助力教育实现平衡与充分

热门文章

  1. java怎么返回string_黄瓜Java-如何在下一步中使用返回的String?
  2. microsoft excel 正在等待其他某个应用程序_(Mac常见问题)都有哪些应用程序可以在M1 Mac上运行?...
  3. java 异常_23、Java异常分类
  4. 1050 String Subtraction (20 分)
  5. openat函数用法示例
  6. protected的继承方式有什么特点_酿酒:大曲酒有哪些配料方式?有什么特点?
  7. 【UVA10129】Play on Words(欧拉回路+有向图连通性判断+打印欧拉道路)
  8. mysql sql model设置_操作mysql model
  9. mysql stored_mysql stored routine (存储例程) 中 definer 的作用 和实例
  10. C/C++[PAT B1022]D进制的A+B