2018-暑期实习生-自然语言处理算法岗-面试题

　　随着三月初蚂蚁金服内推开启，整个暑期实习生招聘大幕也正式打开，这一场从三月初持续到之后五月的笔试面试过程，确实让笔者真真切切的感受到基础的重要性，面试和笔试不仅从机器学习，自然语言处理，数据结构与算法，高数概率论等方面考察，还包括智力题，逻辑题等。
　　
阿里巴巴
一面：
1. 介绍项目（只针对自然语言处理项目询问，召回率、准确率如何）；
2. 深度学习如何提取query特征，如何利用深度学习计算语义相似度；（深度学习语义相似度可以参考《浅析文本相似度》）
3. 写二叉树的前序遍历，中序遍历，统计二叉树所有路径和；
二面：
1. RNN为什么会梯度消失，LSTM怎么能解决梯度消失问题；（RNN、LSTM有关梯度消失的问题可以参考《理解RNN、LSTM、GRU和Gradient Vanishing》）
2. 优化算法介绍并说一下特点（介绍了自适应率学习算法Adagrad和Adam，深度学习优化算法可以参考《深度学习优化算法总结》）；
3. Dropout的原理；
4. 交叉熵损失函数是什么，在什么地方使用过，介绍一下；
5. 介绍一下Word2vec，CBOW和Skip-gram的区别是什么；
6. GBDT和Xgboost介绍一下，并说一下区别（关于XGboost、GBDT和RF的总结可以参考《RF、GBDT、XGBoost面试级整理》）；
7. 写代码：现在有词向量词典，计算句子相似度（Consine Similarity）

美团
一面：
1. 介绍项目（项目中一些问题如何解决的；项目的难点在哪儿；如何解决的；你在里面干了些什么）；
2. 介绍一下随机森林和Xgboost，有什么区别（从bagging和boosting角度）；
3. 什么是SGD，什么是batch size；
4. 深度学习优化算法有哪些，随便介绍一个（说的Adagrad，优缺点明显，进退自如）；
5. 现有一个神经网络和64个样本，Batch gradient descent和SGD的时间复杂度和效果比较；采用批梯度下降时，神经网络参数更新了几次；
二面：
1. Two Sum问题（Leetcode第一题，采用hash map解决）；
2. 如何找到10万以内的所有质数；
3. 逻辑斯蒂回归的损失函数怎么来的，如何进行梯度更新；

百度
百度一面：
1. 介绍项目（一些项目细节；项目的准确率；召回率如何）；
2. 京东项目中Xgboost原理，xgboost有哪些参数，怎么调整xgboost的参数；
3. 智力题：现在有三枚硬币，一个是一正一反，一个是两面都是正，一个是两面都是反，现在随机抛出一枚硬币是正面，那么这枚硬币的反面也是正面的概率；（2/3）
4. 代码实现海量数据处理问题：现在有一个比较小的数据表（包括id, score），另外有一个十分大的（上千万级别）的数据表（包括id, name），现在需要以id为索引将两张表合并，如何在O(n)时间复杂度完成。（hash map解决，海量数据处理问题参照这篇博客《十道海量数据处理面试题与十个方法大总结》）

追一科技
一面
1. 介绍项目（项目准确率；召回率；特征工程怎么做的；项目难点在什么位置；如何解决的；用了什么深度学习的方法）；
2. 既然提到对话系统，简单介绍一下（非任务型和任务型balabala…..），了解非任务型对话系统么，介绍一下；（关于对话系统可以参考《人机对话系统调研》）
3. 平时用什么语言写代码啊，用python么（用），java怎么样（一般般），c用不用（不怎么用）；
4. 看你简历里面没写GRU，了解GRU么，和LSTM、RNN的区别在什么地方（从梯度消失的层面回答）；
5. GBDT的损失函数是什么；
6. 了解红黑树么（–没看到这儿来 –那算了，换个问题）；
7. 64匹马，8个跑道，选出速度最快的4匹马需要多少次（回答12次，后来知道最好是11次）

百度度秘
一面：
1. 介绍项目（项目细节；项目难点；有什么方法；你在里面发挥的作用；这个系统现在还有什么可以改进的地方么）；
2. 看你项目中用到了LSTM，介绍一下LSTM（介绍LSTM时候提到RNN，打断询问RNN为什么有梯度消失问题，给出具体公式）；
3. LSTM用什么框架实现的，能不能介绍一下Word2ver如何使用在其中，使用Word2vec和不使用word2vec的效果如何；
4. 正则化方法有哪些，介绍一下（说到L1和L2时，重点问了一下为什么梯度稀疏和梯度选择，用公式推导讲了一下，过拟合问题可以参照《深度学习相关总结》）；
5. 看你简历上说博客记载了机器学习、数据挖掘和深度学习的内容，那你简单说一下这三者的区别；
6. 编程题：二叉搜索树的插入和搜索；
7. 有序循环链表中（后简化为元素从小到大有序循环链表），如何在O(1)时间内完成最大值插入；

腾讯
一面：
1. 写代码实现列表 [0,0,6,2,8,0,0] —-> [6,2,8,0,0,0]，要求O(n)时间复杂度和O(1)空间复杂度；
2. 写代码实现 [1,2,3,2,2,3,4,…] —-> [1,2,3]（先去重再取top K，这里的K取3），要求in place操作，O(n) 时间复杂度和O(1)空间复杂度；
3. LSTM用来解决RNN的什么问题？如何解决的？既然说到forget gate，那么说一下forget gate的取值范围？（sigmoid 取值（0,1））forget gate是具体的值还是向量？（向量），如何理解这个向量；
4. 深度学习用的什么框架，Tensorflow？（Keras），那介绍一下深度学习中的过拟合如何解决？（从数据、单模型、模型集成三个角度回答）；
5. 深度学习优化算法用过哪些？讲讲Sgd和gd的区别？
6. 对SVM（考虑线性可分情况）、LR和DT熟悉么？从损失函数说一下区别，SVM的损失函数是什么？（合页损失函数，写一下讲一下）。LR呢？（利用最大似然估计得出）。又问一下SVM线性可分情况下决策边界不同位置的损失值。DT如何进行特征选择？（ID3信息增益）。介绍一下信息熵？（随机变量不确定性，度量系统稳定性） [1/3,1/3,1/3]和[1/2,1/4,1/4]哪个的信息熵大？回归任务中如何进行特征选择？（平方损失准则）
7. 海量数据处理。现在有1千万行词，需要统计各个词出现的次数，目前有一台机器内存1G，磁盘100G？（海量数据处理blog的第一题，先利用Hash对原始文本进行分割（hash(word)%2000，分为2000个文件），再使用hashmap（python中的字典）在各个文件中分别统计）。
8. Python基础。现在有一个列表，需要选择其中大于0的数？（列表生成式）
9. LTR（learning to rank）。介绍一下ltr的三种方式？其中pairwise在训练时怎么做？（转化为二分类）在测试的时候怎么做？
10. 文本分类的项目中用到CNN没有？介绍一下CNN？那CNN在文本分类任务中卷积核和一般的图像任务中的卷积核有什么区别？（balabala）
11. 熟悉Attention么，介绍一下？（balabala）

二面：
1. 在你的项目中如何判断word2vec的效果好坏，如何评判对模型和结果的影响？项目中使用的xgboost是哪个版本的？谁写的（懵了）
2. 如何从概率角度理解AUC？二分类问题中，一个正负类比是1:1000，一个是1:100，它们的AUC和ROC有什么区别？
3. 了解交叉熵损失函数么？在哪个场景使用过？它和最大似然估计是什么关系？
4. 熟悉什么语言？Python么？用过里面的zip函数（有点没听清）没？

腾讯二面前刷的一碗面经：
1. 覆盖字符串所有字符的最小字串；（leetcode第76题）利用滑动窗口；
2. 反转链表的前k个；（变型：按k个结点一组来反转链表）
方法：都是利用翻转链表的方法，只是局部翻转，再添加头尾结点。
3. 求二叉树最大深度；（递归）
4. 序列模型中markov和rnn的区别；
（rnn和hmm最本质的区别在于rnn没有马尔科夫假设，因此从理论上可以考虑很久的信息；同时hmm本质上是一个概率模型，而rnn不是；此外rnn具备神经网络的拟合非线性的能力）。
5. 字符串出现第k多的字符；
（hash map进行统计，然后对dict进行排序
6. 一个过拟合模型和大量数据，如何判断这些数据有没有用？
（利用采样的方法，采样部分数据然后运行过拟合模型看看效果；）
7. lr和svm的区别
（从lr的由来讲损失函数，对于svm讲最大间隔。区别在于损失函数不同；svm只需要考虑支持向量，而lr需要考虑所有的点；svm本质上是基于距离的，因此其输出无法直接产生概率，lr输出的是其属于分类的概率；在非线性的情况下，svm使用核函数解决，而lr通常不使用核函数；svm自带正则话，因此是结构风险最小化算法）
8. 特征选择的方法；
9. AUC是什么？就是ROC曲线下的部分，表示什么？
10. 快速排序；
11. 一个数组中超过一半的数字；
（（1）hashmap直接统计，（2）hashmap间接统计，利用数组中的一个数字和次数，当相同的时候1，不同的时候1，如果次数为0则，保留下一个元素且次数设置为1，那么最后留下来为1的数字就是次数最多的；（3）归并排序选中间元素；）
12. 有一个能产生1-5的随机数的函数，怎么修改之后能够产生1-7的随机数；
13. 快速排序，归并排序，深度遍历和广度遍历；
14. 解释一下lucene原理，怎么进行中文分词，基于什么进行分词；
15. a，…z所有字母组合方式；
16. 输入一个数，输出这个整数里面最大的质数；

　祝大家好运~

2018-暑期实习生-自然语言处理算法岗-面试题相关推荐

2019-暑期实习生-自然语言处理算法岗-面试题
随着三月初蚂蚁金服内推开启,整个暑期实习生招聘大幕也正式打开,这一场从三月初持续到之后五月的笔试面试过程,确实让笔者真真切切的感受到基础的重要性,面试和笔试不仅从机器学习,自然语言处理,数据结构与算法 ...
腾讯2019暑期实习生提前批CV岗笔试题
目录第一题题意思路代码第二题题意思路代码第三题题意思路代码第四题题意思路代码第五题题意思路代码笔试共有5道编程题,每道题20分,两个小时.以下内容的编写全凭记 ...
【华为2018年校园招聘】算法岗笔试题
我的个人微信公众号:Microstrong 微信公众号ID:MicrostrongAI 公众号介绍:Microstrong(小强)同学主要研究机器学习.深度学习.计算机视觉.智能对话系统相关内容,分享 ...
浙江移动2018暑期实习生经历
2018年7月9日今天我拖着行李箱去了钱江新城的移动大楼进行暑期实习生报道.省公司的大楼很气派,但是实习生不在这边工作.进了会议室以后发现人不多,大概就20个.流程很简单,先是上交了自己的材料,然后 ...
2019工行天津分行暑期实习生（金融科技岗）面经
记录一下12号参加工行天津分行的暑期实习生面试过程,一方面为后来者给些参考,一方面也是为自己攒攒人品~~~~~ 我去之前也在网上查了很多面经,因为报的金融科技岗,网上现有的面经很少,大多都是客户经理之 ...
笔经-腾讯2018暑期实习生-数据分析岗笔试经历
发现今年虽然很多公司有了数据分析岗位面向本科生开放,但几乎数据分析师的实习笔试几乎都没有考编程,注意是几乎都没有考!这也给了我们一些启发,也说明现在的数据分析岗位职能方向更细化. 不定项选择(每题4分 ...
字节跳动2019暑期实习生算法岗笔试题
目录第一题题意思路代码第二题题意思路代码第三题题意思路代码第四题题意思路代码笔试共有4道编程题,每道题20分,两个小时.这个题感觉比腾讯的简单一点.以下内容的编写全凭 ...
矩阵连乘问题算法思想_AI自然语言处理算法岗常见面试题(一)
从隐藏层到输出的Softmax层的计算有哪些方法? 层次softmax 负采样层次softmax流程? 构造Huffman Tree 最大化对数似然函数输入层:是上下文的词语的词向量投影层:对其求和 ...
美团点评实习生算法岗笔试题 (java) 2020.04.23场
T1 幸运星题目描述在观星的时候,一种常用的方式是划出类似于正方形的区域内,确定其中所有星星的坐标. 现在我们在星空(一个无限大的二维平面)上简历坐标系.由于星星很小,我们忽略它的面积,认为每一个 ...

2018-暑期实习生-自然语言处理算法岗-面试题

2018-暑期实习生-自然语言处理算法岗-面试题相关推荐

最新文章

热门文章