随着三月初蚂蚁金服内推开启,整个暑期实习生招聘大幕也正式打开,这一场从三月初持续到之后五月的笔试面试过程,确实让笔者真真切切的感受到基础的重要性,面试和笔试不仅从机器学习,自然语言处理,数据结构与算法,高数概率论等方面考察,还包括智力题,逻辑题等。
  
阿里巴巴
一面:
1. 介绍项目(只针对自然语言处理项目询问,召回率、准确率如何);
2. 深度学习如何提取query特征,如何利用深度学习计算语义相似度;(深度学习语义相似度可以参考《浅析文本相似度》)
3. 写二叉树的前序遍历,中序遍历,统计二叉树所有路径和;
二面:
1. RNN为什么会梯度消失,LSTM怎么能解决梯度消失问题;(RNN、LSTM有关梯度消失的问题可以参考《理解RNN、LSTM、GRU和Gradient Vanishing》)
2. 优化算法介绍并说一下特点(介绍了自适应率学习算法Adagrad和Adam,深度学习优化算法可以参考《深度学习优化算法总结》);
3. Dropout的原理;
4. 交叉熵损失函数是什么,在什么地方使用过,介绍一下;
5. 介绍一下Word2vec,CBOW和Skip-gram的区别是什么;
6. GBDT和Xgboost介绍一下,并说一下区别(关于XGboost、GBDT和RF的总结可以参考《RF、GBDT、XGBoost面试级整理》);
7. 写代码:现在有词向量词典,计算句子相似度(Consine Similarity)

美团
一面:
1. 介绍项目(项目中一些问题如何解决的;项目的难点在哪儿;如何解决的;你在里面干了些什么);
2. 介绍一下随机森林和Xgboost,有什么区别(从bagging和boosting角度);
3. 什么是SGD,什么是batch size;
4. 深度学习优化算法有哪些,随便介绍一个(说的Adagrad,优缺点明显,进退自如);
5. 现有一个神经网络和64个样本,Batch gradient descent和SGD的时间复杂度和效果比较;采用批梯度下降时,神经网络参数更新了几次;
二面:
1. Two Sum问题(Leetcode第一题,采用hash map解决);
2. 如何找到10万以内的所有质数;
3. 逻辑斯蒂回归的损失函数怎么来的,如何进行梯度更新;

百度
百度一面:
1. 介绍项目(一些项目细节;项目的准确率;召回率如何);
2. 京东项目中Xgboost原理,xgboost有哪些参数,怎么调整xgboost的参数;
3. 智力题:现在有三枚硬币,一个是一正一反,一个是两面都是正,一个是两面都是反,现在随机抛出一枚硬币是正面,那么这枚硬币的反面也是正面的概率;(2/3)
4. 代码实现海量数据处理问题:现在有一个比较小的数据表(包括id, score),另外有一个十分大的(上千万级别)的数据表(包括id, name),现在需要以id为索引将两张表合并,如何在O(n)时间复杂度完成。(hash map解决,海量数据处理问题参照这篇博客《 十道海量数据处理面试题与十个方法大总结》)

追一科技
一面
1. 介绍项目(项目准确率;召回率;特征工程怎么做的;项目难点在什么位置;如何解决的;用了什么深度学习的方法);
2. 既然提到对话系统,简单介绍一下(非任务型和任务型balabala…..),了解非任务型对话系统么,介绍一下;(关于对话系统可以参考《人机对话系统调研》)
3. 平时用什么语言写代码啊,用python么(用),java怎么样(一般般),c用不用(不怎么用);
4. 看你简历里面没写GRU,了解GRU么,和LSTM、RNN的区别在什么地方(从梯度消失的层面回答);
5. GBDT的损失函数是什么;
6. 了解红黑树么(–没看到这儿来 –那算了,换个问题);
7. 64匹马,8个跑道,选出速度最快的4匹马需要多少次(回答12次,后来知道最好是11次)

百度度秘
一面:
1. 介绍项目(项目细节;项目难点;有什么方法;你在里面发挥的作用;这个系统现在还有什么可以改进的地方么);
2. 看你项目中用到了LSTM,介绍一下LSTM(介绍LSTM时候提到RNN,打断询问RNN为什么有梯度消失问题,给出具体公式);
3. LSTM用什么框架实现的,能不能介绍一下Word2ver如何使用在其中,使用Word2vec和不使用word2vec的效果如何;
4. 正则化方法有哪些,介绍一下(说到L1和L2时,重点问了一下为什么梯度稀疏和梯度选择,用公式推导讲了一下,过拟合问题可以参照《深度学习相关总结》);
5. 看你简历上说博客记载了机器学习、数据挖掘和深度学习的内容,那你简单说一下这三者的区别;
6. 编程题:二叉搜索树的插入和搜索;
7. 有序循环链表中(后简化为元素从小到大有序循环链表),如何在O(1)时间内完成最大值插入;

腾讯
一面:
1. 写代码实现列表 [0,0,6,2,8,0,0] —-> [6,2,8,0,0,0],要求O(n)时间复杂度和O(1)空间复杂度;
2. 写代码实现 [1,2,3,2,2,3,4,…] —-> [1,2,3](先去重再取top K,这里的K取3),要求in place操作,O(n) 时间复杂度和O(1)空间复杂度;
3. LSTM用来解决RNN的什么问题?如何解决的?既然说到forget gate,那么说一下forget gate的取值范围?(sigmoid 取值(0,1))forget gate是具体的值还是向量?(向量),如何理解这个向量;
4. 深度学习用的什么框架,Tensorflow?(Keras),那介绍一下深度学习中的过拟合如何解决?(从数据、单模型、模型集成三个角度回答);
5. 深度学习优化算法用过哪些?讲讲Sgd和gd的区别?
6. 对SVM(考虑线性可分情况)、LR和DT熟悉么? 从损失函数说一下区别,SVM的损失函数是什么?(合页损失函数,写一下讲一下)。LR呢?(利用最大似然估计得出)。又问一下SVM线性可分情况下决策边界不同位置的损失值。DT如何进行特征选择?(ID3信息增益)。介绍一下信息熵?(随机变量不确定性,度量系统稳定性) [1/3,1/3,1/3]和[1/2,1/4,1/4]哪个的信息熵大?回归任务中如何进行特征选择?(平方损失准则)
7. 海量数据处理。现在有1千万行词,需要统计各个词出现的次数,目前有一台机器内存1G,磁盘100G?(海量数据处理blog的第一题,先利用Hash对原始文本进行分割(hash(word)%2000,分为2000个文件),再使用hashmap(python中的字典)在各个文件中分别统计)。
8. Python基础。现在有一个列表,需要选择其中大于0的数?(列表生成式)
9. LTR(learning to rank)。介绍一下ltr的三种方式?其中pairwise在训练时怎么做?(转化为二分类)在测试的时候怎么做?
10. 文本分类的项目中用到CNN没有?介绍一下CNN?那CNN在文本分类任务中卷积核和一般的图像任务中的卷积核有什么区别?(balabala)
11. 熟悉Attention么,介绍一下?(balabala)

二面:
1. 在你的项目中如何判断word2vec的效果好坏,如何评判对模型和结果的影响?项目中使用的xgboost是哪个版本的?谁写的(懵了)
2. 如何从概率角度理解AUC?二分类问题中,一个正负类比是1:1000,一个是1:100,它们的AUC和ROC有什么区别?
3. 了解交叉熵损失函数么?在哪个场景使用过?它和最大似然估计是什么关系?
4. 熟悉什么语言?Python么?用过里面的zip函数(有点没听清)没?

腾讯二面前刷的一碗面经:
1. 覆盖字符串所有字符的最小字串;(leetcode第76题)利用滑动窗口;
2. 反转链表的前k个;(变型:按k个结点一组来反转链表)
方法:都是利用翻转链表的方法,只是局部翻转,再添加头尾结点。
3. 求二叉树最大深度;(递归)
4. 序列模型中markov和rnn的区别;
(rnn和hmm最本质的区别在于rnn没有马尔科夫假设,因此从理论上可以考虑很久的信息;同时hmm本质上是一个概率模型,而rnn不是;此外rnn具备神经网络的拟合非线性的能力)。
5. 字符串出现第k多的字符;
(hash map进行统计,然后对dict进行排序
6. 一个过拟合模型和大量数据,如何判断这些数据有没有用?
(利用采样的方法,采样部分数据然后运行过拟合模型看看效果;)
7. lr和svm的区别
(从lr的由来讲损失函数,对于svm讲最大间隔。区别在于损失函数不同;svm只需要考虑支持向量,而lr需要考虑所有的点;svm本质上是基于距离的,因此其输出无法直接产生概率,lr输出的是其属于分类的概率;在非线性的情况下,svm使用核函数解决,而lr通常不使用核函数;svm自带正则话,因此是结构风险最小化算法)
8. 特征选择的方法;
9. AUC是什么?就是ROC曲线下的部分,表示什么?
10. 快速排序;
11. 一个数组中超过一半的数字;
((1)hashmap直接统计,(2)hashmap间接统计,利用数组中的一个数字和次数,当相同的时候1,不同的时候1,如果次数为0则,保留下一个元素且次数设置为1,那么最后留下来为1的数字就是次数最多的;(3)归并排序选中间元素;)
12. 有一个能产生1-5的随机数的函数,怎么修改之后能够产生1-7的随机数;
13. 快速排序,归并排序,深度遍历和广度遍历;
14. 解释一下lucene原理,怎么进行中文分词,基于什么进行分词;
15. a,…z所有字母组合方式;
16. 输入一个数,输出这个整数里面最大的质数;

 祝大家好运~

2019-暑期实习生-自然语言处理算法岗-面试题相关推荐

  1. 2018-暑期实习生-自然语言处理算法岗-面试题

    随着三月初蚂蚁金服内推开启,整个暑期实习生招聘大幕也正式打开,这一场从三月初持续到之后五月的笔试面试过程,确实让笔者真真切切的感受到基础的重要性,面试和笔试不仅从机器学习,自然语言处理,数据结构与算法 ...

  2. 腾讯2019暑期实习生提前批CV岗笔试题

    目录 第一题 题意 思路 代码 第二题 题意 思路 代码 第三题 题意 思路 代码 第四题 题意 思路 代码 第五题 题意 思路 代码 笔试共有5道编程题,每道题20分,两个小时.以下内容的编写全凭记 ...

  3. 2019工行天津分行暑期实习生(金融科技岗)面经

    记录一下12号参加工行天津分行的暑期实习生面试过程,一方面为后来者给些参考,一方面也是为自己攒攒人品~~~~~ 我去之前也在网上查了很多面经,因为报的金融科技岗,网上现有的面经很少,大多都是客户经理之 ...

  4. 2019年字节跳动招聘算法岗,他们最看重哪些新技术能力?

    [导读]合格的算法工程师真正应该具备什么技能?在面试时,面试官又会如何验证你具备这些新技能?毕业仅一年,相继拿下头条.阿里.腾讯等offer的本文作者,为你绘制了一幅面试技能雷达图. 1 ◆◆ 哲学第 ...

  5. 字节跳动2019暑期实习生算法岗笔试题

    目录 第一题 题意 思路 代码 第二题 题意 思路 代码 第三题 题意 思路 代码 第四题 题意 思路 代码 笔试共有4道编程题,每道题20分,两个小时.这个题感觉比腾讯的简单一点.以下内容的编写全凭 ...

  6. 矩阵连乘问题算法思想_AI自然语言处理算法岗常见面试题(一)

    从隐藏层到输出的Softmax层的计算有哪些方法? 层次softmax 负采样 层次softmax流程? 构造Huffman Tree 最大化对数似然函数输入层:是上下文的词语的词向量投影层:对其求和 ...

  7. 2019.9.11 小米笔试算法岗编程题 两个动归

    1.最大连续子序列之和 时间限制:C/C++语言 1000MS:其他语言 3000MS 内存限制:C/C++语言 65536KB:其他语言 589824KB 题目描述: 给定K个整数的序列{ N1, ...

  8. 【字节跳动2019年】算法岗笔试题

    题目描述: 字节跳动大街上有许多商铺,其中只有一部分为顾客开放厕所.街道办想提供一项便民服务, 在家商铺门口放一个标志,写明距离当前商铺最近的厕所有几个商铺的距离.如果当前商铺就有厕所,则标志为0.请 ...

  9. 京东2019校招算法岗笔试题

    注:图片来源于网络.利用两个数组进行映射,使得s[i] = num, t[i] = num.代码未完全测试,仅供参考. #include<iostream> #include<vec ...

最新文章

  1. IOS APP 国际化 程序内切换语言实现 不重新启动系统(支持项目中stroyboard 、xib 混用。完美解决方案)
  2. NOIp 图论算法专题总结 (1):最短路、最小生成树、最近公共祖先
  3. 6 个 K8s 日志系统建设中的典型问题,你遇到过几个?
  4. C++实现系统性能检测工具
  5. 蒙特卡罗方法 python 实现2
  6. kubernetes如何进入指定的容器
  7. (Matlab实现)基于蒙特卡洛模拟的大规模电动车充电模型
  8. OpenCV在win10安装
  9. vue 项目中页面打印实现(去除页眉页脚)
  10. 蓝牙BLE芯片PHY6222之烧录以及调试
  11. mysql explain type_MySQL explain type详解
  12. 易语言大漠内存找图的实现
  13. 传统文化也能这么有意思——全球第一家最有仙气、价值亿万的大数据库
  14. 具有可视化的功能的一款开源软件Gource
  15. 国内首篇利用freetype的跨平台truetype字体真正轮廓(非位图)获取
  16. 接触式IC卡 - STM32(Smart Card)
  17. Linux 路由实现原理
  18. 身份证验证接口API(仅需一行代码,公安部实时接口)
  19. Intel用户注意:AMD SAM技术帮你提速最多18%
  20. AJAX工作原理及其优缺点 1.什么是AJAX? AJAX全称为“Asynchronous JavaScript and XML”(异步JavaScript和XML),是一种创建交互式网页应用的网页

热门文章

  1. MFC中五个初始类的作用
  2. 过拟合问题——正则化方法
  3. 北京林业大学计算机复试难度,北京林业大学考研难吗?一般要什么水平才可以进入?...
  4. mysql访问类型最好的_【干货满满】最全的MySQL性能指南(一):选择最佳的数据类型...
  5. 怎么做批注_BIM平台是什么?有何用?怎么用?
  6. 李宏毅老师ML_HW1——PM2.5预测
  7. 十、vue-router学习笔记——认识路由、vue-router基本使用、vue-router嵌套路由、vue-router参数传递、vue-router导航守卫、keep-alive
  8. 五、实例:在波士顿房价数据集上用随机森林回归填补缺失值
  9. LeetCode 1816. 截断句子
  10. 天池 在线编程 最佳利用率(二分查找 + 哈希)