来源:投稿 作者:Sally can wait
编辑:学姐

NLP算法岗面经

作者介绍

中文系转NLP,985应用语言学研三,微软STCA的swe暑期实习,在研究生阶段做过导师给的toB的NLP横向项目(命名实体识别),leetcode刷了600+题。面试360的时间是11月初,距离笔试也过了一个多月,简历被业务反复筛选最后还是约面了。这轮面试是过了,进入排序阶段。

问项目

我复述在研究生阶段做的导师的横向项目的过程,面试官讲到像我做的冷启动文本分类项目,有标注的数据很少,和他们的场景比较像。介绍了一遍他们的项目,主要是做toB和toG的文本分类。

  • Q:如果任务是识别包含某种医疗手段的违法广告,怎么实现?
    A:可以用意图识别的方法,算目标语句的词向量和某个意图向量的相似度,超过某一阈值就算。

  • Q:自己实现深度学习项目的时候,用了几张卡,大约用时多久
    A:用的数据并行,4w条数据,用了几个小时。顺便主动讲了一下数据并行的原理,和模型并行的区别。

  • Q:有没有部署过推理服务?
    A:不知道。

  • Q:面试官:部署模型之后,请求量很大,要把它做成服务。有tf-serving、torch-serve如果训练模型时候发现显存只占用10%,该如何调整?
    A:调大batchsize、增加文本长度、提升小数精度

面试官说还有加深网络层数

  • Q:反过来如果爆显存了该如何调整?
    A:半精度、调小batchsize、减少网络层数、dropout (忘记说梯度累加了)

  • Q:模型量化有了解吗?
    A:不了解。但是实践中改小过模型精度。

听写Linux基础命令

  • Q:ls, pwd是什么指令?

  • Q:怎么看一个文件有多少行?(不会)
    wc-l

  • Q:深度学习过程中要看显卡显存占用率?
    nvidia-smi

  • Q:要把python挂到后台执行?
    nohup python test.py &

  • Q:批量替换文件名中的某个单词(不会)
    sed

  • Q:查询之前用过的命令(不会)
    history | grep

问NLP基础知识

  • Q:Word2vec, FastText, BERT 三种模型的embedding是怎么产生的?它们的相同和不同点?
    A:相同点:都基于分布式语义,一个词的含义由上下文决定。 不同点:前两者是静态词向量,一个词对应一个embedding。BERT因为有self-attention机制,得到的是语境词向量,上下文不同,目标词位置的向量也不同。

  • Q:Word2vec, FastText, BERT在词表上有什么不同?怎么处理不在词表中的词(OOV)?
    A:Word2vec没法处理OOV。Fasttext和BERT都是能给OOV一个embedding的,方法是subword,也就是拆分了子词。但是BERT的词表是word-piece,用类似于BPE的方法,通过多轮迭代,无监督获得的;而Fasttext就是用n-gram切的。

  • Q:Word2Vec是如何实现在几万个向量中查询与query词向量最接近的向量的?
    A:我一开始说gensim的w2v是有现成的api的most_similar(),但是内部实现方法不确定,肯定不是暴力法。可能是先排序,再类似于搜索树?面试官说可以往聚类的方面想。我就想到可以用聚类的逆操作。先随机生成k个点作为聚类中心,把几万个词向量分成k个类别,再用目标词向量和k个类别做相似度,找到最接近的类别。再对这个类别再分成k类,再分布做相似度计算,直到不能再分。面试官说差不多是这样,faiss、hnsw就是用来做这种事的。

做题:翻转链表和全排列 做题还算顺利。

总结: 面试官全程比较温柔,会给很多提示。最后说,现在hc比较少,但是前面的人可能会鸽。让我先进流程。

祝大家都能拿到满意的offer,祝非毕业年级同学们学有所成~

更多NLP&其他方向面经可点击卡片关注

2023秋招360公司NLP算法岗面经相关推荐

  1. 2023秋招 新华三集团 算法工程师 面经 (三次面试已offer)

    本专栏分享 计算机小伙伴秋招春招找工作的面试经验和面试的详情知识点 专栏首页:秋招算法类面经分享 主要分享计算机算法类在面试互联网公司时候一些真实的经验 面试code学习参考请看:

  2. 2021秋招_唯品会_算法岗_笔试_部分题目

    1.单选 1.1 第一题就是求投掷均匀正六面体骰子的熵,但很惨的是我只会算到 − ∑ p × l o g ( p ) -\sum{p \times log(p)} −∑p×log(p),不知道如何继续 ...

  3. 各大AI研究院共35场NLP算法岗面经奉上

    本文涵盖了腾讯微信事业群模式识别中心,PCG和TEG事业群,阿里达摩院,蚂蚁金服,百度研究院,京东研究院,头条AI Lab,滴滴AI Lab,微软亚洲研究院,微软工程院以及联想研究院等等多个公司NLP ...

  4. 【2023秋招】10月11日百度数据挖掘岗校招题目

    2023大厂真题提交网址(含题解): www.CodeFun2000.com(http://101.43.147.120/) 最近我们一直在将收集到的机试真题制作数据并搬运到自己的OJ上,供大家免费练 ...

  5. 别再搜集面经啦!小夕教你斩下NLP算法岗offer!

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  6. 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(19.11.21更新)

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  7. 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(2020.4.14更新)...

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  8. 干货 | NLP算法岗大厂面试经验与路线图分享

    最近有好多小伙伴要面经(还有个要买简历的是什么鬼),然鹅真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面试来说,作者发现根本不是面经中说的样子 ...

  9. 别再搜集面经了!小夕教你斩下NLP算法岗offer!

    传送门: 别再搜集面经了!小夕教你斩下NLP算法岗offer! - 夕小瑶的文章 - 知乎 https://zhuanlan.zhihu.com/p/45802662 推完上一篇文章,订阅号和知乎后台 ...

最新文章

  1. 小米立Flag:要做年轻人的第一个深度学习框架
  2. 使用U盘装系统步骤详解
  3. Keras_insightface测试
  4. HTTP 错误 404.15 - Not Found请求筛选模块被配置为拒绝包含的查询字符串过长的请求...
  5. notepad++默认的快捷键整理
  6. 【windows命令】windows系统常用cmd命令合集(持续更新中ing)
  7. gridview实现分页
  8. R语言基础入门(3)之数据类型与相应运算1
  9. javascript中数据类型及转换、String()和toString()的区别
  10. 威联通NAS-QTS系统中一些功能的释义
  11. xcode5 自定义模板
  12. 哪家python培训最好
  13. window10 几款好用的屏幕录制制作动图工具
  14. 使用tortoisegit clone通过ssh clone远程库:invalid gitfile format: D:\Program Files\TortoiseGit\bin\Tortois“
  15. 苹果笔记本能不能用python_苹
  16. modeller建模
  17. 静态网站生成器_什么是JAMStack?它与静态网站生成器有何区别?
  18. 用户 'sa' 登录失败的解决方案
  19. JAVA中J2SE和J2EE和 J2me关系
  20. 【ML】异常检测、PCA、混淆矩阵、调参综合实践(基于sklearn)

热门文章

  1. 容器类存储表格数据(12)
  2. java确认对话框否_如何在Swing中显示是/否和取消选项的确认对话框?
  3. csv文件缺失值和空值的填充和删除
  4. Python基于二维码实现的在线编解码系统
  5. 【华人学者风采】毛景文 中国地质科学院
  6. 景深决定照相机什么特性_2018年自考《摄影基础》复习试题及答案
  7. ERROR: resetting DM9000 -> not responding dm9000 not found at 0x88000000问题解决
  8. C++ day24 继承(四)抽象基类,纯虚函数,protected
  9. linux 系统开发
  10. XGBoost的目标函数推导和分裂增益计算