找了半年工作,面试了几个data science的职位,总结了一些常见的问题,在这儿抛砖引玉。

自我介绍

几乎所有的面试都免不了以自我介绍为开头。对于考官,通常也会想基于自我介绍发现接下来要问的问题。所以,自我介绍非常重要。我参考的模板:

教育背景:简单说说哪年在哪里获得什么学位。

相关经验:按时间顺序讲一下2个做过的项目,介绍下用了什么办法,比如用了什么编程语言,最后的成果是什么。最好有些量化的指标,比如发表了多少论文,被引用了多少次。这些项目最好和面试的职位有关系。实在没有,也可以看看从中学到的知识或者技能可否扩展到data science. 比如之前做过信号处理,可以讲这个项目为data science打下了统计基础。

最自豪的成就和表态:介绍一下自己最自豪的项目,关键是要点出自己的优势,比如迅速掌握了一个很大的代码库,或者在代码库中加入了一个很有用的特性,并再次强调一下自己的优势,结尾说,我希望能在XX公司继续发挥这些优势。

被问过的问题总结

机器学习(Machine learning)算法

包括算法对数据的假设,推导,有什么优缺点,何时改用什么算法,怎么选择算法,很类似P2 student intervention的model选择问题。

作为入门的参考书:Introduction to Data Mining (Pang-Ning Tan, Michael Steinbach, Vipin Kumar);

复杂一点儿的:The Elements of Statistical Learning (Trevor Hastie, Robert Tibshirani , Jerome Friedman)

相关的算法可能包括:

Classification / Regression

  • SVM:是很多考官的最爱,最好做到可以推导

  • Neural Networks

  • Trees & ensemble methods: boosting, bagging

  • Clustering

  • K-means/median/medoids

  • Spectral clustering

  • Hierarchical

  • DBSCAN: density based spatial clustering of applications with noise

  • Self organizing map

    Association: 这个在Udacity没有介绍,但是大数据可能会用到

    Apriori 以及它对大数据的衍生

    FP growth 并行实现


其他算法问题:

1、Q-learning: 解释为什么update Q value的时候要用下一个state的max Q,为什么不能用mean?

2、Kalman filter: 在项目中用到了,要求推导

3、Expectation maximization


关于大数据的问题

1、很多职位要求的数据量,要远远大于Udacity的项目,所以会牵扯到一些大数据相关的问题

2、参考书:Mining of Massive Datasets (Jure Leskovec, Anand Rajaraman, Jeff Ullman) 
免费的下载:http://infolab.stanford.edu/~ullman/mmds/book.pdf

3、算法:

  • Finding similar items

  • Find frequent itemsets

  • Recommendation systems

  • Social graph mining

    关于大数据的问题:

  • 用过的数据量有多大

  • GPU的相关经验?

  • Hadoop是怎么读入很大的数据的? 接受HDFS?

  • Spark的相关项目,用的什么model和library

  • Spark: RDD相关的概念

  • Spark: 如果数据远远大于内存,是怎么处理的?

  • 是否遇到过这样的情景:通过对数据的初步分析,观察到有趣的现象?

  • Spark: 举例说明inner join, outer join, etc.

    其他网上看到的常见问题:

  • Support, confidence, and lift

  • What is curse of dimensionality?

  • A/B testing

  • Precision, recall, F1

  • How to handle missing data?

来源:优达学城

精彩活动

福利 · 阅读 | 免费申请读大数据新书 第23期

推荐阅读

2017年数据可视化的七大趋势!

全球100款大数据工具汇总(前50款)

论大数据的十大局限

大数据时代的10个重大变革

大数据七大趋势 第一个趋势是物联网

Q: 今年,你准备换工作吗?

欢迎留言与大家分享

请把这篇文章分享给你的朋友

转载 / 投稿请联系:hzzy@hzbook.com

更多精彩文章,请在公众号后台点击“历史文章”查看

春招快到了,送你一份数据分析常见面试题相关推荐

  1. MySQL常见面试题及答案汇总1000道(春招+秋招+社招)

    MySQL面试题以及答案整理[最新版]MySQL高级面试题大全(2021版),发现网上很多MySQL面试题都没有答案,所以花了很长时间搜集,本套MySQL面试题大全,汇总了大量经典的MySQL程序员面 ...

  2. 春招快来了,杭电研究生学长聊聊踩过的坑,助你成功上岸

    引言 大家好,我是James,由于之前文章内容浏览量太少以及这几个月的繁忙,一直没有静下心输出一些内容,随着疫情放开,新春来临,年后百业待兴,马上又是一年春季招聘.作为一个参加过2022年春,秋招面试 ...

  3. 2020春招即将来袭,送你110道Python面试真题

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 具体面试题如下: 1.一行代码实现1--100之和 2.如何在一个函数内部修改全局 ...

  4. 2021年3月春招百度,阿里,美团等大厂全新PHP面试题大汇总(三)

    金三银四开始了,所以花了很长时间搜集整理出来了这套PHP面试题大全,希望对大家有帮助哈~ 还将大量面试题整理成了一个PHP面试手册,是PDF版的. 关注微信公众号:PHP大神,然后回复"面试 ...

  5. Spring常见面试题及答案汇总1000道(春招+秋招+社招)

    Spring面试题以及答案整理[最新版]Spring高级面试题大全(2021版),发现网上很多Spring面试题都没有答案,所以花了很长时间搜集,本套Spring面试题大全,汇总了大量经典的Sprin ...

  6. Java多线程常见面试题及答案汇总1000道(春招+秋招+社招)

    Java多线程面试题以及答案整理[最新版]Java多线程高级面试题大全(2021版),发现网上很多Java多线程面试题都没有答案,所以花了很长时间搜集,本套Java多线程面试题大全,汇总了大量经典的J ...

  7. Jvm常见面试题及答案汇总1000道(春招+秋招+社招)

    Jvm面试题以及答案整理[最新版]Jvm高级面试题大全(2021版),发现网上很多Jvm面试题都没有答案,所以花了很长时间搜集,本套Jvm面试题大全,汇总了大量经典的Jvm程序员面试题以及答案,包含J ...

  8. Dubbo常见面试题及答案汇总1000道(春招+秋招+社招)

    Dubbo面试题以及答案整理[最新版]Dubbo高级面试题大全(2021版),发现网上很多Dubbo面试题都没有答案,所以花了很长时间搜集,本套Dubbo面试题大全,汇总了大量经典的Dubbo程序员面 ...

  9. 数据库工程师常见面试题,懂了秋招拿10个offer!

    我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=2p5qjwxvujms4 ...

最新文章

  1. 后端用python还是php_【后端开发】2019学python还是php
  2. 简而言之:JRunner
  3. excel中VBa应用总结
  4. 封装JDBC—非框架开发必备的封装类
  5. (转)用Ajax技术让IE Web Control Tree View实现大数据量读取
  6. 自动化测试 (三) Web自动化测试原理
  7. Spring Boot整合 Thymeleaf 模板引擎
  8. photoshop 插件_适用于Web设计人员的10+个免费Photoshop插件
  9. 不确定单机械臂的自适应反步控制建模与仿真
  10. win7系统怎样开启wmi服务器,WMI服务是什么?Win7系统如何禁用WMI服务?
  11. Netty(四十一) - 心跳(heartbeat)源码剖析
  12. 办公office 2019软件有哪些
  13. 中国移动发布物联网操作系统 OneOS
  14. 桥梁工程智慧工地管理系统,实现工程项目的精细化管理
  15. 数据结构上机实验之串子系统
  16. 使用晨曦账本记录店铺收支
  17. alc236黑苹果驱动_黑苹果核心显卡驱动教程
  18. cc150第一章JAVA字符串和数组总结
  19. TKinter布局之pack
  20. Rust 编程: 条件编译-Features

热门文章

  1. 6.3.2线索二叉树
  2. django datetime format 日期格式化
  3. pycham窗口显示多个编辑页面
  4. linux6.5怎样安装vim,在Centos 6.5下成功安装和配置了vim7.4
  5. lacp可以在access接口吗_【思唯网络学院】【干货】LACP与PAGP是什么?有何区别?...
  6. LeetCode篇之栈:155(常数时间复杂度内找最小栈)
  7. (王道408考研数据结构)第六章图-第二节1:图的存储结构(邻接矩阵、邻接表、十字链表和邻接多重表)
  8. 【线性代数本质】4:矩阵乘法本质
  9. 4-4:TCP协议之TCP头部格式详解
  10. 3-4:类与对象中篇——默认成员函数之拷贝构造函数