数据科学职位的典型面试过程会有很多轮,其中通常会涉及理论概念,目的是确定应聘者是否了解机器学习的基础知识。在这篇文章中,我想总结一下我所有的面试经历(面试or被面试)并提出了160多个数据科学理论问题的清单。其中包括以下主题:

  • 线性回归
  • 模型验证
  • 分类和逻辑回归
  • 正则化
  • 决策树
  • 随机森林
  • GBDT
  • 神经网络
  • 文本分类
  • 聚类
  • 排序:搜索和推荐
  • 时间序列

这篇文章中的问题数量似乎远远不够,请记住,面试流程是根据公司的需求和你的工作经历而定的。因此,如果你的工作中没有用过时间序列模型或计算机视觉模型,就不会收到类似的问题。

提示:如果不知道某些面试问题的答案,不要灰心。为了简化起见,我根据难度将问题分为三类:

  • 容易
  • 中号
  • 专家

let us go!

有监督的机器学习

  • 什么是有监督学习?

线性回归

  • 什么是回归?哪些模型可用于解决回归问题?
  • 什么是线性回归?什么时候使用它?
  • 什么是正态分布?为什么要重视它?
  • 如何检查变量是否遵循正态分布?‍
  • 如何建立价格预测模型?价格是否正态分布?需要对价格进行预处理吗?‍
  • 解决线性回归的模型有哪些?‍
  • 什么是梯度下降?它是如何工作的?‍
  • 什么是正规方程?‍
  • 什么是SGD-随机梯度下降?与通常的梯度下降有何不同?‍
  • 有哪些评估回归模型的指标?
  • 什么是MSE和RMSE?

验证方式

  • 什么是过拟合?
  • 如何验证模型?
  • 为什么需要将数据分为三个部分:训练,验证和测试?
  • 解释交叉验证的工作原理?
  • 什么是K折交叉验证?
  • 如何在K折交叉验证中选择K?你最喜欢的K是什么?

分类

  • 什么是分类?哪些模型可以解决分类问题?
  • 什么是逻辑回归?什么时候需要使用它?
  • Logistic回归是线性模型吗?为什么?
  • 什么是Sigmoid?它有什么作用?
  • 如何评估分类模型?
  • 什么是准确性?
  • 准确性始终是一个好的指标吗?
  • 什么是混淆表?表中的单元格表示什么?
  • 什么是精度,召回率和F1分数?
  • 准确率和召回率的权衡‍
  • 什么是ROC曲线?什么时候使用?‍
  • 什么是AUC(AU ROC)?什么时候使用?‍
  • 如何解释AU ROC分数?‍
  • 什么是PR曲线?‍
  • PR曲线下的面积是多少?这个指标有用吗?‍
  • 在哪种情况下AU PR比AU ROC好?‍
  • 如何处理分类变量?‍
  • 为什么需要one-hot编码?‍

正则化

  • 如果的数据中包含三列:x,y,z,其中z是x、y的和,那么线性回归模型会怎样?‍
  • 如果数据中的z列是x和y列之和加上一些随机噪声,那么的线性回归模型会怎样?‍
  • 什么是正则化?为什么需要它?
  • 有哪些正则化技术?‍
  • 什么样的正则化技术适用于线性模型?‍
  • L2正则化在线性模型中是什么样的?‍
  • 如何选择正确的正则化参数?
  • L2正则化对线性模型的权重有什么影响?‍
  • L1正则化在线性模型中是什么样的?‍
  • L2和L1正则化有什么区别?‍
  • 可以在线性模型中同时具有L1和L2正则化吗?‍
  • 如何解释线性模型中的常数项?‍
  • 如何解释线性模型中的权重?‍
  • 如果一个变量的权重高于另一个变量的权重,那么可以说这个变量更重要吗?‍
  • 什么时候需要对线性模型进行特征归一化?什么情况下可以不做归一化?‍

特征选择

  • 什么是特征选择?为什么需要它?
  • 特征选择对线性模型重要吗?‍
  • 有哪些特征选择技术?‍
  • 可以使用L1正则化进行特征选择吗?‍
  • 可以使用L2正则化进行特征选择吗?‍

决策树

  • 什么是决策树?
  • 如何训练决策树?‍
  • 决策树模型的主要参数是什么?
  • 如何处理决策树中的分类变量?‍
  • 与更复杂的模型相比,单个决策树有什么好处?‍
  • 如何知道哪些特征对决策树模型更重要?‍

随机森林

  • 什么是随机森林?
  • 为什么需要在随机森林中进行随机化?‍
  • 随机森林模型的主要参数是什么?‍
  • 如何选择随机森林中树的深度?‍
  • 如何知道随机森林需要多少棵树?‍
  • 随机森林的训练并行化容易?该怎么做?‍
  • 随机森林中过多的树有什么潜在问题?‍
  • 是否可以不找到最佳分割,而是随机选择几个分割,然后从中选择最佳分割?可行吗
  • 数据中存在相关特征时会怎样?‍

梯度提升

  • 什么是梯度增强树?‍
  • 随机森林和梯度提升之间有什么区别?‍
  • 是否可以并行化梯度提升模型的训练?怎么做?‍
  • 梯度增强树中的特征重要性-有哪些可能的选择?‍
  • 梯度提升模型的特征重要性,连续变量和离散变量之间是否有区别?
  • 梯度提升模型中的主要参数是什么?‍
  • 如何在XGBoost或LightGBM中调整参数?
  • 如何在梯度提升模型中选择树的数量?‍

参数调整

  • 你大致了解哪些参数调整策略?‍
  • 网格搜索参数调整策略和随机搜索有什么区别?什么时候使用一个或另一个?‍

神经网络

  • 神经网络可以解决哪些问题?
  • 通常的全连接前馈神经网络如何工作?‍
  • 为什么需要激活功能?
  • sigmoid 为激活函数有什么问题?‍
  • 什么是ReLU?它比sigmoid 或tanh好吗?‍
  • 如何初始化神经网络的权重?‍
  • 如果将神经网络的所有权重都设置为0会怎样?‍
  • 神经网络中有哪些正则化技术?‍
  • 什么是1.1Dropout?为什么有用?它是如何工作的?‍

神经网络的优化

  • 什么是反向传播?它是如何工作的?为什么需要它?‍
  • 你知道哪些训练神经网络的优化技术?‍
  • 如何使用SGD(随机梯度下降)训练神经网络?‍
  • 学习率是多少?
  • 学习率太大时会发生什么?太小?
  • 如何设置学习率?‍
  • 什么是Adam?Adam和SGD之间的主要区别是什么?‍
  • 什么时候使用Adam和SGD?‍
  • 要保持学习率不变还是在训练过程中改变它?‍
  • 如何确定何时停止训练神经网络?
  • 什么是ModelCheckpoint?‍
  • 讲一下你是如何进行模型训练的?‍

用于计算机视觉的神经网络

  • 如何使用神经网络进行计算机视觉?‍
  • 什么是卷积层?‍
  • 为什么需要卷积?不能使用全连接层吗?‍
  • CNN中的pooling是什么?为什么需要它?‍
  • Max pooling如何工作?还有其他池化技术吗?‍
  • CNN是否抗旋转?如果旋转图像,CNN的预测会怎样?
  • 什么是数据增强?为什么需要它们?你知道哪种增强?
  • 如何选择要使用的增强?‍
  • 你知道什么样的CNN分类体系?
  • 什么是迁移学习?它是如何工作的?‍
  • 什么是目标检测?你知道有哪些框架吗?
  • 什么是对象分割?你知道有哪些框架吗?

文字分类

  • 如何使用机器学习进行文本分类?‍
  • 什么是词袋模型?如何将其用于文本分类?‍
  • 词袋模型的优缺点是什么?‍
  • 什么是N-gram?如何使用它们?‍
  • 使用N-gram时,词袋模型中N应该是多少?‍
  • 什么是TF-IDF?它对文本分类有什么用?‍
  • 你用过哪种模型对带有词袋特征的文本进行分类?‍
  • 使用词袋进行文本分类时,你希望使用梯度提升树模型还是逻辑回归?‍
  • 什么是词嵌入?为什么有用?你知道Word2Vec吗?‍
  • 你还知道其他词嵌入的方法吗?
  • 如果你的句子包含多个单词,则可能需要将多个单词嵌入组合为一个。你会怎么做?‍
  • 在进行带有嵌入的文本分类时,使用梯度提升树模型还是逻辑回归?‍
  • 如何使用神经网络进行文本分类?
  • 如何使用CNN进行文本分类?

聚类

  • 什么是无监督学习?
  • 什么是聚类?什么时候需要它?
  • K-means是如何工作的吗?‍
  • 如何为K均值选择K?‍
  • 你还知道其他哪些聚类算法?‍
  • 你知道DBScan如何工作吗?‍
  • 何时选择K-means,何时选择DBScan?‍

降维

  • 维度灾难是什么?为什么要关心它?‍
  • 你知道降维技巧吗?‍
  • 什么是奇异值分解?它通常如何用于机器学习?‍

排序和搜索

  • 什么是排序问题?可以使用哪些模型来解决它们?‍
  • 文本信息检索任务重,什么是好的无监督baselines?‍
  • 如何评估排序算法?使用哪些离线指标?‍
  • k的精度和召回率是多少?‍
  • k的平均精度均值是多少?‍
  • 如何使用机器学习进行搜索?‍
  • 如何获得训练算法的排序数据?‍
  • 可以将搜索问题表述为分类问题吗?
  • 如何将点击数据用作训练数据以进行排序算法?
  • 如何使用梯度提升树进行排序?
  • 如何在线评估新的排序算法?‍

推荐系统

  • 什么是推荐系统?
  • 建立推荐系统时有什么好的 baseline?‍
  • 什么是协同过滤?
  • 如何将隐式反馈(点击等)纳入推荐系统?‍
  • 什么是冷启动问题?
  • 解决冷启动问题的可能方法?

时间序列

  • 什么是时间序列?
  • 时间序列与通常的回归问题有何不同?
  • 用于解决时间序列问题的有哪些模型?‍
  • 如果序列中有趋势,如何消除它?为什么要这么做?‍
  • 在时间t处测得只有一个变量“y”的序列。如何在时间t + 1预测“y”?使用哪种方法?‍
  • 有一个带有变量“y”和一系列特征的序列。如何预测t + 1时的“y”?使用哪种方法?‍
  • 使用树来解决时间序列问题有什么问题?‍

以上!希望它对各位有用,赶紧考考自己先,也希望大家面试顺利!更多人工智能,机器学习方面的教程也会继续更新!

本人这些天总结了些人工智能视频教程,伙伴们有正在学或者准备学的伙伴,可以留言或评论回复:人工智能,我发大家哈!

人工智能面试总结:160个机器学习面试题,赶紧先考考自己!相关推荐

  1. 人工智能机器学习面试题和答案

    机器学习面试题和答案 1.机器学习是什么? 机器学习是人工智能的一种形式,它处理系统编程和自动化数据分析,使计算机能够通过经验学习和行动,而无需明确编程.例如,机器人的编码方式使其可以根据从传感器收集 ...

  2. 史上最全的大厂机器学习面试题,赶紧收藏吧!(附详解答案)

    本文为大家总结了往年BAT机器学习面试题,干货满满,值得收藏. 刷题,是面试前的必备环节. 想要入职大厂可谓是千军万马过独木桥. 为了通过层层考验,刷题肯定是必不可少的.本文作者根据网络在线发布的BA ...

  3. 机器学习笔试题精选(四)

    https://blog.csdn.net/red_stone1/article/details/81162774 机器学习是一门理论性和实战性都比较强的技术学科.在应聘机器学习相关工作岗位时,我们常 ...

  4. 总结了200道经典的机器学习面试题 (附参考答案)

    作者丨qinjianhuang 链接 https://blog.csdn.net/sinat_35512245/article/details/78796328 刷题,是面试前的必备环节.本文作者总结 ...

  5. 机器学习面试题总结!!!!

    需要内推三七互娱的盆友萌,(9月5号截止)可以参考另一篇文章,或者内推QQ群:175423207 BAT机器学习面试系列 1.请简要介绍下SVM. SVM,全称是support vector mach ...

  6. 机器学习面试题总结(转)

    原文链接: https://blog.csdn.net/sinat_35512245/article/details/78796328 1.请简要介绍下SVM. SVM,全称是support vect ...

  7. 机器学习面试题1~60

    原文链接: https://mp.weixin.qq.com/s?__biz=MzI4MTQ2NjU5NA==&mid=2247485444&idx=1&sn=adafa439 ...

  8. 200道BAT机器学习面试题分享

    来源:CSDN 作者:qinjianhuang 整理编辑:Mr.Ma-master 导读 刷题,是工作面试前的必备环节.小编根据网络在线发布的BAT机器学习面试1000题系列,整理了一份面试刷题宝典. ...

  9. 200道往年BAT机器学习面试题

    点击上方机器学习与生成对抗网络,关注"星标" 获取有趣.好玩的前沿干货! 来源:CSDN 刷题,是面试前的必备环节.本文作者总结了往年BAT机器学习面试题,干货满满,值得收藏. 想 ...

最新文章

  1. ”图书馆助手“典型用户和用户场景
  2. 嵌入式开发板上常用术语
  3. BeyondCompare4.1.9解决过期问题
  4. sqoop增量导入hdfs和导出
  5. koa --- 自制简易的koa-router
  6. 技术胖1-4季视频复习— (看视频笔记)
  7. 对于 Netty ByteBuf 的零拷贝(Zero Copy) 的理解
  8. 小程序模拟服务器,小程序模拟请求服务器json数据
  9. 禁用 ssh agent_如何修复“禁用Agent XP”错误
  10. c语言文本编辑器源代码_程序员专属的10个免费编程文本编辑器,哪个是你的最爱?...
  11. 8 9区别 endnote7_EndNote_9__简明教程_中文版
  12. android移动应用技术,Android移动开发技术与应用.pdf
  13. c语言计算圆周率的方法,c语言学习之不同方式计算圆周率
  14. mPEG-Pyrene,甲氧基聚乙二醇芘丁酸
  15. 注册表怎么打开详细教程
  16. 双击 文字 出现 文本框 的方法
  17. 아 / 어/여서与고 的区别
  18. 使用xlwings插件在Excel中调用Python
  19. Shell脚本之网络流量监控
  20. 魔力鸭linux驱动下载,魔力鸭原厂2108s固件

热门文章

  1. 在Shopee做高客单价产品 需要具备哪些思路?
  2. Curator基本操作(Zookeeper节点增删改查)
  3. 京东移动端首页-流式布局
  4. 分析网络钓鱼的原理及防御措施
  5. C++8/23——仿照string类,写一个my_string类
  6. 月份加日期前面用on还是in_日期、星期、月份、年份等时间前面用什么介词
  7. 谷歌浏览器(Chrome)最新v80版本下载
  8. @Value为啥取不到值
  9. 用计算机管理从新分区,电脑如何分区硬盘分区_电脑怎么重新分区教程-win7之家...
  10. Windows环境下,输入(Chkntfs /X C:)命令可以取消系统每次启动对C盘的磁盘扫描程序