机器学习160个常见问题.pdf
来自公众号:机器学习算法与Python实战
原文链接:https://hackernoon.com/160-data-science-interview-questions-415s3y2a (Alexey Grigorev Lead Data Scientist at OLX Group)
数据科学职位的面试过程会有很多轮,其中通常会涉及理论概念,目的是确定应聘者是否了解机器学习的基础知识。在这篇文章中,我想总结一下我所有的面试经历(面试or被面试)并提出了160多个数据科学理论问题的清单。其中包括以下主题:
线性回归
模型验证
分类和逻辑回归
正则化
决策树
随机森林
GBDT
神经网络
文本分类
聚类
排序:搜索和推荐
时间序列
这篇文章中的问题数量似乎远远不够,请记住,面试流程是根据公司的需求和你的工作经历而定的。因此,如果你的工作中没有用过时间序列模型或计算机视觉模型,就不会收到类似的问题。
提示:如果不知道某些面试问题的答案,不要灰心。为了简化起见,我根据难度将问题分为三类:
????简单
⭐️中等
????专家
「开始吧!」
有监督的机器学习
什么是有监督学习?????
线性回归
什么是回归?哪些模型可用于解决回归问题?????
什么是线性回归?什么时候使用它?????
什么是正态分布?为什么要重视它?????
如何检查变量是否遵循正态分布?⭐️
如何建立价格预测模型?价格是否正态分布?需要对价格进行预处理吗?⭐️
解决线性回归的模型有哪些?⭐️
什么是梯度下降?它是如何工作的?⭐️
什么是正规方程?⭐️
什么是SGD-随机梯度下降?与通常的梯度下降有何不同?⭐️
有哪些评估回归模型的指标?????
什么是MSE和RMSE?????
验证方式
什么是过拟合?????
如何验证模型?????
为什么需要将数据分为三个部分:训练,验证和测试?????
解释交叉验证的工作原理?????
什么是K折交叉验证?????
如何在K折交叉验证中选择K?你最喜欢的K是什么?????
分类
什么是分类?哪些模型可以解决分类问题?????
什么是逻辑回归?什么时候需要使用它?????
Logistic回归是线性模型吗?为什么?????
什么是Sigmoid?它有什么作用?????
如何评估分类模型?????
什么是准确性?????
准确性始终是一个好的指标吗?????
什么是混淆表?表中的单元格表示什么?????
什么是精度,召回率和F1分数?????
准确率和召回率的权衡⭐️
什么是ROC曲线?什么时候使用?⭐️
什么是AUC(AU ROC)?什么时候使用?⭐️
如何解释AU ROC分数?⭐️
什么是PR曲线?⭐️
PR曲线下的面积是多少?这个指标有用吗?⭐️
在哪种情况下AU PR比AU ROC好?⭐️
如何处理分类变量?⭐️
为什么需要one-hot编码?⭐️
正则化
如果的数据中包含三列:x,y,z,其中z是x、y的和,那么线性回归模型会怎样?⭐️
如果数据中的z列是x和y列之和加上一些随机噪声,那么的线性回归模型会怎样?⭐️
什么是正则化?为什么需要它?????
有哪些正则化技术?⭐️
什么样的正则化技术适用于线性模型?⭐️
L2正则化在线性模型中是什么样的?⭐️
如何选择正确的正则化参数?????
L2正则化对线性模型的权重有什么影响?⭐️
L1正则化在线性模型中是什么样的?⭐️
L2和L1正则化有什么区别?⭐️
可以在线性模型中同时具有L1和L2正则化吗?⭐️
如何解释线性模型中的常数项?⭐️
如何解释线性模型中的权重?⭐️
如果一个变量的权重高于另一个变量的权重,那么可以说这个变量更重要吗?⭐️
什么时候需要对线性模型进行特征归一化?什么情况下可以不做归一化?⭐️
特征选择
什么是特征选择?为什么需要它?????
特征选择对线性模型重要吗?⭐️
有哪些特征选择技术?⭐️
可以使用L1正则化进行特征选择吗?⭐️
可以使用L2正则化进行特征选择吗?⭐️
决策树
什么是决策树?????
如何训练决策树?⭐️
决策树模型的主要参数是什么?????
如何处理决策树中的分类变量?⭐️
与更复杂的模型相比,单个决策树有什么好处?⭐️
如何知道哪些特征对决策树模型更重要?⭐️
随机森林
什么是随机森林?????
为什么需要在随机森林中进行随机化?⭐️
随机森林模型的主要参数是什么?⭐️
如何选择随机森林中树的深度?⭐️
如何知道随机森林需要多少棵树?⭐️
随机森林的训练并行化容易?该怎么做?⭐️
随机森林中过多的树有什么潜在问题?⭐️
是否可以不找到最佳分割,而是随机选择几个分割,然后从中选择最佳分割?可行吗 ????
数据中存在相关特征时会怎样?⭐️
梯度提升
什么是梯度增强树?⭐️
随机森林和梯度提升之间有什么区别?⭐️
是否可以并行化梯度提升模型的训练?怎么做?⭐️
梯度增强树中的特征重要性-有哪些可能的选择?⭐️
梯度提升模型的特征重要性,连续变量和离散变量之间是否有区别?????
梯度提升模型中的主要参数是什么?⭐️
如何在XGBoost或LightGBM中调整参数?????
如何在梯度提升模型中选择树的数量?⭐️
参数调整
你大致了解哪些参数调整策略?⭐️
网格搜索参数调整策略和随机搜索有什么区别?什么时候使用一个或另一个?⭐️
神经网络
神经网络可以解决哪些问题?????
通常的全连接前馈神经网络如何工作?⭐️
为什么需要激活功能?????
sigmoid 为激活函数有什么问题?⭐️
什么是ReLU?它比sigmoid 或tanh好吗?⭐️
如何初始化神经网络的权重?⭐️
如果将神经网络的所有权重都设置为0会怎样?⭐️
神经网络中有哪些正则化技术?⭐️
什么是1.1Dropout?为什么有用?它是如何工作的?⭐️
神经网络的优化
什么是反向传播?它是如何工作的?为什么需要它?⭐️
你知道哪些训练神经网络的优化技术?⭐️
如何使用SGD(随机梯度下降)训练神经网络?⭐️
学习率是多少?????
学习率太大时会发生什么?太小?????
如何设置学习率?⭐️
什么是Adam?Adam和SGD之间的主要区别是什么?⭐️
什么时候使用Adam和SGD?⭐️
要保持学习率不变还是在训练过程中改变它?⭐️
如何确定何时停止训练神经网络?????
什么是ModelCheckpoint?⭐️
讲一下你是如何进行模型训练的?⭐️
用于计算机视觉的神经网络
如何使用神经网络进行计算机视觉?⭐️
什么是卷积层?⭐️
为什么需要卷积?不能使用全连接层吗?⭐️
CNN中的pooling是什么?为什么需要它?⭐️
Max pooling如何工作?还有其他池化技术吗?⭐️
CNN是否抗旋转?如果旋转图像,CNN的预测会怎样?????
什么是数据增强?为什么需要它们?你知道哪种增强?????
如何选择要使用的增强?⭐️
你知道什么样的CNN分类体系?????
什么是迁移学习?它是如何工作的?⭐️
什么是目标检测?你知道有哪些框架吗?????
什么是对象分割?你知道有哪些框架吗?????
文字分类
如何使用机器学习进行文本分类?⭐️
什么是词袋模型?如何将其用于文本分类?⭐️
词袋模型的优缺点是什么?⭐️
什么是N-gram?如何使用它们?⭐️
使用N-gram时,词袋模型中N应该是多少?⭐️
什么是TF-IDF?它对文本分类有什么用?⭐️
你用过哪种模型对带有词袋特征的文本进行分类?⭐️
使用词袋进行文本分类时,你希望使用梯度提升树模型还是逻辑回归?⭐️
什么是词嵌入?为什么有用?你知道Word2Vec吗?⭐️
你还知道其他词嵌入的方法吗?????
如果你的句子包含多个单词,则可能需要将多个单词嵌入组合为一个。你会怎么做?⭐️
在进行带有嵌入的文本分类时,使用梯度提升树模型还是逻辑回归?⭐️
如何使用神经网络进行文本分类?????
如何使用CNN进行文本分类?????
聚类
什么是无监督学习?????
什么是聚类?什么时候需要它?????
K-means是如何工作的吗?⭐️
如何为K均值选择K?⭐️
你还知道其他哪些聚类算法?⭐️
你知道DBScan如何工作吗?⭐️
何时选择K-means,何时选择DBScan?⭐️
降维
维度灾难是什么?为什么要关心它?⭐️
你知道降维技巧吗?⭐️
什么是奇异值分解?它通常如何用于机器学习?⭐️
排序和搜索
什么是排序问题?可以使用哪些模型来解决它们?⭐️
文本信息检索任务重,什么是好的无监督baselines?⭐️
如何评估排序算法?使用哪些离线指标?⭐️
k的精度和召回率是多少?⭐️
k的平均精度均值是多少?⭐️
如何使用机器学习进行搜索?⭐️
如何获得训练算法的排序数据?⭐️
可以将搜索问题表述为分类问题吗?⭐️
如何将点击数据用作训练数据以进行排序算法?????
如何使用梯度提升树进行排序?????
如何在线评估新的排序算法?⭐️
推荐系统
什么是推荐系统?????
建立推荐系统时有什么好的 baseline?⭐️
什么是协同过滤?⭐️
如何将隐式反馈(点击等)纳入推荐系统?⭐️
什么是冷启动问题?⭐️
解决冷启动问题的可能方法?????
时间序列
什么是时间序列?????
时间序列与通常的回归问题有何不同?????
用于解决时间序列问题的有哪些模型?⭐️
如果序列中有趋势,如何消除它?为什么要这么做?⭐️
在时间t处测得只有一个变量“y”的序列。如何在时间t + 1预测“y”?使用哪种方法?⭐️
有一个带有变量“y”和一系列特征的序列。如何预测t + 1时的“y”?使用哪种方法?⭐️
使用树来解决时间序列问题有什么问题?⭐️
以上!希望它对各位有用,祝面试愉快!
机器学习160个常见问题.pdf相关推荐
- 机器学习中的常见问题—损失函数
机器学习中的常见问题--损失函数 一.分类算法中的损失函数 在分类算法中,损失函数通常可以表示成损失项和正则项的和,即有如下的形式: J(w)=∑iL(mi(w))+λR(w)J(w)=∑iL(mi( ...
- 【收藏】机器学习入门的常见问题集(文末送书)
作者:莫凡 导读:机器学习如何入门?那些还在不断叩击着机器学习之门,迟迟未入门的同学应该怎么做?今天小编带大家听听木羊同学怎么说... 作者:木羊同学 来源:华章计算机(hzbook_jsj) 大家好 ...
- 自学python推荐书籍同时找哪些来实践-机器学习:Python实践 PDF 原书完整版
给大家带来的一篇关于人工智能相关的电子书资源,介绍了关于机器学习.Python实践方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小124.7 MB,魏贞原编写,目前豆瓣.亚马逊.当当.京 ...
- 非常适合初学者的机器学习的数学基础笔记.pdf
本文推荐一份机器学习数学基础专辑,非常适合初学者入门,文末提供下载. 机器学习,需要一定的数学基础,也需要一定的代码能力.机器学习从业者数学基础不扎实,只会用一些工具和框架,相当于某些武术家只会耍套路 ...
- 机器学习160问(建议收藏)
原文:https://hackernoon.com/160-data-science-interview-questions-415s3y2a (Alexey Grigorev Lead Data S ...
- CVPR 2021 Tutorial 可解释性机器学习汇总!视频 + PDF附下载
点击下方"AI算法与图像处理",关注一下重磅干货,第一时间送达 最近 CVPR 2021 会议正在举办,分享着最牛的计算机视觉成果 ,周博磊教授在网上分享自己课题组最新的研究.(文 ...
- 【机器学习】机器学习基础知识常见问题详解!
作者:胡联粤,Datawhale面经小组 Q1 ⽼板给了你⼀个关于癌症检测的数据集,你构建了⼆分类器然后计算了准确率为 98%, 你是否对这个模型满意?为什么?如果还不算理想,接下来该怎么做? 首先模 ...
- 斯坦福大学Python机器学习教程,200+PDF的精华总结和学习思路,完整版开放下载,附学习路线
机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是人工智能的核心,是是计算机具有智能的根本途径 该笔记分为十六个模块,循序渐进地 ...
- python和nltk自然语言处理 pdf_NLTK基础教程:用NLTK和Python库构建机器学习应用 完整版pdf...
本书主要介绍如何通过NLTK库与一些Python库的结合从而实现复杂的NLP任务和机器学习应用.全书共分为10章.第1章对NLP进行了简单介绍.第2章.第3章和第4章主要介绍一些通用的预处理技术.专属 ...
最新文章
- 【数据平台】sklearn库特征工程之特征选择和降维
- 最小二乘法与最大似然函数的区别
- LINQ中ForEach方法的使用
- jvm 性能调优工具之 jstat
- 深入理解分布式系统中的缓存架构(下)
- mysql8修改密码
- khoury计算机科学学院,2021年美国东北大学计算机研究生专业有哪些?入学要求高吗?...
- 20145308刘昊阳 20145302张薇《信息安全系统设计基础》实验五:网络通信 实验报告...
- 【html和css入门】实现简单的页首导航
- python实时语音转写_实时语音转写 API 文档
- Layabox的2d精灵的性能优化
- http301重定向IIS 301重定向域名转向新旧域名更替
- 【玩转linux】head命令
- 华为运营商级路由器配置示例 | 配置VPLS Multi-homing示例
- 停车场寻车是怎么实现的?车库寻车有什么好办法?
- linux应用/软件设置为系统服务
- Python 四舍六入五成双
- kubectl命令补全出错:kubectl ge-bash: _get_comp_words_by_ref: command not found
- 【WIN10】如何关闭右下角输入法的“拼”字
- 业内人士真心话:只会测试没有前途的,我慌了....