机器学习与深度学习常见面试题(上)
本文及其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次。
- 书的购买链接
- 书的勘误,优化,源代码资源
一年一度的校园招聘已经开始了,为了帮助参加校园招聘、社招的同学更好的准备面试,SIGAI整理出了一些常见的机器学习、深度学习面试题。理解它们,对你通过技术面试非常有帮助,当然,我们不能只限于会做这些题目,最终的目标是真正理解机器学习与深度学习的原理、应用。
1.比较Boosting和Bagging的异同
二者都是集成学习算法,都是将多个弱学习器组合成强学习器的方法。
Bagging:从原始数据集中每一轮有放回地抽取训练集,训练得到k个弱学习器,将这k个弱学习器以投票的方式得到最终的分类结果。
Boosting:每一轮根据上一轮的分类结果动态调整每个样本在分类器中的权重,训练得到k个弱分类器,他们都有各自的权重,通过加权组合的方式得到最终的分类结果。
2.无监督学习中存在过拟合吗?
存在。我们可以使用无监督学习的某些指标或人为地去评估模型性能,以此来判断是否过拟合。
3.什么是k折交叉验证?
将原始数据集划分为k个子集,将其中一个子集作为验证集,其余k-1个子集作为训练集,如此训练和验证一轮称为一次交叉验证。交叉验证重复k次,每个子集都做一次验证集,得到k个模型,加权平均k个模型的结果作为评估整体模型的依据。
4.关于k折交叉验证,需要注意什么?
k越大,不一定效果越好,而且越大的k会加大训练时间;在选择k时,需要考虑最小化数据集之间的方差,比如对于2分类任务,采用2折交叉验证,即将原始数据集对半分,若此时训练集中都是A类别,验证集中都是B类别,则交叉验证效果会非常差。
5.对于一个二分类问题,我们定义超过阈值t的判定为正例,否则判定为负例。现在若将t增大,则准确率和召回率会如何变化?
准确率 = TP / (TP + FP),召回率 = TP / (TP + FN),其中TP表示将正例正确分类为正例的数量,FP表示将负例错误分类为正例的数量,FN表示将正例错误分类为负例的数量。
准确率可以理解为在所有分类为正例的样品中,分类正确的样本所占比例;召回率可以理解为在所有原始数据集中的正例样品中,正确挑出的正例样本的比例。
因此若增大阈值t,更多不确定(分类概率较小)的样本将会被分为负例,剩余确定(分类概率较大)的样本所占比例将会增大(或不变),即正确率会增大(或不变);若增大阈值t,则可能将部分不确定(分类概率较小)的正例样品误分类为负例,即召回率会减小(或不变)。
6.以下关于神经网络的说法中,正确的是( )?
A.增加网络层数,总能减小训练集错误率
B.减小网络层数,总能减小测试集错误率
C.增加网络层数,可能增加测试集错误率
C。增加神经网络层数,确实可能提高模型的泛化性能,但不能绝对地说更深的网络能带来更小的错误率,还是要根据实际应用来判断,比如会导致过拟合等问题,因此只能选C。
7.说明Lp范数间的区别
L1范数:向量中各个元素绝对值之和
L2范数:向量中各个元素平方和的开二次方根
Lp范数:向量中各个元素绝对值的p次方和的开p次方根
8.用梯度下降训练神经网络的参数,为什么参数有时会被训练为nan值?
输入数据本身存在nan值,或者梯度爆炸了(可以降低学习率、或者设置梯度的阈值)
9.卷积神经网络CNN中池化层有什么作用?
减小图像尺寸即数据降维,缓解过拟合,保持一定程度的旋转和平移不变性。
10.请列举几种常见的激活函数。激活函数有什么作用?
sigmoi,relu,tanh。非线性化
11.神经网络中Dropout的作用?具体是怎么实现的?
防止过拟合。每次训练,都对每个神经网络单元,按一定概率临时丢弃。
12.利用梯度下降法训练神经网络,发现模型loss不变,可能有哪些问题?怎么解决?
很有可能是梯度消失了,它表示神经网络迭代更新时,有些权值不更新的现象。
改变激活函数,改变权值的初始化等。
13.如何解决不平衡数据集的分类问题?
可以扩充数据集,对数据重新采样,改变评价指标等。
14.残差网络为什么能做到很深层?
神经网络在反向传播过程中要不断地传播梯度,而当网络层数加深时,梯度在逐层传播过程中会逐渐衰减,导致无法对前面网络层的权重进行有效的调整。 残差网络中, 加入了short connections 为梯度带来了一个直接向前面层的传播通道,缓解了梯度的减小问题。
15.相比sigmoid激活函数ReLU激活函数有什么优势?
(1) 防止梯度消失 ( sigmoid的导数只有在0附近的时候有比较好的激活性,在正负饱和区的梯度都接近于0)
(2) ReLU的输出具有稀疏性
(3) ReLU函数简单计算速度快
16.卷积神经网络中空洞卷积的作用是什么?
空洞卷积也叫扩张卷积,在保持参数个数不变的情况下增大了卷积核的感受野,同时它可以保证输出的特征映射(feature map)的大小保持不变。一个扩张率为2的3×3卷积核,感受野与5×5的卷积核相同,但参数数量仅为9个。
17.解释下卷积神经网络中感受野的概念?
在卷积神经网络中,感受野 (receptive field)的定义是 卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。
18.模型欠拟合什么情况下会出现?有什么解决方案?
模型复杂度过低,不能很好的拟合所有的数据
增加模型复杂度,如采用高阶模型(预测)或者引入更多特征(分类)等
19. 适用于移动端部署的网络结构都有哪些?
Mobilenet(https://arxiv.org/abs/1704.04861)
Shufflenet(https://arxiv.org/abs/1707.01083)
Xception(https://arxiv.org/abs/1610.02357)
20. 卷积神经网络中im2col是如何实现的?
使用im2col的方法将划窗卷积转为两个大的矩阵相乘,见下图:
21.多任务学习中标签缺失如何处理?
一般做法是将缺失的标签设置特殊标志,在计算梯度的时候忽略。
22.梯度爆炸的解决方法?
针对梯度爆炸问题,解决方案是引入Gradient Clipping(梯度裁剪)。通过Gradient Clipping,将梯度约束在一个范围内,这样不会使得梯度过大。
23.深度学习模型参数初始化都有哪些方法?
(1)Gaussian 满足mean=0,std=1的高斯分布x∼N(mean, )
(2)Xavier 满足x∼U(−a,+a)x∼U(−a,+a)的均匀分布, 其中 a = sqrt(3/n)
(3)MSRA 满足x∼N(0, )x∼N(0,)的高斯分布,其中σ = sqrt(2/n)
(4)Uniform 满足min=0,max=1的均匀分布。x∼U(min,max)x∼U(min,max)
等等
24.注意力机制在深度学习中的作用是什么?有哪些场景会使用?
深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息。目前在神经机器翻译(Neural Machine Translation)、图像理解(Image caption)等场景都有广泛应用。
25.卷积神经网络为什么会具有平移不变性?
MaxPooling能保证卷积神经网络在一定范围内平移特征能得到同样的激励,具有平移不变形。
26.神经网络参数共享(parameter sharing)是指什么?
所谓的权值共享就是说,用一个卷积核去卷积一张图,这张图每个位置是被同样数值的卷积核操作的,权重是一样的,也就是参数共享。
27.如何提高小型网络的精度?
(1)模型蒸馏技术(https://arxiv.org/abs/1503.02531)
(2)利用AutoML进行网络结构的优化,可将网络计算复杂度作为约束条件之一,得到更优的结构。(https://arxiv.org/abs/1807.11626)
28.什么是神经网络的梯度消失问题,为什么会有梯度消失问题?有什么办法能缓解梯度消失问题?
在反向传播算法计算每一层的误差项的时候,需要乘以本层激活函数的导数值,如果导数值接近于0,则多次乘积之后误差项会趋向于0,而参数的梯度值通过误差项计算,这会导致参数的梯度值接近于0,无法用梯度下降法来有效的更新参数的值。
改进激活函数,选用更不容易饱和的函数,如ReLU函数。
29.列举你所知道的神经网络中使用的损失函数
欧氏距离,交叉熵,对比损失,合页损失
30.对于多分类问题,为什么神经网络一般使用交叉熵而不用欧氏距离损失?
交叉熵在一般情况下更容易收敛到一个更好的解。
31.1x1卷积有什么用途?
通道降维,保证卷积神经网络可以接受任何尺寸的输入数据
32.随机梯度下降法,在每次迭代时能保证目标函数值一定下降吗?为什么?
不能,每次迭代时目标函数不一样
33.梯度下降法,为什么需要设置一个学习率?
使得迭代之后的值在上次值的邻域内,保证可以忽略泰勒展开中的二次及二次以上的项
34.解释梯度下降法中动量项的作用
利用之前迭代时的梯度值,减小震荡
35.为什么现在倾向于用小尺寸的卷积核?
用多个小卷积核串联可以有大卷积核同样的能力,而且参数更少,另外有更多次的激活函数作用,增强非线性
36.解释GoogLeNet的Inception模块的原理
对输入图像用多个不同尺寸的卷积核、池化操作进行同时处理,然后将输出结果按照通道拼接起来
37.解释反卷积的原理和用途
反卷积即转置卷积,正向传播时乘以卷积核的转置矩阵,反向传播时乘以卷积核矩阵
由卷积输出结果近似重构输入数据,上采样
38.解释批量归一化的原理
在数据送入神经网络的某一层进行处理之前,对数据做归一化。按照训练样本的批量进行处理,先减掉这批样本的均值,然后除以标准差,然后进行缩放和平移。缩放和平移参数同训练得到。预测时使用训练时确定的这些值来计算
39.解释SVM核函数的原理
核函数将数据映射到更高维的空间后处理,但不用做这种显式映射,而是先对两个样本向量做内积,然后用核函数映射。这等价于先进行映射,然后再做内积。
40.什么是过拟合,过拟合产生的原因是什么?有什么方法能减轻过拟合?
过拟合指在训练集上表现的很好,但在测试集上表现很差,推广泛化能力差。产生过拟合的原因是训练样本的抽样误差,训练时拟合了这种误差。增加训练样本,尤其是样本的代表性;正则化
41.什么样的函数可以用作激活函数?
非线性,几乎处处可到,单调
42.什么是鞍点问题?
梯度为0,Hessian矩阵不定的点,不是极值点
43.在训练深度神经网络的过程中,遇到过哪些问题,怎么解决的?
不收敛,收敛太慢,泛化能力差。调整网络结构,调整样本,调整学习率,调整参数初始化策略
44.SVM如何解决多分类问题
多个二分类器组合。1对1方案,1对剩余方案,多类损失函数
45.列举你知道的聚类算法
层次聚类,k均值算法,DBSCAN算法,OPTICS算法,谱聚类
46.K均值算法中,初始类中心怎么确定
随机选择K个样本作为类中心,将样本随机划分成K个子集然后计算类中心
47.简述EM算法的原理
EM算法用于求解带有隐变量的最大似然估计问题。由于有隐变量的存在,无法直接用最大似然估计求得对数似然函数极大值的公式解。此时通过jensen不等式构造对数似然函数的下界函数,然后优化下界函数,再用估计出的参数值构造新的下界函数,反复迭代直至收敛到局部极小值点
机器学习与深度学习常见面试题(上)相关推荐
- 【机器学习】机器学习和深度学习概念入门
机器学习和深度学习概念入门(上) 作者:谭东 来源:机器学习算法与自然语言处理 目 录 1 人工智能.机器学习.深度学习三者关系 2 什么是人工智能 3 什么是机器学习 4 机器学习之 ...
- python工程师-史上最全Python工程师常见面试题集锦,有这一份就够了
从互联网诞生以来,基本上所有的程序都属于网络程序,也就需要设计到网络编程,在python中,就是在python程序本身这进程内,链接别的服务器进程的通信端口进行通信.在Python程序员找工作的时候, ...
- python常用面试题_史上最全Python工程师常见面试题集锦,有这一份就够了
从互联网诞生以来,基本上所有的程序都属于网络程序,也就需要设计到网络编程,在python中,就是在python程序本身这进程内,链接别的服务器进程的通信端口进行通信.在Python程序员找工作的时候, ...
- js怎么在一个div中嵌入另一网站_好程序员web前端学习路线分享HTML5常见面试题集锦一...
好程序员web前端学习路线分享HTML5常见面试题集锦,接下来将会持续为大家分享几篇HTML5常见面试题. 1.布局 左边20% 中间自适应 右边200px 不能用定位 答案:圣杯布局/双飞翼布局或者 ...
- GitHub上AI岗位面试笔记(机器学习算法/深度学习/ NLP/计算机视觉)
目录 机器学习 深度学习 自然语言处理与数学 算法题和笔试题 推荐阅读 工具 最近在GitHub上淘到一个很棒的AI算法面试笔记,特地分享给小伙伴们~ GitHub地址:https://github. ...
- 新闻上的文本分类:机器学习大乱斗 王岳王院长 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处
新闻上的文本分类:机器学习大乱斗 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差 ...
- 手机上的机器学习资源!Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现!...
吴恩达机器学习.深度学习,李航老师<统计学习方法>.CS229数学基础等,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成 ...
- 软件测试系统学习流程和常见面试题
在学习软件测试的时候你是否会感觉到不知从何下手? 今天教导你们软件测试学习的系统流程和面试常见的问题. 学习流程 一.必备技能 编程基础,能看懂前端页面,掌握一门语言:php/python/java等 ...
- 测试开发java常见面试题_Java常见面试题200+,学习、面试必备
本套Java面试题,选取了企业面试最常问到的问题,可以做为Java工程师的面试宝典,也可以做为想要不断完善和扩充自己 java 技术的学习者. 主要包含: Java 基础.容器.多线程.反射.对象拷贝 ...
最新文章
- 替代离线RL?Transformer进军决策领域,「序列建模」成关键
- mysql索引优化规则_Mysql优化选择最佳索引规则
- RAC OEM 打开无法显示CPU情况 的解决过程
- 11.IDA-this指针
- element 日历组件-自定义内容
- 微信公众号无限群发消息 v5.7.1 多功能版全开源 + 配置教程
- python技术文档_Python技术文档最佳实践
- selenium java maven testNg环境搭建
- C语言编程题:求一元二次方程组的根
- SI4463的数据冲撞解决办法
- mysql数据库各项参数查询
- 2019-2020中国互联网趋势报告
- Node.js基础(二)-- 模块化、npm与包
- 爬虫报错requests.exceptions.ProxyError:/Failed to establish a new connection: [WinError 10061]
- 全新资源网/教程网/下载站网站Emlog模板源码
- matplotlib cmap取值
- jquery图片放大缩小旋转功能实现
- 2022工作中遇到问题一
- 【微软Windows 7操作系统提速技巧总结】
- Android逐帧动画——让图片动起来
热门文章
- 做一个有志青年,人生才有意义
- 电脑开机画面如何更换
- stm32f105vct6例程_stm32f105例程 CAN500K USART_LED
- 发款php蜘蛛统计插件只要有mysql就可用
- 【数据库SQL实战】将id=5以及emp_no=10001的行数据替换成id=5以及emp_no=10005
- 【一问一答】错题库整理
- java mail 发送邮件_JavaMail实现收发邮件——(二)发送邮件
- Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击
- Python模块configparser:加载配置文件config.ini
- dva如何去掉hash