重磅福利！程序员面试——算法工程师面试大全第五部分

1.Batch Normalization 的作用

神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失.而 Batch Normalization 的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题.

2.梯度消失

在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降了.这种现象叫做消失的梯度问题.

3.循环神经网络,为什么好?

循环神经网络模型(RNN)是一种节点定向连接成环的人工神经网络,是一种反馈神经网络,RNN利用内部的记忆来处理任意时序的输入序列,并且在其处理单元之间既有内部的反馈连接又有前馈连接,这使得 RNN 可以更加容易处理不分段的文本等.

4.什么是 Group Convolution

若卷积神将网络的上一层有 N 个卷积核,则对应的通道数也为 N.设群数目为 M,在进行卷积操作的时候,将通道分成 M 份,每个 group 对应 N/M 个通道,然后每个 group 卷积完成后输出叠在一起,作为当前层的输出通道.

5.训练过程中,若一个模型不收敛,那么是否说明这个模型无效?导致模型不收敛的原因有哪些?

并不能说明这个模型无效,导致模型不收敛的原因可能有数据分类的标注不准确,样本的信息量太大导致模型不足以 fit 整个样本空间.学习率设置的太大容易产生震荡,太小会导致不收敛.可能复杂的分类任务用了简单的模型.数据没有进行归一化的操作.

6.图像处理中锐化和平滑的操作

锐化就是通过增强高频分量来减少图像中的模糊,在增强图像边缘的同时也增加了图像的噪声.

平滑与锐化相反,过滤掉高频分量,减少图像的噪声是图片变得模糊.

7.VGG 使用 3*3 卷积核的优势是什么?

2 个 3*3 的卷积核串联和 5*5 的卷积核有相同的感知野,前者拥有更少的参数.多个 3*3 的卷积核比一个较大尺寸的卷积核有更多层的非线性函数,增加了非线性表达,使判决函数更具有判决性.

8.Relu 比 Sigmoid 的效果好在哪里?

Sigmoid 的导数只有在 0 的附近时有较好的激活性,而在正负饱和区域的梯度趋向于 0,从而产生梯度弥散的现象,而 relu 在大于 0 的部分梯度为常数,所以不会有梯度弥散现象.Relu 的导数计算的更快.Relu 在负半区的导数为 0,所以神经元激活值为负时,梯度为 0,此神经元不参与训练,具有稀疏性.

9.在深度学习中,通常会 finetuning 已有的成熟模型,再基于新数据,修改最后几层神经网络权值,为什么?

实践中的数据集质量参差不齐,可以使用训练好的网络来进行提取特征.把训练好的网络当做特征提取器

10.Attention 机制的作用

减少处理高维输入数据的计算负担,结构化的选取输入的子集,从而降低数据的维度.让系统更加容易的找到输入的数据中与当前输出信息相关的有用信息,从而提高输出的质量.帮助类似于 decoder 这样的模型框架更好的学到多种内容模态之间的相互关系.

11.Lstm 和 Gru 的原理

Lstm 由输入门,遗忘门,输出门和一个 cell 组成.第一步是决定从cell 状态中丢弃什么信息,然后在决定有多少新的信息进入到cell状态中,最终基于目前的cell状态决定输出什么样的信息.

Gru 由重置门和跟新门组成,其输入为前一时刻隐藏层的输出和当前的输入,输出为下一时刻隐藏层的信息.重置门用来计算候选隐藏层的输出,其作用是控制保留多少前一时刻的隐藏层. 跟新门的作用是控制加入多少候选隐藏层的输出信息,从而得到当前隐藏层的输出.

12.什么是 dropout

在神经网络的训练过程中,对于神经单元按一定的概率将其随机从网络中丢弃,从而达到对于每个 mini-batch 都是在训练不同网络的效果,防止过拟合.

13.RNN 梯度消失问题,为什么 LSTM 和 GRU 可以解决此问题

RNN 由于网络较深,后面层的输出误差很难影响到前面层的计算,RNN 的某一单元主要受它附近单元的影响.而 LSTM 因为可以通过阀门记忆一些长期的信息,相应的也就保留了更多的梯度. 而 GRU 也可通过重置和更新两个阀门保留长期的记忆,也相对解决了梯度消失的问题.

14.GAN 网络的思想

GAN 用一个生成模型和一个判别模型,判别模型用于判断给定的图片是不是真实的图片,生成模型自己生成一张图片和想要的图片很像,开始时两个模型都没有训练,然后两个模型一起进行对抗训练,生成模型产生图片去欺骗判别模型,判别模型去判别真假,最终两个模型在训练过程中,能力越来越强最终达到稳态.

15.1*1 的卷积作用

实现跨通道的交互和信息整合,实现卷积核通道数的降维和升维,可以实现多个 feature map 的线性组合,而且可是实现与全连接层的等价效果.

16.怎么提升网络的泛化能力

从数据上提升性能:收集更多的数据,对数据做缩放和变换,特征组合和重新定义问题.

从算法调优上提升性能:用可靠的模型诊断工具对模型进行诊断,权重的初始化,用小的随机数初始化权重.对学习率进行调节,尝试选择合适的激活函数,调整网络的拓扑结构,调节 batch 和 epoch 的大小,添加正则化的方法,尝试使用其它的优化方法,使用 early stopping

重磅福利！程序员面试——算法工程师面试大全第五部分相关推荐

程序员转行算法工程师-四个月总结
程序员转行算法工程师-四个月总结前言学习感受年后计划我的想法前言经过四个半月的学习,培训的理论学习已经完成,年后将开始实战课程学习,总结一下现在的感受和以后的规划吧,这是一篇处于迷茫时期的 ...
重磅福利！程序员面试——算法工程师面试大全第六部分
1.什么是 seq2seq model? Seq2seq 属于 encoder-decoder 结构的一种,利用两个 RNN,一个作为 encoder 一个作为 decoder.Encoder 负责将 ...
福利网站！程序员面试——算法工程师面试大全第四部分
1.xgboost 的特征重要性计算 Xgboost 根据结构分数的增益情况计算出来选择哪个特征作为分割点,而某个特征的重要性就是它在所有树中出现的次数之和. 2.xgboost 特征并行化怎么做的 ...
福利网站！程序员面试——算法工程师面试大全第三部分
1.L1 和 L2 正则化的区别 L1 是模型各个参数的绝对值之和,L2 为各个参数平方和的开方值.L1 更趋向于产生少量的特征,其它特征为 0,最优的参数值很大概率出现在坐标轴上,从而导致产生稀疏的 ...
福利网站！程序员面试——算法工程师面试大全第一部分
1. SGD,Momentum,Adagard,Adam 原理 SGD 为随机梯度下降,每一次迭代计算数据集的 mini-batch 的梯度,然后对参数进行跟新. Momentum 参考了物理中动量的 ...
面试必备资源！程序员面试——算法工程师面试大全第二部分
1.逻辑回归怎么实现多分类方式一:修改逻辑回归的损失函数,使用 softmax 函数构造模型解决多分类问题,softmax 分类模型会有相同于类别数的输出,输出的值为对于样本属于各个类别的概率,最 ...
程序员编程艺术：面试和算法心得
本文转载至:http://taop.marchtea.com/ 本书是July和他伙伴们的<程序员编程艺术>的电子书 <程序员编程艺术:面试和算法心得> 目录第一部分数据结 ...
《程序员编程艺术：面试和算法心得》链接
转载自: http://taop.marchtea.com/index.html The Art of Programming By July 本书是July和他伙伴们的<程序员编程艺术> ...
百面机器学习！算法工程师面试宝典！
本文部分内容经授权节选自<百面机器学习> 责编 | 胡巍巍去年年底到今年年初,整个互联网圈,都笼罩着裁员的阴霾. 以至于很多程序员,都不敢看新闻了. 前段时间,SOHO中国董事长潘石屹, ...

重磅福利！程序员面试——算法工程师面试大全第五部分

重磅福利！程序员面试——算法工程师面试大全第五部分相关推荐

最新文章

热门文章