神经网络相关的笔试题目集合（一）

在找工作的过程中发现好多公司没有专门的、传统的图像处理岗位，所以只能参加算法类的笔试甚至AI类的笔试。在AI的笔试中几乎全是关于神经网络的问题，其实也都是很基础的一些问题，如果事先做了准备，可以从容应对。而对于我这种从传统图像处理算法向深度学习靠拢的新手，不失为一种很好的入门方法。

既然是考察神经网络，激活函数activation function作为模拟人脑中神经元之间的激活/抑制的关键，经常会被考察。问：常用的激活函数有什么，各自有什么特点。关于这个问题可以从网上找到很多答案，比如参考链接1和2，主要讲了常见的激活函数Sigmoid、tanh、ReLu、Leaky ReLus。Sigmoid范围在0~1（这也是具有压缩数据功能的原因），所以Tanh=2*Sigmoid(2x)-1的范围在[-1,1]，tanh读作Hyperbolic Tangent，解决了Sigmoid的均值非0的问题（这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入），但是梯度消失的问题更加严重（红色梯度曲线下降得更快，参数的学习要靠梯度的后向传播）。而ReLU=max(0,x),在输入很大的情况下梯度也不会像Sigmoid一样饱和，且由于计算简单，利用SGD（随机梯度下降）算法收敛速度更快，但缺点是在输入为复数的时候激活函数直接为0，造成所谓的神经元坏死，不能给之后的神经元传递信息，这时就必须十分小心learning Rate的选取，步长不能太大，也可以使用adagrad自动调节learningrate,同时参数的初始化也很重要，一般使用Xavier初始化。Leaky ReLU是为了解决ReLU神经元坏死的问题的，在输入小于0时，输出不再是0，而是一条斜率较小（a）的通过原点的直线。但是现在还没有足够的理论证明Leaky ReLU一定好于ReLU。也可以将斜率a也作为参数进行训练，即PReLU，kaiming He在2015年的论文中就使用了Parametric ReLU。

Randomized Leaky ReLU. Randomized Leaky ReLU 是 leaky ReLU 的random 版本, 其核心思想就是，在训练过程中，a是从一个高斯分布中随机出来的，然后再在测试过程中进行修正。

这么多的激活函数都有一个共同点，就是他们都是非线性的。抛开用激活函数去模拟神经元的仿生想法，激活函数的作用在数学上到底有什么意义呢？从网上资料看就是为了加入非线性因素。因为感知机其实是最原始的神经网络，同时感知机是一个判别模型，可用于分类，如果没有激活函数，我们就无法实现线性不可分问题，包括简单的异或XOR问题。如果没有激活函数，多个感知机的组合得到的仍然是一个线性分类器，仍然无法解决非线性问题。

参考链接2中知乎有人的回答中提到Google的论文Batch normalization: Accelerating deep network training by reducing internal covariate shift尽可能保证每一层网络的输入具有相同的分布，解决了Sigmoid的saturate的问题，但效果仍然没有ReLU好。正好笔试过程中也遇到了Batch Normalization的问题，那么接下来就看一下它到底为何物。

先来说归一化，归一化是对于输入特征来说的，特征可能是多维的，同时他们之间的量纲可能不一样，就会造成不同维度的大小存在很大的差异，这对于训练来说不太友好，因为我们设置的learning rate不可能适应所有的维度，会导致训练过慢。

归一化不仅能加快训练速度（最快梯度下降法的求解），有时候还可以提高精度。比如KNN分类器中要求样本之间的距离，归一化使得不同维度对距离造成的影响大小相同，而不会使得结果主要取决于某一维度。

归一化常用方法有最大最小归一化（线性归一化），max和min值不稳定时可以取常数；z-score标准化（均值方差标准化），归一化后的数据符合标准正态分布，即进行白化whiten；函数转化（非线性归一化，函数可使用对数、正切等）。

其实之前提到的归一化是相对于机器学习领域说的。在深度学习中由于涉及到了多层的网络模型，归一化会显得更加重要，因为机器学习中有一个数据之间是独立同分布IID的假设（这样才能通过训练样本预测新的数据），而神经网络中由于底层参数的更新会影响之后高层的输入，这在paper中被称为Internal Covariate Shift（ICS）问题。所以我们就需要对每一层的输出都进行归一化。但是底层的输出被归一化也意味着之前学到的特征分布被破坏了，所以batch Normalization（BN）又加入了变换重构，引入了可学习参数缩放因子和平移因子。

这里简单介绍一下batch的概念。首先，我们的训练数据集是有限的，我们会使用这一训练数据集训练多次，相对于巩固学习，但训练太多次又会导致过拟合。每次训练后参数完成一次更新，称这一过程是一个epoch。而在每次epoch中，我们把训练数据集分成几个较小的子集，这就是batch，子集的大小是batch_size。数据集较大不利于通过训练网络，分成子集有利于加快训练。训练数据集分成子集，epoch也分成了几个iteration。根据batch_size的选择，可以把训练情况分成三种，第一种是batch取最大值，即Full Batch Learning，一次性将训练数据通过训练网络，这只适用于训练数据少的情况。第二种是另外一个极端，batch_size取1，即Online Learning在线学习/Stochastic随机学习，这种情况难以收敛，因为每次梯度方向以各自样本的梯度方向收敛。我们看到batch_size其实是在内存利用率和内存容量之间的平衡，增大了batch_size，相对于通过并行化提高了内存利用率，但占用的内存也变大。第三种是Mini-batch，在之前两个极端情况下选择一个平衡点。BN就是基于了Mini-batch SGD。BN适用于mini-batch样本量较大且与各mini-batch分布相近似的场景下（训练前需进行充分的shuffle）。不适用于动态网络结构和RNN。

结合前面讲到的激活函数，BN在归一化的同时还可以解决Sigmoid函数的梯度饱和的问题。因为经过BN后，通过激活函数的输入是标准正态分布，经过非线性变换时的输入大概率保持在0均值附近，反向传播时梯度值较大，从而避免了梯度消失。BN增加scale和shift的原因也可以通过对激活函数的输入的处理来说明。因为在进入激活函数之前进行了归一化，将输入集中在了Sigmoid中心附近，而Sigmoid函数虽然本身是非线性函数，但是中心附近是接近线性的，这样一来我们就失去了非线性函数的优势，而补救措施就是增加scale和shift元素。BN的细节还是要看论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。

总结一下BN的优势：1.提升了训练速度（避免了梯度双端饱和，保证了IID）2.类似于Dropout，可以防止过拟合（加入了随机性的scale、shift？）3.对初始化的要求没有那么高（因为不必使用ReLU？即使使用ReLU也可以避免梯度为0），可以使用较大的学习率。

除了BN，还有其他的归一化方式。BN针对的是单一的神经元，Layer Normalization考虑一层的信息，并将该层的均值和方差作为归一化标准。weight normalization则将参数也进行了规范化。

Reference：

面面观https://blog.csdn.net/cyh_24/article/details/50593400
神经网络激励函数的作用是什么？有没有形象的解释？ - 论智的回答 - 知乎https://www.zhihu.com/question/22334626/answer/465380541
https://blog.csdn.net/yangdashi888/article/details/78015448
激活函数的作用https://blog.csdn.net/program_developer/article/details/78704224
DeeplearningAI实用层面https://www.cnblogs.com/cloud-ken/p/7709447.html
归一化优点和方法和结构https://blog.csdn.net/qq_28618765/article/details/78221571
Batch_size知乎https://www.zhihu.com/question/32673260
深度学习29https://blog.csdn.net/hjimce/article/details/50866313
Normalization方式https://blog.csdn.net/qq_24153697/article/details/79880202

神经网络相关的笔试题目集合（一）相关推荐

linux运维笔试题目,linux运维相关的笔试题目_笔试题目
一.Linux系统和shell 1.写一个sed命令,修改/tmp/input.txt文件的内容,要求: ①删除所有空行: ②在非空行前面加一个"AAA",在行尾加一个" ...
秋招面/笔试题目集合——06
第一题思路:递归(打标法) public class 第一题06 {public static void main(String[] args) {for (int i = 1;i < 500 ...
百度腾讯阿里小米笔试题目宝典
九月十月百度人搜,阿里巴巴,腾讯华为小米搜狗笔试面试八十题引言自发表上一篇文章至今(事实上,上篇文章更新了近3个月之久),blog已经停了3个多月,而在那之前,自开博以来的21个月每月都不曾 ...
C／C＋＋面试、笔试题目（二）
4. static有什么用途?(请至少说明两种) 1,在函数中定义的STATIC变量在函数重复调用时维持其值不变,不在执行此变量的初始化代码. 2可以定义一个作用郁为当前文件的变量. 2, 7. ...
java ee 笔试题目,JSP经典笔试@题目(含答案)
JSP经典笔试@题目(含答案) 更新时间:2017/2/5 19:25:00 浏览量:557 手机版 JSP综合测试笔试 1)在Java EE中,Servlet是在服务器端运行,以处理客户端请求而 ...
中国航信官笔试计算机基础,中国航信笔试题目
中国航信笔试题目收到中国航信的offer,立刻就据了,虽然很后悔,但是只能这样了,看来跟中航信无缘了.提供经验攒人品. 笔试挺简单的,就是50分的公务员考题和50分的技术类题目,全是选择题,公务员的 ...
C#与.NET程序员面试宝典 1.4.3 笔试（举例微软、雅虎笔试题目）
笔试主要考察应聘者掌握基础知识的扎实程度,以及解决问题的思考方式.笔试是程序员应聘过程中最关键的.也是难度最大的一个环节.在激烈的求职竞争中,想顺利漂亮地完成笔试题目.躲过面试官布下的种种" ...
linux常用shell命令面试,shell经典笔试题目总结
shell经典笔试题目总结守望者整理了一些高手的博客记录的shell面试题分享给大家,有些比较有意思,帮助大家面试或则学习shell编程的学习例子一文件内容如下: 100 a 1 ...
IT：银行类金融科技岗笔试习题集合—各大行(工商+建设+农业+浦发+招商+平安+人民+邮政银行)计算机信息科技岗笔试集合(包括计算机基础知识+网络+操作系统+数据库系统原理)
IT:银行类金融科技岗笔试习题集合-各大行(工商+建设+农业+浦发+招商+平安+人民+邮政银行)计算机信息科技岗笔试集合(包括计算机基础知识+网络+操作系统+数据库系统原理) 导读:因为博主后台留言太 ...

神经网络相关的笔试题目集合（一）

神经网络相关的笔试题目集合（一）相关推荐

最新文章

热门文章