title: DL1 - 什么神经网络和深度网络
date: 2019-08-05 02:40:57
tags: deeplearning
categories: deeplearning

Welcome to MyBlog! This article was writed to take note my study of Python on liaoxuefeng.
这是笔者在完成了cousera上的课程：Neural Networks and Deep Learning的前提下，记录下来的笔记，方便自己以后查阅资料，或者与他人分享和交流。

1. Logistic Regression as a Neural Network

神经网络是由许多神经元分层级联而成的网络，可以用来拟合各种函数。

单个神经元是一个非线性函数，它接收多个输入x，将它们线性组合后再用一个非线性激活函数作用，产生输出值 y。

1.1 单层神经网络

逻辑回归模型可以看成是最简单的神经网络，它只有一个神经元。在逻辑回归中，激活函数是逻辑函数：

线性回归模型采用的损失函数为平方损失函数，而逻辑回归采用的损失函数是交叉熵损失函数。交叉熵损失函数的形式可以用极大似然（可能性）估计算法推导得到。对于多样本的情况，逻辑回归的交叉熵损失函数是关于w和b参数的凸函数，即至多仅有一个极值点，这一优良性质使得它能够很好地被用于w和b的学习。

交叉熵损失函数：,其中yhat是指y的预测值。

1.2 梯度下降

1.3 计算图

对于存在复杂嵌套关系的函数，可以用计算图的可视化方法简化函数值和对各个参数偏导数的计算过程。计算图可以直观呈现函数中各个变量之间的依赖关系，在计算图的帮助下，应用导数计算的链式法则将非常清晰明了。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y3XATpYu-1610775154892)(https://i.loli.net/2019/09/03/ndkyUxZGgpu4TYC.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1RVrCM6b-1610775154895)(https://i.loli.net/2019/09/03/wMLHYUSvxha1mZq.png)]

2. shallow neural network

2.1 computing a neural network’s output

一个神经网络的的计算，并且输出它的细节，你会发现只是逻辑回归的多次重复。如上图，是一个双层神经网络。

如图所示，每一个神经元都表示两步

-1 线性计算

-2 非线性（激活函数）

2.2 向量化

2.3 activation function

sigmoid

较少使用，除非用在二元分类情境下

tanh

tanh是sigmoid的位移版本，一般表现都比sigmoid好，因为tanh一种具有居中数据的效果, 因此数据的平均值接近0而不是0.5。这实际上使学习下一层更容易一些。

sogmoid 函数和 tanh 函数的一个共同缺点是如果 z 很大或者很小那么这个函数的梯度或者导数或者斜率将会很小所以如果 z 非常大或者非常小那么该函数的斜率将最终接近 0 然后会减慢梯度下降的速度

ReLu(整流线性单元/线性修正单元)

ReLU的一个缺点是导数等于零，在 z 是负数的时候。但是在练习中, 有足够的隐藏单元将使 z 大于 0 对于大多数的训练样本来说, 仍旧可以学习得快些.

leaky ReLu

leaky ReLu是对ReLu的改进，当 z 为负数时, 它的导数不再为 0 它只是略微倾斜, 所以称它为 leaky ReLU。

2.3 非线性激活函数的作用？

神经网络有许多许多层, 许多隐藏层，结果发现如果您使用线性激活函数或者, 如果你没有使用激活函数, 那么无论你的神经有多少层它所做的只是计算一个线性激活函数这还不如去除所有隐藏层

除非你放一个非线性激活函数在那里, 否则你没有得到更复杂的函数, 即使你的网络再深也一样

只有一个地方可以使用线性激活函数 g (x) = z 如果你将机器学习用于回归问题

2.4 神经网络中的梯度下降

主要运动到偏导数和链式法则

2.5 随机初始化参数

如果你在神经网络中将所有权重参数矩阵w的值初始化为零由于两个隐藏单元肩负着相同的计算功能并且也将同样的影响作用在输出神经元上经过一次迭代后依然会得到相同的结果这两个隐藏神经元依然是“对称”的同样推导下去经过两次迭代三次迭代以及更多次迭代无论你将这个神经网络训练多久这两个隐藏单元仍然在使用同样的功能进行运算

w[1]=np.random.randn((2,2))0.01 这样的写法来对这个22的矩阵进行随机初始化并乘上一个非常小的数比如0.01 这样操作后你已经将权重参数矩阵赋予了非常小的随机初始值然后对于b来说 b并不会由于初始值为零而产生对称问题或称之为对称失效问题所以使用b[i]=np.zeros((2,1))将b矩阵初始值设为零

为什么是0.01 为什么我们不把它设置为100或1000？主要原因是,我们通常比较喜欢使用非常非常小的随机初始值而当你使用tanh或者sigmoid的激活函数时或者在输出层使用了sigmoid函数如果步长过大那么当你要计算激活值的时候你应该还记得z[1]=w[1]x+b[1] 而a[1]=g[1](z[1]) 所以当w非常大的时候 z（的绝对值）也相应的会非常大

3.深度神经网络

3.1 为什么深度（很多隐含层）神经网络对很多问题确实很有效？

让我们通过几个例子直观的感受

如果我们搭建一个系统用于面部识别或者面部检测那么神经网络就可以在此运用如果我们输入一张面部图片那么神经网络的第一层可以被我们认为是一个特征检测器或边缘检测器在这个例子中我正在绘制一个具有 20个隐藏神经元的神经网络可能是在这个图像上的某种算法且这20个隐藏神经元通过这些小方块可视化所以例如这个这个微型可视化图表示一个隐藏神经元正在试图找出在DMH (Depth-MHI-HOG) 中该方向的边缘位置也许这个隐藏神经元可能试图找出这幅图像中的水平边缘在哪里并且当我们在稍后的课程中讨论卷积网络时这个特殊的可视化可能会更有意义但是形式上我们可以认为神经网络的第一层就好比看一张图片并尝试找出这张图片的边缘现在让我们来找出这张图片的边缘通过将像素分组来形成边缘的方法然后可以取消检测边缘并将边缘组合在一起以形成面部的一部分所以例如我们可能有一个低神经元试图看看它是否发现了一个眼睛或者一个不同的神经元试图找到鼻子的一部分所以通过把大量的边缘放置在一起我们可以开始检测面部的不同部位然后最后通过将面部的不同部位如眼睛鼻子耳朵或下巴组合在一起然后可以尝试识别或检测不同类型的面部所以直观地我们可以将神经网络的浅层看作是简单的检测函数如 (检测) 边缘然后在神经网络的后一层将它们组合在一起以便它可以学习更多和更复杂的功能

3.2超参数

参数：W、 B

超参数：隐含层数、每一层的节点数、学习率、迭代次数、激活函数的选择、最小批大小等

在神经网络模型中我们常见的参数是W和b 而在整个学习算法模型中还有另一些参数比如学习率α 和梯度下降算法中的迭代次数决定了你神经网络模型中的参数会如何变化你还需要为学习算法设定其他超参数, 比如隐藏层的层数即L 还有隐藏神经元的个数比如n[1] n[2]等等还有激活函数的选择, 在隐藏层中可以使用ReLu或tanh或sigmoid 或其他激活函数这些参数都是你需要在学习算法中设定的,它们会影响到参数W和b的最终结果,我们称之为超参数

DL1 - Neural Networks and Deep Learning相关推荐

《Neural networks and deep learning》概览
最近阅读了<Neural networks and deep learning>这本书(online book,还没出版),算是读得比较仔细,前面几章涉及的内容比较简单,我着重看了第三章& ...
【Deep Learning 二】课程一(Neural Networks and Deep Learning)，第二周（Basics of Neural Network programming）答案
课程一(Neural Networks and Deep Learning),第二周(Basics of Neural Network programming)答案 ----------------- ...
《神经网络与深度学习》（Michael Nielsen）Neural Networks and Deep Learning习题解答汇总
<神经网络与深度学习>(Michael Nielsen)1.6节完整程序解析第二章改进神经网络的学习方法 <神经网络与深度学习>Neural Networks and Dee ...
Neural Networks and Deep Learning - 神经网络与深度学习 - Overfitting and regularization - 过拟合和正则化
Neural Networks and Deep Learning - 神经网络与深度学习 - Overfitting and regularization - 过拟合和正则化 Neural Netw ...
机器学习入门课程笔记（一）——deeplearning.ai: Neural Networks and Deep Learning
欢迎前往我的个人博客网站:mathscode.top获取更多学习资源. 所有文本内容会在知乎: MathsCode同步所有开放资源会在Github: MathsCode开放下载欢迎关注我的公众号: ...
TensorFlow官方教程《Neural Networks and Deep Learning》译（第一章）
– 更新中译自:Neural Networks and Deep Learning 成果预展示如果你能坚持阅读完本章, 你可以获得如下的成果: 上图中的命令行窗口输出为: Epoch 0: 909 ...
第一门课神经网络和深度学习(Neural Networks and Deep Learning)
第一门课神经网络和深度学习(Neural Networks and Deep Learning) 文章目录第一门课神经网络和深度学习(Neural Networks and Deep Learn ...
吴恩达深度学习笔记——神经网络与深度学习（Neural Networks and Deep Learning）
文章目录前言传送门神经网络与深度学习(Neural Networks and Deep Learning) 绪论梯度下降法与二分逻辑回归(Gradient Descend and Logist ...
《neural networks and deep learning》读书笔记
neural networks and deep learning 项目地址:https://github.com/mnielsen/neural-networks-and-deep-learning ...

DL1 - Neural Networks and Deep Learning

title: DL1 - 什么神经网络和深度网络
date: 2019-08-05 02:40:57
tags: deeplearning
categories: deeplearning

1. Logistic Regression as a Neural Network

1.1 单层神经网络

1.2 梯度下降