神经网络基础模型--Logistic Regression的理论和实践

概述

Logistic Regression 即逻辑回归，属于监督学习，输入x(特征数据)，输出为0或1(显然是二分类)。为什么要用逻辑回归讲神经网络基础呢？我觉得这个相对比较简单，易懂，而且有神经网络基本都会用到的激活函数(Activation Function)。

正向传播，搭建神经网络

比如我们要给二维平面的点做分类，则输入的是特征有 $x_{1}$ , $x_{2}$ (即点的x,y坐标)。参数我们设置三个(一个特征配一个参数，再加一个biase)，这里我设为 $w_{1}$ $w_{2}$ ，在加上一个biase b。这样我们就得到了一个函数值：

$z = w_{1}x_{1} + w_{2}x_{2} + b$

我们设置值为z，则此时我们已经对原始数据进行了第一次处理，也就是得到我们第一个神经元

(注：我们也可以把参数 $w_{1}w_{2}$ 放到 $x_{1}x_{2}$ 的对应线上)

可是我们目的是为了分类0或1，也就是输出的结果起码得在0-1之间。可是我们根本不知道z的值有多大，也就无法控制范围，所以我们用一个函数来完美起到可以把结果限制到0-1范围内，这个函数是长这个样子，我们对它做个测验(->趋近于)：

当x->正无穷，值->1；

当x->负无穷时，值->0；

当x=0时，值=1/2。

大概图像长这个样子：

像这样将结果做一次函数特殊处理的，我们称之为Activation Function，记这个函数为sigmod。

因为接下来要用到它的导数，这里我推导下它的求导过程，以后记住结果就行：

这次我们第二次对数据做了处理，就可以再添加一个神经元了：

其中 $\sigma$ 这里表示sigmod，a表示它的值。

结果我们已经计算出来了，是a，那么我们怎样才能更新我们的参数呢？当然是赶紧找到损失函数啦。

我们先回顾下我们之前所用过的最简单的损失函数 $L(\hat{y},y) = \frac{1}{2}(\hat{y}-y)^{2}$ (其中 $\hat{y}$ 为预测值，y为真实值)。可是这种损失函数在参数w大于1个的时候，就很有可能出现多个极值点(比如它的函数这个样子)，而导致梯度下降法无法得到最优解。

逻辑回归损失函数是这样的 $L(\hat{y},y) = -(ylog\hat{y} + (1-y)log(1-\hat{y}))$ 。

if y=1，则 $L(\hat{y},y) = - log\hat{y}$ ，想要 $\hat{y}$ 越大，则就要 $L(\hat{y},y)$ 越小。

if y=0，则 $L(\hat{y},y) = - log(1-\hat{y})$ ，想要 $\hat{y}$ 越小，则就要 $L(\hat{y},y)$ 越小。

综上所述，要想使 $\hat{y}$ 精确地靠近y，仅仅使 $L(\hat{y},y)$ 达到最小即可。

这次就是我们的第三次也是最后一次处理数据了，所以又添加了一个损失函数神经元：

(其中的a就是上面的 $\hat{y}$ )

上面的整个数据传送过程，我们称之为正向传播。

反向传播，更新参数

要想通过损失函数L对 $w_{1}w_{2}$ 进行更新，就得求L的 $w_{1}w_{2}$ 上的梯度，怎么求梯度呢？很显然，链式求导呀。

我推导了下：

(上图我标出的是因为如果下面的代码dz没看懂的话瞅瞅这个)

然后我们对参数进行更新：

$w_{1} := w_{1} - \alpha dw_{1}$

$w_{2} := w_{2} - \alpha dw_{2}$

$b := b - \alpha db$

(alpha为学习率)

这个过程就是反向传播。

代码实现

生成数据

初始化数据点，绿点为1类，红点为0类。

图像显示：

规范数据(缩小到-1 — 1，不清楚原因的可以看前面的梯度下降算法的相关说明)

图为：

sigmod函数

初始化参数

初始成的数据：

画图函数

训练过程

上面讲的很详细了，应该能看懂

第一个图：

第二张图：

后面的一张图：

成功

画损失函数

损失函数图：

更多精彩内容，请关注 深度学习自然语言处理 公众号，就是下方啦！跟随小博主，每天进步一丢丢！哈哈！

神经网络基础模型--Logistic Regression的理论和实践相关推荐

逻辑回归模型(Logistic Regression, LR)基础
逻辑回归模型(Logistic Regression, LR)基础逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数, ...
逻辑回归模型(Logistic Regression, LR)基础 - 文赛平
逻辑回归模型(Logistic Regression, LR)基础 - 文赛平时间 2013-11-25 11:56:00 博客园精华区原文 http://www.cnblogs.com/ ...
逻辑回归模型(Logistic Regression)
逻辑回归符合伯努利分布.伯努利分布就是我们常见的0-1分布,即它的随机变量只取0或者1,各自的频率分别取1−p和p,当x=0或者x=1时,我们数学定义为: 所以在常规的逻辑回归模型中,只有两个类别,0 ...
LR模型(logistic regression)
分类模型本质上是线性回归模型优化目标 J(θ)=∑−yilog(h(θTxi))−(1−yi)log(1−h(θTxi))J(\theta) = \sum -y_ilog(h(\theta^Tx_ ...
机器学习--逻辑回归模型(Logistic Regression)
1.逻辑回归逻辑回归(Logistic Regression)是一种用于二元分类问题的机器学习算法.逻辑回归的目的是基于输入特征预测一个样本属于某个特定的类别的概率. 逻辑回归的核心思想是将线性回归 ...
对数几率回归（Logistic Regression）分析与实践
目录 1 对数几率回归原理分析 1.1 引入 1.2 损失函数 1.3 求最优解 2 对数几率回归实践 Logistic回归的一般过程 Logistic回归的优缺点 Logistic回归算法描述(改 ...
NLP基础|中英文词向量评测理论与实践
七月上海 | 高性能计算之GPU CUDA培训 7月27-29日三天密集式学习快速带你入门阅读全文> 正文共1416个字,6张图,预计阅读时间6分钟. 导读最近在做词向量相关工作,训练的 ...
零基础入门CV赛事，理论结合实践
Datawhale干货作者:阿水,Datawhale成员本次分享的背景是,Datawhle联合天池发布的学习赛:零基础入门CV赛事之街景字符识别.本文以该比赛为例,对计算机视觉赛事中,赛事理解和B ...
【机器学习】Logistic Regression 的前世今生（理论篇）
Logistic Regression 的前世今生(理论篇) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需转载,请附上 ...
机器学习算法（一）：逻辑回归模型（Logistic Regression, LR）
目录 1 LR 1.1 直观表述 1.2 决策边界(Decision Boundary) 2. 权值求解 2.1 代价函数(似然函数) 2.1.1 为什么损失函数不用最小二乘?即逻辑斯蒂回归损失函数为 ...

神经网络基础模型--Logistic Regression的理论和实践

神经网络基础模型--Logistic Regression的理论和实践相关推荐

最新文章

热门文章