randn函数加噪声_NLP入门指南01：感知机、激活函数、损失函数

单层感知机

最简单的神经网络单元，感知机模拟生物神经元而来，有输入、输出，信号从输入流向输出。

每一个感知机都有一个输入

，一个输出

,和三个参数构成，它们分别是：

权重(weight)
偏置(bias)
激活函数(activation function)

可以这么说权重和偏差是从数据中学习的，激活函数是根据网络设计者对网络及其目标输出的直觉而精心选择的。

数学上可以表示为：

一般而言，输入可能很多，我们可以用矩阵来表示这种情况，即

和

是向量，乘积为点积

。

激活函数是一个非线性函数，本质上，感知器是线性和非线性函数的组合。

下面我们使用pytorch（1.01）实现一个简单的感知机：

import torch
import torch.nn as nn#单层感知机，数学形式为y=f(w*x+b)，w称为权重，b称为偏置，f称为激活函数（activation function），
# 其中，x和w是向量，两参数为点积形式.
class Perceptron(nn.Module):#一个单层感知机，只有一个线性层def __init__(self,input_dim):# input_dim：输入特征的大小super(Perceptron,self).__init__()self.fc1=nn.Linear(input_dim,1)def forward(self, x_in):#感知机的前向传递#x_in(torch.Tensor):输入的数据张量，符合(batch, num_features)#Returns:结果张量，符合(batch,).return torch.sigmoid(self.fc1(x_in)).squeeze_()

激活函数介绍

Sigmoid

Sigmoid是神经网络历史上最早使用的激活函数之一。它接受任何实际值，并将其压缩到0到1之间的范围内。其数学表达式为：

Pytorch代码如下：

import torch
import matplotlib.pyplot as plt
x=torch.range(-5.,5.,0.1)
y=torch.sigmoid(x)
plt.plot(x.numpy(),y.numpy())
plt.title("Sigmoid activation")
plt.show()

对于对于大多数输入，Sigmoid函数饱和非常快，这可能导致梯度变为零，或者发散到溢出，这种现象亦称为梯度消失，替补爆炸。因此，我们很少在神经网络中使用Sigmoid单元，除了在输出端使用可以利用其挤压特性解释为概率。

Tanh

Tanh函数类似Sigmoid但是数学形式上存在极大不同。

数学表达式为：

tanh和sigmoid一样，也是一个“挤压”函数，只是它将一组实数值从

映射到范围

。

Pytorch代码如下：

import torch
import matplotlib.pyplot as plt
x=torch.range(-5.,5.,0.1)
y=torch.tanh(x)
plt.plot(x.numpy(),y.numpy())
plt.title("tanh activation")
plt.show()

ReLu

ReLU(发音为ray-luh)代表整流线性单元。这可以说是最重要的激活函数。它的数学形式为：

ReLU单元所做的只是将负值削波为零。

import torch
import matplotlib.pyplot as plt
import  torch.nn as nn
relu=nn.ReLU()
x=torch.range(-5.,5.,0.1)
y=relu(x)
plt.plot(x.numpy(),y.numpy())
plt.title("ReLu activation")
plt.show()

ReLU的削波效应有助于解决梯度消失问题，但是也带来了一个问题，随着时间的推移，网络中的某些输出可能会变为零，并且永远不会恢复。为了解决这个问题，目前提出了Leaky ReLU（泄露ReLu）和Parametric ReLU (PReLU)，其中泄漏系数a是学习的参数。

数学形式为：

Pytorch代码为：

import torch
import matplotlib.pyplot as plt
import  torch.nn as nn
prelu=nn.PReLU(num_parameters=1)
x=torch.range(-5.,5.,0.1)
y=prelu(x)
plt.plot(x.detach().numpy(),y.detach().numpy())
plt.title("PReLU activation")
plt.show()

SoftMax

SoftMax函数将每个单元的输出压缩到0到1之间,SoftMax操作还将每个输出除以所有输出的总和，从而得出k个可能类别的离散概率分布:

结果概率加起来都是1。这对于解释分类任务的输出非常有用，因此这种转换通常与概率训练目标配对，例如分类交叉熵。

Pytorch代码如下：

import torch
import  torch.nn as nn
softmax=nn.Softmax(dim=1)
x=torch.rand(1,3)
y=softmax(x)print(x)
print(y)
print(torch.sum(y,dim=1))# tensor([[0.2850, 0.5766, 0.5145]])
# tensor([[0.2781, 0.3722, 0.3498]])
# tensor([1.])

损失函数

MSELoss() 均方差损失函数

对于网络输出

和目标

是连续值的回归问题，一个常见的损失函数是均方误差(MSE),均方误差只是预测值和目标值之间差值的平方的平均值。

Pytorch代码：

import torch
import  torch.nn as nnmse_loss=nn.MSELoss()
outputs=torch.randn(3,5,requires_grad=True)
targets=torch.randn(3,5)
loss=mse_loss(outputs,targets)
print( loss )# tensor(1.1535, grad_fn=<MseLossBackward>)

CrossEntropyLoss() 分类交叉熵损失函数

Categorical Cross-Entropy Loss，分类交叉熵损失函数，分类交叉熵损失通常用于多类分类设置，其中输出被解释为类成员概率的预测。

其中目标

是一个由n个元素组成的向量，代表着在所有类的概率分布，当，只有一种类是正确的话，这个向量将会变成One-hot向量。

网络的输出

也是n个元素的向量，但代表网络对多项式分布的预测。分类交叉熵将比较这两个向量

来测量损失。

Pytorch代码如下：

import torch
import torch.nn as nnce_loss=nn.CrossEntropyLoss()
outputs=torch.randn(3,5,requires_grad=True)
targets=torch.tensor([1,0,3],dtype=torch.int64)
loss=ce_loss(outputs,targets)
print(loss)#tensor(1.1253, grad_fn=<NllLossBackward>)

BCELoss() 二元交叉熵损失函数

在我们有多个类的分类问题时候，分类交叉熵损失函数非常有用。但是有时，我们的任务仅仅包括区分两个类别——也称为二元分类。对于这种情况，使用二元交叉熵损失是有效的。

Pytorch代码：

import torch
import torch.nn as nnbce_loss=nn.BCELoss()
probabilities=torch.sigmoid(torch.randn(4,1,requires_grad=True))
targets=torch.tensor([1,0,1,0],dtype=torch.float32).view(4,1)
loss=bce_loss(probabilities,targets)
print(loss)#tensor(1.6178, grad_fn=<BinaryCrossEntropyBackward>)

由此第一节我们便介绍到这里。