如何从NumPy直接创建RNN?
木易 发自 凹非寺
量子位 报道 | 公众号 QbitAI
使用成熟的Tensorflow、PyTorch框架去实现递归神经网络(RNN),已经极大降低了技术的使用门槛。
但是,对于初学者,这还是远远不够的。知其然,更需知其所以然。
要避免低级错误,打好理论基础,然后使用RNN去解决更多实际的问题的话。
那么,有一个有趣的问题可以思考一下:
不使用Tensorflow等框架,只有Numpy的话,你该如何构建RNN?
没有头绪也不用担心。这里便有一项教程:使用Numpy从头构建用于NLP领域的RNN。
可以带你行进一遍RNN的构建流程。
初始化参数
与传统的神经网络不同,RNN具有3个权重参数,即:
输入权重(input weights),内部状态权重(internal state weights)和输出权重(output weights)
首先用随机数值初始化上述三个参数。
之后,将词嵌入维度(word_embedding dimension)和输出维度(output dimension)分别初始化为100和80。
输出维度是词汇表中存在的唯一词向量的总数。
hidden_dim = 100
output_dim = 80 # this is the total unique words in the vocabulary
input_weights = np.random.uniform(0, 1, (hidden_dim,hidden_dim))
internal_state_weights = np.random.uniform(0,1, (hidden_dim, hidden_dim))
output_weights = np.random.uniform(0,1, (output_dim,hidden_dim))
变量prev_memory指的是internal_state(这些是先前序列的内存)。
其他参数也给予了初始化数值。
input_weight梯度,internal_state_weight梯度和output_weight梯度分别命名为dU,dW和dV。
变量bptt_truncate表示网络在反向传播时必须回溯的时间戳数,这样做是为了克服梯度消失的问题。
prev_memory = np.zeros((hidden_dim,1))
learning_rate = 0.0001
nepoch = 25
T = 4 # length of sequence
bptt_truncate = 2
dU = np.zeros(input_weights.shape)
dV = np.zeros(output_weights.shape)
dW = np.zeros(internal_state_weights.shape)
前向传播
输出和输入向量
例如有一句话为:I like to play.,则假设在词汇表中:
I被映射到索引2,like对应索引45,to对应索引10、**对应索引64而标点符号.** 对应索引1。
为了展示从输入到输出的情况,我们先随机初始化每个单词的词嵌入。
input_string = [2,45,10,65]
embeddings = [] # this is the sentence embedding list that contains the embeddings for each word
for i in range(0,T):x = np.random.randn(hidden_dim,1)embeddings.append(x)
输入已经完成,接下来需要考虑输出。
在本项目中,RNN单元接受输入后,输出的是下一个最可能出现的单词。
用于训练RNN,在给定第t+1个词作为输出的时候将第t个词作为输入,例如:在RNN单元输出字为“like”的时候给定的输入字为“I”.
现在输入是嵌入向量的形式,而计算损失函数(Loss)所需的输出格式是独热编码(One-Hot)矢量。
这是对输入字符串中除第一个单词以外的每个单词进行的操作,因为该神经网络学习只学习的是一个示例句子,而初始输入是该句子的第一个单词。
RNN的黑箱计算
现在有了权重参数,也知道输入和输出,于是可以开始前向传播的计算。
训练神经网络需要以下计算:
其中:
U代表输入权重、W代表内部状态权重,V代表输出权重。
输入权重乘以input(x),内部状态权重乘以前一层的激活(prev_memory)。
层与层之间使用的激活函数用的是tanh。
def tanh_activation(Z):return (np.exp(Z)-np.exp(-Z))/(np.exp(Z)-np.exp(-Z)) # this is the tanh function can also be written as np.tanh(Z)
def softmax_activation(Z):e_x = np.exp(Z - np.max(Z)) # this is the code for softmax function return e_x / e_x.sum(axis=0)
def Rnn_forward(input_embedding, input_weights, internal_state_weights, prev_memory,output_weights):forward_params = []W_frd = np.dot(internal_state_weights,prev_memory)U_frd = np.dot(input_weights,input_embedding)sum_s = W_frd + U_frdht_activated = tanh_activation(sum_s)yt_unactivated = np.asarray(np.dot(output_weights, tanh_activation(sum_s)))yt_activated = softmax_activation(yt_unactivated)forward_params.append([W_frd,U_frd,sum_s,yt_unactivated])return ht_activated,yt_activated,forward_params
计算损失函数
之后损失函数使用的是交叉熵损失函数,由下式给出:
def calculate_loss(output_mapper,predicted_output):total_loss = 0layer_loss = []for y,y_ in zip(output_mapper.values(),predicted_output): # this for loop calculation is for the first equation, where loss for each time-stamp is calculatedloss = -sum(y[i]*np.log2(y_[i]) for i in range(len(y)))loss = loss/ float(len(y))layer_loss.append(loss) for i in range(len(layer_loss)): #this the total loss calculated for all the time-stamps considered together. total_loss = total_loss + layer_loss[i]return total_loss/float(len(predicted_output))
最重要的是,我们需要在上面的代码中看到第5行。
正如所知,ground_truth output(y)的形式是[0,0,….,1,…0]和predicted_output(y^hat)是[0.34,0.03,……,0.45]的形式,我们需要损失是单个值来从它推断总损失。
为此,使用sum函数来获得特定时间戳下y和y^hat向量中每个值的误差之和。
total_loss是整个模型(包括所有时间戳)的损失。
反向传播
反向传播的链式法则:
如上图所示:
Cost代表误差,它表示的是y^hat到y的差值。
由于Cost是的函数输出,因此激活a所反映的变化由dCost/da表示。
实际上,这意味着从激活节点的角度来看这个变化(误差)值。
类似地,a相对于z的变化表示为da/dz,z相对于w的变化表示为dw/dz。
最终,我们关心的是权重的变化(误差)有多大。
而由于权重与Cost之间没有直接关系,因此期间各个相对的变化值可以直接相乘(如上式所示)。
RNN的反向传播
由于RNN中存在三个权重,因此我们需要三个梯度。input_weights(dLoss / dU),internal_state_weights(dLoss / dW)和output_weights(dLoss / dV)的梯度。
这三个梯度的链可以表示如下:
所述dLoss/dy_unactivated代码如下:
def delta_cross_entropy(predicted_output,original_t_output):li = []grad = predicted_outputfor i,l in enumerate(original_t_output): #check if the value in the index is 1 or not, if yes then take the same index value from the predicted_ouput list and subtract 1 from it. if l == 1:#grad = np.asarray(np.concatenate( grad, axis=0 ))grad[i] -= 1return grad
计算两个梯度函数,一个是multiplication_backward,另一个是additional_backward。
在multiplication_backward的情况下,返回2个参数,一个是相对于权重的梯度(dLoss / dV),另一个是链梯度(chain gradient),该链梯度将成为计算另一个权重梯度的链的一部分。
在addition_backward的情况下,在计算导数时,加法函数(ht_unactivated)中各个组件的导数为1。例如:dh_unactivated / dU_frd=1(h_unactivated = U_frd + W_frd),且dU_frd / dU_frd的导数为1。
所以,计算梯度只需要这两个函数。multiplication_backward函数用于包含向量点积的方程,addition_backward用于包含两个向量相加的方程。
def multiplication_backward(weights,x,dz):gradient_weight = np.array(np.dot(np.asmatrix(dz),np.transpose(np.asmatrix(x))))chain_gradient = np.dot(np.transpose(weights),dz)return gradient_weight,chain_gradientdef add_backward(x1,x2,dz): # this function is for calculating the derivative of ht_unactivated functiondx1 = dz * np.ones_like(x1)dx2 = dz * np.ones_like(x2)return dx1,dx2def tanh_activation_backward(x,top_diff):output = np.tanh(x)return (1.0 - np.square(output)) * top_diff
至此,已经分析并理解了RNN的反向传播,目前它是在单个时间戳上实现它的功能,之后可以将其用于计算所有时间戳上的梯度。
如下面的代码所示,forward_params_t是一个列表,其中包含特定时间步长的网络的前向参数。
变量ds是至关重要的部分,因为此行代码考虑了先前时间戳的隐藏状态,这将有助于提取在反向传播时所需的信息。
def single_backprop(X,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s):# inlide all the param values for all the data thats thereW_frd = forward_params_t[0][0] U_frd = forward_params_t[0][1]ht_unactivated = forward_params_t[0][2]yt_unactivated = forward_params_t[0][3]dV,dsv = multiplication_backward(output_weights,ht_activated,dLo)ds = np.add(dsv,diff_s) # used for truncation of memory dadd = tanh_activation_backward(ht_unactivated, ds)dmulw,dmulu = add_backward(U_frd,W_frd,dadd)dW, dprev_s = multiplication_backward(internal_state_weights, prev_s ,dmulw)dU, dx = multiplication_backward(input_weights, X, dmulu) #input weightsreturn (dprev_s, dU, dW, dV)
对于RNN,由于存在梯度消失的问题,所以采用的是截断的反向传播,而不是使用原始的。
在此技术中,当前单元将只查看k个时间戳,而不是只看一次时间戳,其中k表示要回溯的先前单元的数量。
def rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights):T = 4# we start the backprop from the first timestamp. for t in range(4):prev_s_t = np.zeros((hidden_dim,1)) #required as the first timestamp does not have a previous memory, diff_s = np.zeros((hidden_dim,1)) # this is used for the truncating purpose of restoring a previous information from the before levelpredictions = memory["yt" + str(t)]ht_activated = memory["ht" + str(t)]forward_params_t = memory["params"+ str(t)] dLo = delta_cross_entropy(predictions,output_t[t]) #the loss derivative for that particular timestampdprev_s, dU_t, dW_t, dV_t = single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s_t)prev_s_t = ht_activatedprev = t-1dLo = np.zeros((output_dim,1)) #here the loss deriative is turned to 0 as we do not require it for the turncated information.# the following code is for the trunated bptt and its for each time-stamp. for i in range(t-1,max(-1,t-bptt_truncate),-1):forward_params_t = memory["params" + str(i)]ht_activated = memory["ht" + str(i)]prev_s_i = np.zeros((hidden_dim,1)) if i == 0 else memory["ht" + str(prev)]dprev_s, dU_i, dW_i, dV_i = single_backprop(embeddings[t] ,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,dprev_s,prev_s_i)dU_t += dU_i #adding the previous gradients on lookback to the current time sequence dW_t += dW_idV += dV_t dU += dU_tdW += dW_treturn (dU, dW, dV)
权重更新
一旦使用反向传播计算了梯度,则更新权重势在必行,而这些是通过批量梯度下降法
def gd_step(learning_rate, dU,dW,dV, input_weights, internal_state_weights,output_weights ):input_weights -= learning_rate* dUinternal_state_weights -= learning_rate * dWoutput_weights -=learning_rate * dVreturn input_weights,internal_state_weights,output_weights
训练序列
完成了上述所有步骤,就可以开始训练神经网络了。
用于训练的学习率是静态的,还可以使用逐步衰减等更改学习率的动态方法。
def train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.001, nepoch=100, evaluate_loss_after=2):losses = []for epoch in range(nepoch):if(epoch % evaluate_loss_after == 0):output_string,memory = full_forward_prop(T, embeddings ,input_weights,internal_state_weights,prev_memory,output_weights)loss = calculate_loss(output_mapper, output_string)losses.append(loss)time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')print("%s: Loss after epoch=%d: %f" % (time,epoch, loss))sys.stdout.flush()dU,dW,dV = rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights)input_weights,internal_state_weights,output_weights= sgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights)return losseslosses = train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.0001, nepoch=10, evaluate_loss_after=2)
恭喜你!你现在已经实现从头建立递归神经网络了!
那么,是时候了,继续向LSTM和GRU等的高级架构前进吧。
原文链接:
https://medium.com/@rndholakia/implementing-recurrent-neural-network-using-numpy-c359a0a68a67
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
喜欢就点「在看」吧 !
如何从NumPy直接创建RNN?相关推荐
- pytorch torch.from_numpy()(从numpy数组创建一个张量,数组和张量共享相同内存)
https://pytorch.org/docs/1.1.0/torch.html?highlight=numpy#torch.from_numpy torch.from_numpy(ndarray) ...
- NumPy数组创建例程
NumPy - 数组创建例程 新的ndarray对象可以通过任何下列数组创建例程或使用低级ndarray构造函数构造. numpy.empty 它创建指定形状和dtype的未初始化数组. 它使用以下构 ...
- python 空矩阵_在NumPy中创建空数组/矩阵的方法
如何在NumPy中创建空数组/矩阵? 在添加行的情况下,你最好的选择是创建一个与数据集最终一样大的数组,然后向它添加数据 row-by-row: >>> import numpy & ...
- python dtype(0)_Python numpy,创建数组,数据类型,dtype属性
demo.py(numpy,创建数组): # coding=utf-8 import numpy as np # 使用numpy生成数组,得到ndarray的类型 t1 = np.array([1,2 ...
- 【Numpy】创建数组
简介:NumPy(Numerical Python的缩写)是一个开源的Python科学计算库.使用NumPy,就可以很自然地使用数组和矩阵.NumPy包含很多实用的数学函数,涵盖线性代数运算.傅里叶变 ...
- python创建长度为n的数组_使用numpy库创建N纬数组(ndarray)的四种创建方法
00:00 ©️北京理工嵩天 Note:Numpy是一个开源的python科学计算的基础库.下面分享ndarray创建数组的方式 1.从Python中的列表(list).元组(tuple)或列表与元组 ...
- 初识 Python 科学计算库之 NumPy(创建多维数组对象)
文章目录 参考 描述 NumPy 特点 获取 导入 多维数组对象 np.array() np.asarray() 范围 随机 概览 np.random.randn() np.random.normal ...
- 用numpy如何创建一个空数组?
导读 最近在用numpy过程中,总会不自觉的需要创建空数组,虽然这并不是一个明智的做法,但终究是可能存在这种需求的.本文简单记录3种用numpy生成空数组的方式. 我们的目标是创建一个指定列数.但空无 ...
- numpy block创建分块矩阵
文章目录 函数 示例1 示例2 分块矩阵的意思是把若干个矩阵当成元素进行组合,从而构造出更大的矩阵,和线性代数中的分块矩阵思想相同 函数 numpy.block(arrays) 官方参考链接 示例1 ...
最新文章
- Microsoft .NET Pet Shop 4 架构与技术分析
- safair浏览器页面局部滑动问题
- 分享Kali Linux 2017年第17周镜像文件
- 【交通行业】轨迹相似性度量介绍
- 关于游戏小说与学习知识的不同
- keras实例化model后,结果返回NoneType
- 精心整理全网最全Tomcat面试专题及答案(共19题,含答案解析),tomcat面试看这篇就够了!
- 特斯拉上海工厂开工 Model 3月销量有望破万
- 框架选择的原因及其说明
- subsonic orm_Hanselminutes播客132-Subsonic与Rob Conery
- 视场(FOV)补偿与分辨率(Resolution)补偿
- <爬虫> 豆瓣电影排行榜(含代码)
- rⅰd的意思_自动挡车型上的P、R、N、D、S、L是什么意思?你懂吗?
- 前高管苏箐离职,原因或在于他的“杀人”言论同样对华为自身不利
- 阿里云服务器包年包月/按量计费/抢占式实例模式选择方法
- Mono 3.2 测试NPinyin 中文转换拼音代码
- PPP点对点协议中 异步链路中0x7d用作转义字符时的过程
- 如何给一个 HTAP 数据库做基准测试?StoneDB学术分享会第4期
- java web.xml taglib_java – 在web.xml中声明JSP taglib指令
- Android 蓝牙/wifi云打印 ESC/POS热敏打印机打印(连接篇)