pytorch中的torch.nn.LSTM解析

文章目录

前言
多层LSTM
权重形状
batch_first
输入形状
输出形状
参考

前言

本文记录一下使用LSTM的一些心得。

多层LSTM

多层LSTM是这样：

而不是这样：

我们可以控制如下的参数来控制：

权重形状

上面的权重除了偏置可以归结为3类，即U（输入专用，就是上面那些含有i的W）,V（目标输出专用）,W（隐藏层之间专用，含有h的W）。不过，这里没有目标输出。所以只有两大类，各四个，一共8个。

U类矩阵的形状都是[input_size,hidden_size]
W类矩阵的形状都是[hidden_size,hidden_size]

为什么官方不写出V呢？因为这个东西你可以自己搞定，因为取决于你怎么定义。你可以直接将 $h$ 作为该位置的输出，也可以再乘以一个线性层 $W_v$ 作为该位置的输出，比较灵活，所以官方干脆不定义，让你自己搞定接下来应该怎么办。

batch_first

LSTM或者RNN系列的模型默认batch_first=False，即batch在第二个维度。因此在将数据送入LSTM之前，x的形状你必须确保为：(seq_len,batch_size,emb_size)。通常，我们不太习惯，所以一般我们使用batch_first=True这个参数，变成batch在第一个维度。

输入形状

Inputs: input, (h_0, c_0)

其中
1.input形状为：(seq_len,batch_size,embedding_size)。就是下面的这个黑色箭头的输入。

2.h_0是指如下黄色的东西，初始隐状态，形状是(1，batch_size,hidden_size)

3.c_0是LSTM特有的，即细胞。和上面一样，形状是(1，batch_size,hidden_size)。

输出形状

Outputs: output, (h_n, c_n)

1.output不是目标输出y,而是我们得到的一系列隐状态（这个output指的是lstm层），其形状为：（seq_len,batch_size,hidden_size)

2.h_n，即最后一个隐状态，上面output是隐状态序列，所以这个理论上是多余，可以通过Output切片得到。即h_n=output[len(output)-1]。可想而知，其形状为：（1，batch_size,hidden_size)

3.c_n，即最后一个细胞状态，这个不是多余的。不过其形状仍然为（1，batch_size,hidden_size)。

lstm=nn.LSTM(3,2)#embedding_size=3,hidden_size=2
a=torch.rand(2,1,3)#长度为2的句子，seq_len=2,batch_size=1，embedding_size=3
lstm(a)#我们没有给出(h_0,c_0)默认即为0.

测试验证：

我们发现，两个红色箭头是一样的，这验证了h_n是多余的，可以由前者切片得到。

参考

本文总参考是：pytorch的官方文档https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html?highlight=lstm#torch.nn.LSTM。