少样本学习系列(二)【Model-Based Methods】

文章目录

Neural Turing Machines (NTMs)
- 读：
- 写：
Memory-augmented Neural Networks
- 读
- 写
Meta Networks
- 算法
参考

系列文章代码、数据集地址

上一节说了Metrics-Based Methods，主要是将输入编码到一个相同的特征空间，然后比较相似度。但是人类很多时候能够快速学习的原因是对以往知识、经验的利用。因此通过扩展一个记忆模块似乎也能做到少样本学习。这一节主要介绍通过模型结构的设计，来做few shot learning。

Neural Turing Machines (NTMs)

Neural Turing Machines

LSTM将记忆藏在隐藏节点(hidden state)中，这样就会存在很多问题，一个是计算的开销，另外一个就是记忆会被经常改动，并且是那种牵一发动全身地改变。

而NTM由一个controller和一个memory矩阵构成，通过特定的寻址读写机制，对相关的memory进行修改，并且易于扩展：

当给定一个输入时，controller负责依据输入对memory进行读写操作，实现记忆更新。

但是通过特定的行和列来读取memory的话，我们就没办法对整个网络求梯度了，不能使用微分算法来更新。那这样肯定不行，要想一些办法。

我们需要对外部的memory(存储器)进行选择性地读写。人的大脑工作的时候首先是聚焦注意力(记忆中很大一块，比如说你昨晚吃啥了，一般会聚焦到昨晚那一大块时间段)，然后寻找到特定的记忆(比如有啥菜)。因此有了模糊读写(blurry read and write)的概念，通过不同的权重与内存中的所有元素进行交互。

读：

假设记忆矩阵 $M_{t}$ 在step $t$ 是一个拥有 $R$ 行和 $C$ 列的内存矩阵( $C$ 代表记忆中每一行的大小)。执行读写操作的网络输出称为heads。controller输出一个attention向量，长度为 $R$ ，也称之为weight vector $w_{t})$ ，其中的每一个元素 $w_{t}(i)$ 是memory matrix第 $i$ 行的weight，weight通常都被归一化，用数学形式可表示为：

$0≤wt(i)≤1∑i=1Rwt(i)Z=1\begin{aligned} & 0 \leq w_{t}(i) \leq 1 \\ &\sum_{i=1}^{R} w_{t}(i) Z =1 \end{aligned}$

read head返回的就是记忆矩阵行的线性组合：

$rt←∑iRwt(i)Mt(i)r_{t} \leftarrow \sum_{i}^{R} w_{t}(i) M_{t}(i)$

写：

写的操作可以分为两步擦除(erasing)和添加(adding)。为了实现擦除操作，需要一个erase vector $e_{t}$ 其值在0-1之间，擦除操作可表示为：

$Mterased(i)←Mt−1(i)[1−wt(i)et]M_{t}^{\text {erased}}(i) \leftarrow M_{t-1}(i)\left[\mathbf{1}-w_{t}(i) e_{t}\right]$

当weight $w_{t}(i)$ 和 $et\mathbf{e}_{t}$ 都为1时，memory被清空，当其中任意一个为0时，则不会有任何改变，这种方式也支持多个操作任意顺序的相互叠加。记忆矩阵可用一个长度为 $C$ 的向量 $a_{t}$ 更新：

$Mt(i)←Mterased+wt(i)atM_{t}(i) \leftarrow M_{t}^{e r a s e d}+w_{t}(i) a_{t}$

寻址

读写操作的关键就在于权重矩阵 $w$ ，控制器产生权重矩阵可以分为以下四步：

content-based addressing，head产生一个长度为 $C$ 的key vector $k_{t}$ ，然后用余弦相似度度量 $k_{t}$ 与记忆矩阵 $M_{t}$ 的相似性：

$v)=\frac{u \cdot v}{\|u\| \cdot\|v\|}$

对记忆矩阵每一行都进行一样的操作再归一化可得content weight vector：

$wtc(i)=exp⁡(βtK(kt,Mt(i)))∑jexp⁡(βtK(kt,Mt(j)))w_{t}^{c}(i)=\frac{\exp \left(\beta_{t} K\left(k_{t}, M_{t}(i)\right)\right)}{\sum_{j} \exp \left(\beta_{t} K\left(k_{t}, M_{t}(j)\right)\right)}$

其中 $βt\beta_{t}$ 可控制聚焦的精度， $βt\beta_{t}$ 越大，聚焦范围就越小。(这里可以看作是找一个大块的记忆。)

location-based addressing，这里从特定的内存地址中进行读写。通过一个interpolation gate $gt∈(0,1)g_{t} \in (0,1)$ 来混合content weight vector $w_{t}^{c}$ 和上一时刻head 产生的weight vector $w_{t-1}$ 来产生gated weighting $w_{t}^{g}$ ，通过这种 $w_{t}^{g}$ 控制方式可以考虑用或者不用content weight vector：

$wtg←gtwtc+(1−gt)wt−1w_{t}^{g} \leftarrow g_{t} w_{t}^{c}+\left(1-g_{t}\right) w_{t-1}$

interpolation之后，head产生一个normalized shift weighting $s_{t}$ ，对权重进行旋转位移，比如当前的权重值关注于某一个location的memory，经过此步就会扩展到其周围的location，使得模型对周围的memory也会做出少量的读和写操作，采用循环卷积：

$w~t(i)←∑j=0R−1wtg(j)st(i−j)\tilde{w}_{t}(i) \leftarrow \sum_{j=0}^{R-1} w_{t}^{g}(j) s_{t}(i-j)$

卷积操作之后会使得权重分布趋于均匀化，这将会导致本来集中于单个位置的焦点出现发散，这里采用锐化操作，head产生一个标量 $γ≥1\gamma \geq 1$ ：

$wt(i)←w~t(i)γt∑jw~t(j)γtw_{t}(i) \leftarrow \frac{\tilde{w}_{t}(i)^{\gamma_{t}}}{\sum_{j} \tilde{w}_{t}(j)^{\gamma_{t}}}$

上述操作都是可微分的，因此可以使用微分算法对其进行优化。

Memory-augmented Neural Networks

NMT中采用了content-based addressing和location-based addressing，在MANN中只采用content-based addressing，因为只需要比较当前input是否和之前输入的input相似即可。

读

MANN中的读取操作和NTM的读取操作非常类似，不同之处在于它只采取content-based addressing的方式，先产生一个归一化的权重向量 $w_{t}^{r}$ ：

$wtr=exp⁡(K(kt,Mt(i)))∑jexp⁡(K(kt,Mt(j)))w_{t}^{r}=\frac{\exp \left(K\left(k_{t}, M_{t}(i)\right)\right)}{\sum_{j} \exp \left(K\left(k_{t}, M_{t}(j)\right)\right)}$

其中 $K ()$ 表示余弦相似性，之后与NTM类似与记忆矩阵 $M_{t}$ 加权求和即可：

$rt←∑iRwtr(i)Mt(i)r_{t} \leftarrow \sum_{i}^{R} w_{t}^{r}(i) M_{t}(i)$

写

这里采用了Least Recently Used Access (LRUA)的写入方式：

$Mt(i)←Mt−1(i)+wtw(i)ktwtu←γwt−1u+wtr+wtw\begin{aligned} M_{t}(i) & \leftarrow M_{t-1}(i)+w_{t}^{w}(i) k_{t} \\ w_{t}^{u} & \leftarrow \gamma w_{t-1}^{u}+w_{t}^{r}+w_{t}^{w} \end{aligned}$

其中 $w_{t}^{u}$ 是使用权重，由读权重 $w_{t}^{r}$ 和写权重 $w_{t}^{w}$ ，和上一时刻的使用权重 $w_{t}^{u}$ 组成， $γ\gamma$ 为折扣因子。

$w_{t}^{w}$ 由上一时刻的读权重 $w_{t}^{r}$ (表示last used location)和最少使用(least-used weight)权重 $w^{lu}$ 基于参数 $α\alpha$ 组成：

$wtw=σ(α)wt−1r+(1−σ(α))wt−1luw_{t}^{w}=\sigma(\alpha) w_{t-1}^{r}+(1-\sigma(\alpha)) w_{t-1}^{l u}$

这里就剩下最后一个问题，最少使用权重 $w^{lu}$ 怎么定义。定义如下：

$wtlu=1wtu(i)≤m(wtu,n)w_{t}^{l u}=\mathbf{1}_{w_{t}^{u}(i) \leq m\left(w_{t}^{u}, n\right)}$

其中 $m(wtu,n)m\left(w_{t}^{u},n\right)$ 表示 $w_{t}^{u}$ 中第 $n$ 个最小的元素，只有当期够小才为1，否者为0。

Meta Networks

传统的神经网络通过stochastic gradient descent方式做更新，如果batch_size为1的话，更新就会很慢。如果train一个网络去预测目标任务的网络参数的话，这样的学习起来就会很快，称之为fast weights。由此我们可以知道meta network由两部分组成：

meta-learner：它所要做的事情就是获取不同task的通用的知识。可以看作是一个embeddings function，判断两个不同的数据之间的差别。
base-learner：期望去学一个target task，就是最常见的学习算法，比如做个分类这样。

开始之前定义一些术语：

Support set：从训练集采样得到的一些数据点 $(x, y)$ 。
query set：同样也是从训练集采样得到的一些数据点 $(x, y)$ ，作为query set。
Embedding function $fθf_{\theta}$ ：meta-learner的一部分，与siamese network类似，用于预测两个输入是否属于同一类。
Base-learner model $gϕg_{\phi}$ ：就是一个需要处理完整任务的学习算法。
$θ+\theta^{+}$ ：Embedding function $fθf_{\theta}$ 的fast weight，由一个LSTM $F_{w}$ 产生。
$ϕ+\phi^{+}$ ：Base-learner model $gϕg_{\phi}$ 的fast weight，由一个网络 $G_{v}$ 产生。

可以看出slow weights $(θ,ϕ)(\theta,\phi)$ 构成了meta-learners和base learners。两个不同的网络 $F_{w}$ 和 $G_{v}$ 生成fast weight。

meta networks的网络架构如下所示：

可以看到meta network由base learner和meta-learner组成，meta-learner给配了一个外部memory(external memory)。

算法

整个训练数据被分为两部分support set $S=(xi′,yi′)S=(x_{i}^{\prime},y_{i}^{\prime})$ ，和query set $U=(x_{i},y_{i})$ ，我们要做的事情就是学四个网络( $f(θ),g(ϕ),Fw,Gvf(\theta),g(\phi),F_{w},G_{v}$ )的参数。

从support set随机采样K个样本对。循环将其中每个样本1-K送入embedding function $f(θ)f(\theta)$ ，并计算cross-entropy loss $L_{e m b e d d i n g s}$ 。
计算得到的cross-entropy loss $L_{e m b e d d i n g s}$ 再经过LSTM计算 $θ+\theta^{+}$ ： $θ+=Fw(∇Lembeddings)\theta^{+}=F_{w}\left(\nabla L_{\text {embeddings}}\right)$ 。
之后对于support set中的每个样本计算fast weight，同时基于embeddings更新external memory。首先循环样本1-K，经过base learner $gϕ(xi)g_{\phi}(x_{i})$ ，计算loss $L_{i}^{task}$ ，对其求梯度，然后求fast weight $ϕi+=Gv(∇Litas⁡k)\phi_{i}^{+}=G_{v}\left(\nabla L_{i}^{\operatorname{tas} k}\right)$ 。然后将 $ϕi+\phi_{i}^{+}$ 存储在memory $M$ 的第 $i$ 个location。

然后将fast和slow weight合并：

support sample再经过这个网络得到 $ri′=fθ,θ+(xi′)r_{i}^{\prime}=f_{\theta, \theta^{+}}\left(x_{i}^{\prime}\right)$ ，将 $ri′r_{i}^{\prime}$ 存储在memory $R$ 的第 $i$ 个location。

基于query set $U=(x_{i},y_{i})$ 来构造损失函数，开始时 $L_{train}=0$ 。从1-L循环所有样本：拿query set的数据经过embeddings network $rj=f^θ,θ+(xj)r_{j}=\hat{f}_{\theta, \theta^{+}}\left(x_{j}\right)$ ，然后计算其与support set中的样本经过embeddings的输出，也就是memory R的相似度 $aj=cosine⁡(R,rj)a_{j}=\operatorname{cosine}\left(R, r_{j}\right)$ 。基于此计算base learner的fast weight $ϕ+\phi^{+}$ ： $ϕj+=softmax⁡(aj)TM\phi_{j}^{+}=\operatorname{softmax}\left(a_{j}\right)^{T} M$ ，其中 $M$ 是support set samples。然后计算loss $L_{i}^{task}$ 。 $Ltrain←Ltrain+Ltask(gϕ,ϕ+(xi),yi)L_{t r a i n} \leftarrow L_{t r a i n}+L^{t a s k}\left(g_{\phi, \phi^{+}}\left(x_{i}\right), y_{i}\right)$ 。
用 $L_{t r a i n}$ 更新 $f(θ),g(ϕ),Fw,Gvf(\theta),g(\phi),F_{w},G_{v}$ 网络参数。

matching networks和LSTM meta-learners其实是使用了相同的策略，都有利用额外的信息，一个是contextual embeddings，一个是meta information，期望抽取出一些对于整个task比较重要的信息。

参考

NTM-Lasagne: A Library for Neural Turing Machines in Lasagne
Neural Turing Machines