【多任务学习】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts KDD18

在模型层面理解，我们在单目标中经常会花费大量的精力“找强特征”和“删冗余特征”输入到模型，提高模型效果。那么切换到MTL时，每个task所需要的“强特”和排斥的“负特”是不同的，MTL的目的就是对每个task 尽可能的找到他们的强特和负特。
在优化层面理解，多个task同时优化模型，某些task会主导了模型的优化过程，淹没了其他task。
从监督信号的角度理解，MTL不仅仅是任务，也是一种数据扩增，相当于每个task多了k-1个监督信号来辅助学习，一些特征可以从其他task学的更好。监督信号的质量和task间的相似性有关，不相似的task反而是噪声。
#SB、MOE、MMOE

《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》Google KDD 2018

share-bottom

多个任务共享相同的底部网络，底部网络输出一个样本的特征向量，每个子任务自己接一个小NN tower。

优点：简单，并且模型过拟合的风险小（因为能同时过拟合多个任务也是不容易的，可以说多个任务互相监督惩罚过拟合）；多任务越相关，互相补充效果越好。
缺点：如果任务之间联系不强（矛盾、冲突），那么对底层网络的优化方向可能是相反的。
底层输出：f(x)，子任务tower：$h^k_x ，每个子任务输出：，每个子任务输出：，每个子任务输出：y_x^k = h^k_x(f(x)) $

One-gate-MoE

将input分别输入给三个独立的expert（3个nn），同时将input输入到gate，gate输出每个expert被选择的概率，然后将三个expert的输出加权求和，输出给tower:
yk=hk(∑i=1ngifi(x))，y^{k}=h^{k}\left(\sum_{i=1}^{n} g_{i} f_{i}(x)\right) \text { ，} yk=hk(i=1∑ngifi(x)) ，
其中 g()g()g() 是个多分类模块，且∑i=1ng(x)i=1\sum_{i=1}^{n} g(x)_{i}=1∑i=1ng(x)i=1 ，$f_{i}(), i=1, \cdots, n 是n个expertnetwork，k表示k个任务，是n个expert network，k表示k个任务，是n个expertnetwork，k表示k个任务，h^k$表示之后的NN tower。

所以这里相当于给用input当作query，给bottom的输出加了一个attention，看公式换汤不换药，$h^k $在括号外面，这就导致不同的tower输入还是一样的，没有解决task冲突问题。

但是MOE可以解决领域适配的问题，用于cross domain：

MMOE

因此很自然，每个 $h_k $ 不要放在括号外面，不同的 hkh_khk的输入不同就好了。

所以每个task各分配一个gate，这样gate的作用不再是attention了，而是个性化的为每个task选择重要特征，过滤冗余特征了：
fk(x)=∑i=1ngik(x)fi(x)gk(x)=softmax⁡(Wgkx)\begin{aligned} f^{k}(x) &=\sum_{i=1}^{n} g_{i}^{k}(x) f_{i}(x) \\ \ \ g^{k}(x) &=\operatorname{softmax}\left(W_{gk}x\right) \end{aligned} fk(x) gk(x)=i=1∑ngik(x)fi(x)=softmax(Wgkx)
其中g就是线性变化+softmax。

这样理论上存在一种情况，gate能给每个task筛选特征，至于模型能不能优化到这个情况，不好说。

实验