论文赏析[AAAI18]面向序列建模的元多任务学习
原文链接:
面向序列建模的元多任务学习 - WeiYang Bloggodweiyang.com
这篇文章是知识分析课准备讲的论文,随便拿来看一看了,简单介绍一下吧,论文是复旦邱锡鹏老师组写的。
论文地址:Meta Multi-Task Learning for Sequence Modeling
介绍
多任务学习一般的模型是共享特征表示层,也就是最底层的特征表示层是共享的,上层的神经网络都是随具体任务而不同的。但是这有个问题,比如用LSTM对句子进行建模的时候,不同的短语的组合函数是一样的,比如动词+名词、形容词+名词。但是组合函数应该定义成不同的比较好,于是这篇文章提出了针对不同的任务,不同的时刻产生不同的参数矩阵的动态参数生成方法。
本文主要有如下三个贡献点:
不同于以往的特征层的共享,本文模型提出了函数层的共享,也就是针对不同任务动态的生成不同的组合函数。
不仅对于多任务,Meta-LSTM对于单任务也有提升,因为是动态生成参数,所以每个时刻的参数都不一样,可以更好地表示不同的短语语义。
模型还可以被用作迁移学习,Meta-LSTM在训练完成后可以直接被用于新任务上面作为先验知识,而任务特定的LSTM就作为后验知识。
模型
任务介绍
本文主要在序列标注和文本分类两个任务上面做实验,而且是多任务的,序列标注包括NER和POS tagging,文本分类包括多个不同领域的文本分类。
传统模型
传统的多任务模型共享一个私有LSTM特征表示层,用这个私有LSTM学习出句子的表示,然后和词向量拼接共同输入到任务特定的公有LSTM去。具体结构如下图所示:
输出层每个任务都是不共享的,和一般的模型一样,这里就不介绍了。最终的损失函数为所有任务的损失函数加权之和。
多任务模型的训练策略如下所示:首先随机选择一个任务。然后从这个任务的数据集中随机选择一个mini-batch。然后用这个任务的mini-batch数据去训练并更新参数。不断重复以上三个过程。
这样就可以训练出一个适用于所有任务的多任务模型。
元多任务学习
传统模型只共享了特征表示层,也就是共享了私有LSTM。本文的模型创新就是通过Meta-LSTM动态生成针对每个任务、每个时刻不同的参数,然后用每个任务特定的Basic-LSTM进行编码。具体结构如下图所示:
其中Basic-LSTM的结构和普通的LSTM基本一样,唯一区别就是每个时刻的参数W和b是通过Meta-LSTM动态生成的,形式化定义如下:
因为W维度过大,计算复杂度太高,并且也容易导致过拟合,所以这里采用了SVD分解:
而这里的 就是通过Meta-LSTM动态生成的,形式化定义如下:
如果精简的表示出这个LSTM之间的关系,可以写成如下形式:
概括起来就是:Basic-LSTM上一个时刻的输出 、Meta-LSTM上一个时刻的输出 和当前时刻的单词表示 作为Meta-LSTM当前时刻的输入,产生的输出 用来产生Basic-LSTM当前时刻的参数矩阵。
Meta-LSTM主要有如下两个优点:
一个就是每个时刻的参数动态生成。
另一个就是比普通的LSTM参数数量更少,因为有SVD分解。
实验
文本分类
文本分类任务是在16个购物网站评论数据集上做的,数据集大小如下所示:
最后在大多数数据集上,Meta-LSTM都能做到最好结果,具体结果如下:
序列标注
序列标注任务是在三个数据集上面做的,两个是NER数据集,一个是POS tagging数据集,具体结果如下:
只能说比最基础的LSTM+CRF模型高了那么一丢丢吧。
总结
本文提出了一种function-level的多任务共享机制,即使用Meta-LSTM来动态产生Basic-LSTM每个时刻的参数矩阵。
看完后我在想,这个动态参数生成的机制能不能用在成分句法分析上面,例如对于top-down的chart-based模型,可以自顶向下通过Tree-LSTM动态产生每一个树结点的参数矩阵,然后用这个参数矩阵来预测结点的label和split。
论文赏析[AAAI18]面向序列建模的元多任务学习相关推荐
- NeurIPS论文解读|Decision Transformer: 通过序列建模解决离线强化学习问题
今天为大家推荐一篇2021年被NeurIPS收录的一篇论文. <Decision Transformer: reinforcement learning via sequence modelin ...
- 推荐系统遇上深度学习(九十二)-[腾讯]RecSys2020最佳长论文-多任务学习模型PLE
今天介绍的是腾讯提出的一种新的多任务学习个性化推荐模型,该论文荣获了RecSys2020最佳长论文奖,一起来学习下! 1.背景 多任务学习通过在一个模型中同时学习多个不同的目标,如CTR和CVR,最近 ...
- 序列建模:时间卷积网络取代RNN(An Empirical Evaluation of Generic Convolutional and Recurrent)论文 pdf
下载地址:https://u20150046.ctfile.com/fs/20150046-376633283 作者:Shaojie Bai, J. Zico Kolter, Vladlen Kolt ...
- AI技术内参021-SIGIR2018论文精读:如何对搜索页面上的点击行为进行序列建模?
021 | SIGIR 2018论文精读:如何对搜索页面上的点击行为进行序列建模? 今天我们将继续来精读SIGIR 2018的论文. 我们已经分享了SIGIR 2018的最佳论文,介绍了如何对推荐系统 ...
- 从顶会论文看2022年推荐系统序列建模的趋势
©作者 | 猫的薛定谔 最近看了 22 年几篇顶会的序列建模的文章,模型无不复杂高深,但细细看后,发现这些文章本质上均是输入的变化,模型只为了配合输入.看看最近的顶会是怎么玩的吧. 背景 序列建模的目 ...
- 【强化学习论文】Decision Transformer:通过序列建模进行强化学习
Article 文献题目:Decision Transformer: Reinforcement Learning via Sequence Modeling 文献时间:2021 摘要 我们引入了一个 ...
- Recsys'21 | 基于Transformers的行为序列建模
第一篇,推荐系统在NLP的肩膀上前进. 第二篇,基于Transformers的行为序列建模. 第三篇,业界基于Transformers的序列推荐建模调研. 本文提出了一整套序列推荐建模的pipelin ...
- 论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)
论文题目:面向时间感知预测的时间信息编码 摘要: 现有的知识库大多只从不包含时间信息的三元组中学习数值化嵌入方法,而忽略了知识库中的时间信息.在这篇文章中.提出了一种利用三元组发生时间的时间感知知识库 ...
- Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning 论文赏析
Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning 论文赏析 前言 Introdu ...
- 替代离线RL?Transformer进军决策领域,「序列建模」成关键
机器之心报道 机器之心编辑部 Transformer 开始进军决策领域了,它能否替代离线强化学习呢?近日,UC 伯克利.FAIR 和谷歌大脑的研究者提出了一种通过序列建模进行强化学习的 Transfo ...
最新文章
- php mssql 端口,MSSQL_SQL Server端口更改后的数据库连接方式,SQL Server端口,大家可以通过quot - phpStudy...
- 「镁客·请讲」全盛科技吕盛:将侦测、跟踪、识别、管控融于一体,做低空安全守卫者...
- php单表查询语句,单表查询
- ArcGis【基本使用】
- java与python的区别和作用_python与java用途区别有哪些
- Java zip and unzip demo
- git merge分支不合并_合并分支使用Merge还是Rebase?
- java类加载器分类_Java 类加载器的种类
- 转载:扒一扒Profiler中这几个“占坑鬼”
- vision里面pt与字号大小对应关系
- ACM 退役 碎碎念
- 电信计费系列3-短信计费
- 学计算机学生笔记本电脑实用,介绍四款适合学生党的笔记本电脑
- 服务器系统盘如何克隆,如果把云服务器系统盘克隆
- 数据结构也不是那么没意思之前序二叉树+二叉树转伪双向循环链表
- Python全栈-magedu-2018-笔记13
- 服务器Redis实例中挖矿病毒排查及处理
- 现在的程序员都是Gay
- 【优化布局】基于免疫算法求解充电站最优布局matlab代码
- 【云计算学习笔记(一)】之 虚拟化技术分类