在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。

这是 PaperDaily 的第 16 篇文章

由于神经网络强大的表达能力,在 NLP 领域研究者们开始研究基于神经网络的多任务学习。大多数方法通过网络参数共享来学习任务间的关联,提升各任务效果。

本期推荐的论文笔记来自 PaperWeekly 社区用户 @robertdlut。这篇文章介绍了一个联合的多任务(joint many-task)模型,通过逐步加深层数来解决复杂任务

与传统的并行多任务学习不一样的地方在于,该文是根据任务的层次关系构建层次(POS->CHUNK->DEP->Related->Entailment)的模型进行学习每个任务有自己的目标函数,最后取得了不错的效果。该论文最后发表在了 EMNLP2017。

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:罗凌,大连理工大学博士生,研究方向为深度学习,文本分类,实体识别和关系抽取。

■ 论文 | A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks

■ 链接 | https://www.paperweekly.site/papers/1049

■ 作者 | robertdlut

该论文一作来自于东京大学,是他在 Salesforce Research 实习时完成的工作,最后发表在 EMNLP2017。

1. 论文动机

在 NLP 领域,各个任务之间有着相互联系。研究者们通过多任务学习(Multiple-Task Learning)来促进任务间互相联系,提高各个任务的性能。目前现存的主流多任务框架多使用同样深度的模型,通过参数共享的方式并行地进行多任务学习,如下图。

而在 NLP 领域中,各个任务间经常是有层级关系的,例如从词法分析到句法分析到上层的实际应用任务(例如具体任务:词性分析 POS->语块分析 CHUNK->依存句法分析 DEP->文本语义相关 Relatedness->文本蕴涵 Entailment)。

现存的多数多任务学习模型忽视了 NLP 任务之间的语言学层次关系,针对这一问题,该论文提出了一种层次增长的神经网络模型,考虑了任务间的语言学层次关系。

2. 论文方法

该论文模型的整体框架图如下所示,相比传统的并行多任务学习模型,该模型框架是依据语言学层次关系,将不同任务栈式的叠加,越层次的任务具有更深的网络结构。当前层次的任务会使用下一层次的任务输出。

在词和句法层级,每个任务分别是使用一个双向的 LSTM 进行建模。语义层级,根据前面层级任务学习到的表示,使用 softmax 函数进行分类。在训练阶段,每个任务都有自己相应的目标函数,使用所有任务训练数据,按照模型从底至顶的层次顺序,依次联合训练。

除此之外,在具体实现上,每层双向 LSTM 都用了词向量(Shortcut Connection)和前面任务的标签向量(Label Embedding)。在各个任务的目标函数里加入了级联正则化项(Successive Regularization)来使得模型不要忘记之前学习的信息。

3. 论文实验

各任务数据集:POS(WSJ),CHUNK(WSJ),DEP(WSJ),Relatedness(SICK),Entailment(SICK)。

多任务vs单任务(测试集上)

论文给出了多任务和单任务的实验结果(由于一些任务数据集存在重叠,所以没有结果 n/a),还有具体使用全部任务和任意任务的结果。可以看到相比单任务,多任务学习在所有任务上效果都得到了提升。

和主流方法进行比较(测试集上)

每个具体任务和目前主流方法(包含了并行的多任务学习方法)的比较,可以看到该论文每个任务的结果基本可以达到目前最优结果。

模型结构分析(在开发集上)

(1) shortcut 连接,输出标签向量和级联正则化项的效果

可以看到使用 shortcut 连接(Shortcut Connections, SR),输出标签向量(Label Embeddings, LE)和级联正则化(Successive Regularization, SR)能够提升任务的效果,特别是在高层的任务。

(2) 层次和平行结构的对比

ALL-3 表示的是各个任务都用三层结构,只是输出不同,相当于平行多任务学习。可以看到该文层次的结构效果更好。

(3) 任务训练顺序的影响

通过随机顺序和按照从底至顶的训练顺序结果进行比较,可以看出,从底层任务往高层任务顺序训练很重要,特别是对于高层任务。

4. 总结

该论文针对语言学层次结构,提出了层次结构的多任务学习框架。相比平行的多任务结构有更好的效果。这样的框架也可以扩展到更多高层任务应用上(例如关系抽取等)。

可以看到虽然框架思路简单,但是在实现要取得好的效果,我感觉很多论文中的细节需要注意(例如:Shortcut connections,Label Embeddings 和级联正则化项等)。论文的实验做得很详细,有些训练细节也在附加材料中给出,利于大家学习。

本文由 AI 学术社区 PaperWeekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!

我是彩蛋


 解锁新功能:热门职位推荐!

PaperWeekly小程序升级啦

今日arXiv√猜你喜欢√热门职位

找全职找实习都不是问题

解锁方式

1. 识别下方二维码打开小程序

2. 用PaperWeekly社区账号进行登陆

3. 登陆后即可解锁所有功能

职位发布

请添加小助手微信(pwbot01)进行咨询

长按识别二维码,使用小程序

*点击阅读原文即可注册

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 |阅读原文 | 查看原论文

NLP多任务学习:一种层次增长的神经网络结构 | PaperDaily #16相关推荐

  1. 多任务学习在推荐算法中的应用

    导读:我们在优化推荐效果的时候,很多时候不仅仅需要关注 CTR 指标,同时还需要优化例如 CVR ( 转化率 ).视频播放时长.用户停留时长.用户翻页深度.关注率.点赞率这些指标.那么一种做法是对每个 ...

  2. 多任务学习时转角遇到Bandit老虎机

    注:本文的正文干货转载并少量修改自大佬覃含章(知乎id同名,知乎必关的数值优化大佬啊啊)的一篇知乎回答,链接 https://www.zhihu.com/question/53381093/answe ...

  3. 最新NLP架构的直观解释:多任务学习– ERNIE 2.0(附链接)| CSDN博文精选

    作者 | Michael Ye 翻译 | 陈雨琳,校对 | 吴金笛 来源 | 数据派THU(ID:DatapiTHU) 百度于今年早些时候发布了其最新的NLP架构ERNIE 2.0,在GLUE基准测试 ...

  4. 独家 | 最新NLP架构的直观解释:多任务学习– ERNIE 2.0(附链接)

    作者:Michael Ye 翻译:陈雨琳 校对:吴金笛 本文约1500字,建议阅读7分钟. 本文将介绍多任务学习. 科技巨头百度于今年早些时候发布了其最新的NLP架构ERNIE 2.0,在GLUE基准 ...

  5. 【NLP】文献翻译5——用自我监督的多任务学习学习特定模式的表征,用于多模态情感分析

    Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal S ...

  6. 自然语言处理(NLP)的发展历程,神经语言模型多任务学习介绍, ECM模型介绍等

    1读前准备 读本篇论文之前我先调研了并理解了什么是自然语言处理(自然语言是人类交流信息的工具.很多自然语言处理问题都可以等同于通信系统中的解码问题–一个人根据接收到的信息,去猜测发话人要表达的意思)以 ...

  7. 属性与意图识别_一种基于多任务学习的意图与槽位联合识别方法与流程

    本发明属于人机交互领域,涉及自然语言处理.垂直对话系统等,特别涉及一种基于多任务学习的意图与槽位联合识别方法. 背景技术: 意图识别和槽位识别可以将垂直对话系统中用户输入文本转化为语义表示,为系统采取 ...

  8. 如何阅读书籍 学习、使用技术的四种层次

    如何阅读书籍 摘要 这篇文章从如何阅读书籍出发,简单讨论了如何选择书籍.是否阅读原版和阅读数量这几个常见问题,然后自己的阅读问题进行了分析和总结. 注意 "如何阅读"指" ...

  9. 深度学习与自然语言处理教程(6) - 神经机器翻译、seq2seq与注意力机制(NLP通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...

最新文章

  1. 【洛谷 1991】 无线通讯网
  2. SharePoint 2010 文档库添加文件icon
  3. opencv 检测 键盘_ubuntu+vscode 测试运行opencv
  4. hdu 5312 数学
  5. verycd重整——《TrainSignal视频教程》(TrainSignal)[ISO]
  6. 【MFC学习笔记-作业7-小型画图软件】【】
  7. java+整合handwrite_Java
  8. 外卖点餐系统源码|餐饮点餐源码开发
  9. sublime教程以及python环境的配置(二)常用插件安装和Boxy主题配置
  10. Graylog 3.3.8安装笔记(yum,docker,docker-compose)
  11. 从一份外卖报告折射出的就业新选择
  12. c语言-简单输出整数
  13. android获取apk名称_apk是什么文件
  14. 2020年9月-上海-bilibli(B站总部)面试题
  15. 如何在Google Chrome浏览器中清除浏览历史记录
  16. Bhuman应用篇——带球及踢球
  17. 目前住院病人主要由护士护理,这样做不仅需要大量护士
  18. OptiView® XG 网络分析平板电脑特性(上)
  19. 飞行的小鸟论文python_80+行代码实现简单的“飞行的小鸟”游戏
  20. Manifest基本

热门文章

  1. SpringBoot入门教程(十五)集成Druid
  2. [luogu 2324][SCOI 2005] 骑士精神 (A*算法)
  3. python 合并重叠数据
  4. django之允许外部机器访问
  5. 2.scala控制结构、函数、异常处理
  6. bzoj 1028: [JSOI2007]麻将
  7. 使用前端框架Foundation 4来帮助简化响应式设计开发
  8. python主进程 子进程_pool主进程捕获子进程异常
  9. java 中如何实现多进程_在Java中可以使用哪些方法来实现Java的多进程运行模式?...
  10. drawrect java_对于drawRect使用,谨慎使用!