导读

本期的关注焦点是【模型压缩】&【预训练】的7篇论文。点击文末“阅读原文”,获取正在接受盲审的论文列表。

模型压缩

Task-Agnostic and Adaptive-Size BERT Compression

本文的目标是通过压缩可以得到模型对不同大小和延迟的限制下的小模型;另外压缩后的模型是任务不可知(task agnostic)即对所有的下游任务都是通用的。为了实现这个目标,本文使用的方法是基于NAS架构搜索的方法,由于待搜索的空间非常大,对于预训练任务难度较大,本文提供了3种策略来优化。

论文链接: https://openreview.net/forum?id=wZ4yWvQ_g2y&noteId=wZ4yWvQ_g2y

Data-Aware Low-Rank Compression for Large NLP Models

本文的目标是对BERT模型中最为占用时间部分,即矩阵乘法进行优化。基于一个观察,权重矩阵本身并不是低秩矩阵,但是每一层的表示(输出)却是处于低维空间。基于这个观察本文提出了DRONE方法,通过最小化表示输出的误差而不是单纯的权重矩阵的误差,来对权重矩阵进行分解。

论文链接:https://openreview.net/forum?id=_sSHg203jSu

Speeding up Deep Learning Training by Sharing Weights and then Unsharing

本文的目标是解决深度模型中提升模型深度带来的计算复杂度提高的问题,主要针对模型中存在多个重复结构的情况,本文中则是以BERT中的transformer结构为例。本文采用的方法是首先共享所有重复结构的权重,然后达到一定条件下解除共享。

论文链接:https://openreview.net/forum?id=jz7tDvX6XYR

Dact-BERT: Increasing the Efficiency and Interpretability of BERT by Using Adaptive Computation Time

本文的目标是缩短大模型的预测阶段的耗时。本文以BERT为基础,在BERT模型中加了一个DACT结构,最终学习出来在预测节点所需要的模型深度(numbert of transformers blocks)。DACT结构原本是用于在视觉推理任务中,目标是来选择一个合适的推理的中间steps。本文将DACT结构融入BERT的transformer block中间,直接学习什么时候就可以达到预测的标准,那么在预测阶段只需要这部分子结构就可以完成预测的任务。

论文链接:https://openreview.net/forum?id=wKfXaxPist

预训练

DeBERTa: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

本文对现有的BERT模型做了改进。一组词的 Attention 不光取决于内容,还和它们的相对位置有关(比如 deep learning 挨在一起时的依赖关系比不在一起时要强)。解决预训练和精调的不匹配问题(精调时没有 MASK)。文中提出了两类策略,Disentangled Attention:增加计算 “位置-内容” 和 “内容-位置” 注意力。Enhanced Mask Decoder:用 EMD 来代替原 BERT 的 SoftMax 层预测遮盖的 Token。

论文链接:https://openreview.net/forum?id=XPZIaotutsD

SCoRe: Pre-Training for Context Representation in Conversational Semantic Parsing

为了将自然语言对话转为成形式化语言,CSP系统需要在描述对话的多回合动态变化的同时,对非结构化语言和结构化本体之间的关系进行建模。本文提出了一种新的用于CSP任务的训练方法,旨在获得表示以捕捉对话流与结构化上下文的一致性。

论文链接:https://openreview.net/forum?id=5ip8nV7F4Qn

K-PLUG: KNOWLEDGE-INJECTED PRE-TRAINED LANGUAGE MODEL FOR NATURAL LANGUAGE UNDERSTANDING AND GENERATION

虽然PLM已经在众多NLP任务中证明了有效性,但他们中的大多数并没有明确地学习特定领域的知识。在本文中,我们提出了K-PLUG,一种基于编解码转换器的知识注入的预训练语言模型,它既适用于自然语言理解任务,也适用于生成任务。具体来说,我们提出了五个具有知识意识的自我监督的预训练目标,以实现特定领域的知识学习。

  论文链接:https://openreview.net/forum?id=5WcLI0e3cAY

来自:RUC AI BOX

下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!后台回复【五件套】
下载二:南大模式识别PPT后台回复【南大模式识别】

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐两个专辑给大家:

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析


整理不易,还望给个在看!

近期必读 ICLR 2021 【模型压缩】【预训练】相关论文】相关推荐

  1. 近期必读的12篇「推荐系统」相关论文

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  2. 模型的预训练/迁移学习

    大多数情况下,我们能够用于训练模型的算力和数据都很有限,要完成一个大型神经网络的训练非常困难,因此我们希望能够尽量重复利用已经训练好的神经网络以节约训练和数据资源.如果我们在执行预测任务时,能够找到一 ...

  3. Tensorflow基于pb模型进行预训练(pb模型转CKPT模型)

    Tensorflow基于pb模型进行预训练(pb模型转CKPT模型) 在网上看到很多教程都是tensorflow基于pb模型进行推理,而不是进行预训练.最近在在做项目的过程中发现之前的大哥只有一个pb ...

  4. 刷完EMNLP 2021论文列表,我们挑出了这8篇预训练相关必读论文

    ©作者 | 王馨月 单位 | 四川大学本科生 研究方向 | 自然语言处理 VG-GPLMs 论文标题: Vision Guided Generative Pre-trained Language Mo ...

  5. ICLR 2020| VL-BERT:预训练视觉-语言模型

    今天介绍中国科学技术大学和微软亚洲研究院朱西洲老师团队在ICLR2020的论文,该研究提出了一种新的图形神经网络的几何聚合方式,其核心思想是:在bert的基础上为视觉-语言相关任务做预训练. VL-B ...

  6. bert系列模型继续预训练(Pytorch)

    1.前言 在数据脱敏比赛或者某些垂类领域中,使用该领域的文本继续预训练,往往可以取得一个更好的结果.这篇文章主要讲我目前使用过的两种预训练方法. 2.两种训练框架 (1)采用transformer中T ...

  7. 预训练语言模型论文分类整理:综述、基准数据集、PLM的设计和分析

    ©作者 | 王晓磊 学校 | 中国人民大学博士生 研究方向 | 对话系统 1. 引言 近年来,以 BERT 和 GPT 系列为代表的大规模预训练语言模型(Pre-trained Language Mo ...

  8. 预训练语言模型论文分类整理

    © 作者|王晓磊 机构|中国人民大学高瓴人工智能学院博士生 导师|赵鑫教授 研究方向 | 对话系统 1. 引言 近年来,以 BERT 和 GPT 系列为代表的大规模预训练语言模型(Pre-traine ...

  9. ICLR 2021 | 腾讯 AI Lab 入选论文解读

    本文转载自腾讯AI实验室. ICLR(International Conference on Learning Representations),即国际学习表征会议,由深度学习三巨头之二的 Yoshu ...

  10. ICLR 2021 | 腾讯 AI Lab 入选论文

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:腾讯AI Lab微信(tencent_ailab) AI博士 ...

最新文章

  1. 批量修改编码格式小工具
  2. 【使用递归玩通关汉诺塔游戏】算法01-递归(斐波那契数列、汉罗塔问题)-java实现
  3. 【Vue】Docker + Nginx 部署 Vue3.0 项目
  4. 房贷是不是越多越久越好?
  5. 消息中间件 rabbitMQ
  6. C#中的值类型(value type)与引用类型(reference type)的区别
  7. FTP连接成功但是无法显示目录的解决方式
  8. 微服务架构师的道、法、术
  9. 明尼苏达大学研究者为bug事件致歉
  10. OutLook2016添加exchange 邮箱遇到的问题
  11. 储存卡数据怎么恢复?恢复靠它
  12. mysql和sqlite3 ios_iOS数据库存储之SQLite3
  13. 树莓派配置文件config.txt详细介绍
  14. Axure 元件属性
  15. Python 批量提取 Word 中表格内容,一键写入 Excel
  16. Motorola RSD Lite刷机详细图文教程
  17. 随机过程 Markov 链(下)
  18. Isometric terrain
  19. amd一键超频怎么用_老锅教你超频-AMD处理器篇
  20. 视频教程-HTML + CSS零基础经典教程系列-HTML5/CSS

热门文章

  1. Swagger Annotation 详解(建议收藏)
  2. fiddler修改客户端发出去的请求
  3. rel=nofollow属性--seo
  4. sencha touch 入门系列 (四)sencha touch 新建项目目录结构解析
  5. 试用EF开发WEB应用程序(15): EF Servlet, or EFSP?
  6. UVA - 11029
  7. 第三次小组实践作业小组每日进度汇报:2017-12-2
  8. redis、kafka、rabittMQ对比 (转)
  9. Zookeeper启动失败,报错 can not open chanel to 2
  10. LOJ6503. 「雅礼集训 2018 Day4」Magic(容斥原理+NTT)