点击下面卡片关注我呀,每天给你送来AI技术干货!

来源:机器学习算法与Python学习

项目作者:王晓智、张正

预训练语言模型(PLM)是 NLP 领域的一大热门话题。从 BERT 到 GPT2 再到 XLNet,各种预训练模型层出不穷,不少同学感叹,「大佬慢点,跟不上了……」那么,这么多预训练模型要怎么学?它们之间有什么关联?为了理清这些问题,来自清华大学的两位本科同学整理了一份预训练语言模型必读论文列表,还用图的形式整理出了这些模型之间的复杂关系。

Github 项目:https://github.com/thunlp/PLMpapers

项目的两位作者——王晓智和张正彦都是清华大学的在读本科生。其中,王晓智师从清华大学计算机系教授李涓子和副教授刘知远,研究方向为 NLP 和知识图谱中的深度学习技术;张正彦则参与过孙茂松教授指导的很多工作,如之前发布的「图神经网络必读论文列表」。此外,他还是增强版语言表征模型 ERNIE 的第一作者,并参与了多领域中文预训练模型仓库 OpenCLaP 的创建。

在这个预训练模型论文列表项目中,两位同学首先给出了一份预训练语言模型的关系图:

图中列出了 BERT、GPT、XLNet、ERNIE 等大家熟知的模型以及它们之间的关系。以 BERT 和清华大学提出的 ERNIE 为例,张正彦等人曾在论文中指出,BERT 等预训练语言模型只能学习语言相关的信息,学习不到「知识」相关的信息。因此他们提出用知识图谱增强 BERT 的预训练效果,让预训练语言模型也能变得「有文化」。在这张图中我们可以清楚地看到论文中阐述的这种关系,即 BERT+知识图谱→ERNIE(清华版)。这种简化版的展示对于初学者理清思路非常有帮助。

除了这张关系图,两位同学还给出了一份预训练语言模型必读论文列表。列表分为三个部分:模型、知识蒸馏与模型压缩以及相关分析论文。机器之心曾经介绍过其中的一些论文,读者可以根据链接找到相关论文中文介绍。

模型部分包含 34 篇论文,列表如下:

「知识蒸馏与模型压缩」部分包含 11 篇论文,列表如下:

分析部分包含 26 篇论文,列表如下:

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片,关注我呀,每天推送AI技术干货~

整理不易,还望给个在看!

预训练语言模型关系图+必读论文列表,清华荣誉出品相关推荐

  1. COLING 2022 | CogBERT:脑认知指导的预训练语言模型

    ©作者 | 陈薄文 单位 | 哈尔滨工业大学 来源 | 哈工大SCIR 论文标题: CogBERT:Cognition-Guided Pre-trained Language Model 论文作者: ...

  2. 对各大预训练语言模型的简单总结和评述(BERT/RoBERTa/ALBERT/ELECTRA/ERNIE/structBERT/SpanBERT...)

    前言 本文系对BERT及其各种优化的简单总结.如RoBERTa.ALBERT.ERNIE.SBERT.MacBERT等. 随积累,即时更新. 总结 BERT 初始预训练任务简介: MLM,即完形填空. ...

  3. CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全

    ©作者 | 巨锦浩 单位 | 复旦大学硕士生 来源 | 知识工场 研究背景 常识在各种语料库中很少被明确表达,但对于机器理解自然语言非常有用.与传统的知识库(KG)不同,常识库(CKG)中的节点通常由 ...

  4. 预训练语言模型(PLM)必读论文清单(附论文PDF、源码和模型链接)

    来源:专知 本文约3800字,建议阅读5分钟. 本文介绍清华大学NLP给出的预训练语言模型必读论文清单,包含论文的PDF链接.源码和模型等. [ 导读 ]近两年来,ELMO.BERT等预训练语言模型( ...

  5. 直播 | ACL 2021论文解读:提升预训练语言模型实体与关系理解的统一框架

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 【论文精度】AutoBERT-Zero (使用NAS搜索预训练语言模型)

    AutoBERT-Zero 论文地址: https://arxiv.org/pdf/2107.07445.pdf Abstract ​ 基于 Transformer 的预训练模型,如 BERT 在很多 ...

  7. ERICA:提升预训练语言模型实体与关系理解的统一框架

    近年来,预训练语言模型(PLM)在各种下游自然语言处理任务中表现出卓越的性能,受益于预训练阶段的自监督学习目标,PLM 可以有效地捕获文本中的语法和语义,并为下游 NLP 任务提供蕴含丰富信息的语言表 ...

  8. 论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

    论文笔记整理:陈想,浙江大学博士,研究方向为自然语言处理,知识图谱. Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pre ...

  9. 【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》

    [1] 参考论文信息   论文名称:<基于预训练语言模型的案件要素识别方法>   发布期刊:<中文信息学报>   期刊信息:CSCD   论文写作分析摘要:本文非常典型.首先网 ...

  10. 直播预告 | AAAI 2022论文解读:基于对比学习的预训练语言模型剪枝压缩

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

最新文章

  1. iOS 模仿微信的照片选择器
  2. ORM映射框架总结--数据操作(五)
  3. Verilog 中的 function
  4. handlebars.js 用 br替换掉 内容的换行符
  5. 部署安全的香港服务器注意事项
  6. java用继承编写宠物乐园_MoreThanJavaDay 5:面向对象进阶继承详解
  7. 从流量控制算法谈网络优化-TCP核心原理理解
  8. 高中关于人工智能方面的课题_2019山东人工智能教育专项课题指南选题
  9. 学习 | Node.js 之定时任务
  10. 马云还曾有过这么一段求职经历
  11. 详解CSS的Flex布局
  12. YYText的介绍和使用
  13. pthread_cond_destroy死锁卡住问题处理记录
  14. 15、Kanzi插件——通过Kanzi Engine插件创建自定义消息类型+代码解析
  15. 交换机crc错误是什么意思_OSN1800设备LDX对接S9706交换机,交换机持续有CRC错误告警...
  16. 单片机编程系列之分层设计2(怎样合理拆分子系统)
  17. 【愚公系列】2021年11月 攻防世界-进阶题-MISC-030(red_green)
  18. 阿里云学生机mysql初始密码
  19. 厉害了,我用python精确画出了北京五环
  20. Jave概述及变量总结

热门文章

  1. FreeRTOS之源码 及 移植详解
  2. 推荐iOS模拟器截图工具iOS-Simulator Cropper
  3. Ajax程序设计入门
  4. 导入别的项目到我的eclipse上出现红色感叹号问题
  5. selenium 简介 及浏览器配置
  6. 数据结构:循环链表实现约瑟夫环
  7. JS按字节截取字符长度实例
  8. VS2015中搭建lua环境
  9. myeclipse注册机,自己生成注册码
  10. SVN server