GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址 [2103.10360v2] GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arxiv.org)

ACL 2022的一篇预训练模型改进的论文,改进方向为统一NLU和NLG的预训练模型

作者来自 清华,智源,MIT

看名字就感觉很大,GLM:通用语言模型,这比ULM google的统一语言模型还要能吹,摘要也说的很大,说自己模型在NLU和NLG都已经超过bert,GPT,t5等模型了,并适合各种下游任务。

主要内容

GLM其实也沿用T5对于NLP任务的理解,都转换为text2text任务,但基于t5进行了两点改进:span shuffling 和2D positional encoding

上述模型图也很容易理解,将t5的span mask,然后预测span内容时,使用类似GPT自回归的方式进行生成,将mask的部分,接在后面,添加[START]标签,并最后尝试预测[END]标签来预测结束位置。self-attention mask类似于ULM中seq2seq部分的attention矩阵,即前面MLM部分是自编码的attention,后面LM部分是自回归的attention。同时在position embedding时,为了清洗表示自编码任务和自回归任务,使用了2D的position embeding完成该任务。

上述任务进行span mask的自回归生成,对NLU任务有很好的支持,为了进一步同时解决NLG任务,将span换为sentence-level和document-level不同长度的自回归生成任务。

fine-tuning 过程类似文本分类任务可以使用模板promt方法进行转换为text2text任务,其他也可以直接在无条件生成和有条件生成上进行fine-tune

实验:作者在在superGLUE和CNN daily和XSum数据上进行对比实验。在superGLUE上进行消融实验。

实验。在superGLUE上进行消融实验。

评价:整个模型还是很大的,不过可能受限于实验室的人力,对比实验工作量有些不够,就说自己在NLG上比其他NLG模型更好,有些不充分,整体在其他NLU任务除了SuperGLUE也没有进行实验,创新点还是有的,但模型在实际效果上能否超过经典模型还需要进行实验尝试。

GLM General Language Model Pretraining with Autoregressive Blank Infilling相关推荐

  1. (五十):COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining

    (五十):COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining Abstract 1. I ...

  2. face - Cross-lingual Language Model Pretraining ---- XLM

    跨语言预训练模型(XLM) 摘要 Shared sub-word vocabulary 跨语言模型 代码生成跨语言句子表征 文章翻译 文章链接: Cross-lingual Language Mode ...

  3. 【ICML 2020】REALM: Retrieval-Augmented Language Model PreTraining

    知识就是力量 培根 背景 去年可以说是语言模型快速发展的一年,BERT.XLNET.Albert等等模型不断刷新各个NLP榜单.在NLP榜单中比较引人注目的应该属于阅读理解型的任务,例如SQuAD等等 ...

  4. XLM:Cross-lingual Language Model Pretraining(2019-1-22)

    模型介绍 尽管原有的BERT模型可以在上百种语言上进行预训练,语言之间的信息并不是互通的,不同的语言模型之间没有共享知识.Facebook的XLM模型克服了信息不互通的难题,将不同语言放在一起采用新的 ...

  5. 论文阅读Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

    密集文本检索的无监督语料库感知语言模型预训练 ACL2022 论文链接 摘要 最近的研究证明了使用微调语言模型(LM)进行密集检索的有效性.然而,密集检索器很难训练,通常需要经过精心设计的微调管道才能 ...

  6. 文本生成(一)【NLP论文复现】Unified Language Model 文本生成从未如此轻松

    Unified Language Model 文本生成从未如此轻松 前言 UniLM How to build UniLM Get 2D MASK Send 2D MASK to Bert 使用Uni ...

  7. 【NLP】AutoRegressive Language Model

    AutoRegressive Language Model 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法.AutoRegressiv ...

  8. UNISAR: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL

    简介     Text2SQL(也称为NL2SQL)是一项将用户的自然语句转为可执行 SQL 语句的技术,对改善用户与数据库之间的交互方式有很大意义.Text2SQL的本质,是将用户的自然语言语句转化 ...

  9. Multi-task Pre-training Language Model for Semantic Network Completion

    多任务预训练语言模型用于语义网络补全 Da Li ∗ , Sen Yang †‡ , Kele Xu §¶ , Ming Yi ∗ , Yukai He ∗ , and Huaimin Wang §¶ ...

最新文章

  1. 0408互联网新闻 | 区块链医疗解决方案落地应用,阿里云、支付宝共同研发;安卓全球开发者峰会将于10月23-24日在加州召开...
  2. window2003 server的一些优化设置_windows 2003
  3. java spring eventbus_spring集成guava的event bus
  4. python语言常量_python---01.各类计算机语言,python历史,变量,常量,数据类型,if条件...
  5. spss 因子分析非正定矩阵解决方案
  6. 网易云音乐APP分析
  7. win10永久设置护眼颜色
  8. 计算机标准差平方差怎么按,数学标准差公式
  9. Excel如何批量添加邮箱后缀
  10. 网站搭建需要多少钱?如何搭建比较省钱呢?
  11. 关于掉落的详细分析。
  12. 格灵深瞳将登陆科创板募资18亿,AI天才未来能否走出巨亏困局?
  13. 检查你的python代码是否符合PEP8规范
  14. 用户画像如何分析 用户画像如何获取
  15. matlab显示.mat格式多光谱图像
  16. Arduino驱动DS18B20数字温度传感器
  17. c语言hook微信dll,Hook微信 - 拦截新消息函数,获取消息内容
  18. Java码农进阶之路~JavaWeb开发入门
  19. 网页颜色选择器 - 颜色代码对照表
  20. 05 python爬虫 (58同城项目)

热门文章

  1. matlab-GUI编写简单计算器
  2. 吴恩达机器学习视频总结Day03之Logistic回归
  3. java define 宏_#define 用法总结
  4. 网络打印机识别不了工作组计算机无法访问,无法访问工作组计算机和不能共享打印机解决办法...
  5. 如何测试TCP端口通不通(四种方法)
  6. 矩形脉冲用matlab,矩形脉冲波形的占空比
  7. java rfc 二围数据_如何使用Java解析RFC 3339数据时间?
  8. 基于Flynn最小不连续相位解包裹算法
  9. 聚观早报 | iPhone已经15周岁了;美国FCC呼吁苹果谷歌下架TikTok
  10. 国家医保移动支付、处方流转SM2签名 SM44加密C#