GLM General Language Model Pretraining with Autoregressive Blank Infilling

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

论文地址 [2103.10360v2] GLM: General Language Model Pretraining with Autoregressive Blank Infilling (arxiv.org)

ACL 2022的一篇预训练模型改进的论文，改进方向为统一NLU和NLG的预训练模型

作者来自清华，智源,MIT

看名字就感觉很大，GLM：通用语言模型，这比ULM google的统一语言模型还要能吹，摘要也说的很大，说自己模型在NLU和NLG都已经超过bert，GPT，t5等模型了，并适合各种下游任务。

主要内容：

GLM其实也沿用T5对于NLP任务的理解，都转换为text2text任务，但基于t5进行了两点改进：span shuffling 和2D positional encoding

上述模型图也很容易理解，将t5的span mask，然后预测span内容时，使用类似GPT自回归的方式进行生成，将mask的部分，接在后面，添加[START]标签，并最后尝试预测[END]标签来预测结束位置。self-attention mask类似于ULM中seq2seq部分的attention矩阵，即前面MLM部分是自编码的attention，后面LM部分是自回归的attention。同时在position embedding时，为了清洗表示自编码任务和自回归任务，使用了2D的position embeding完成该任务。

上述任务进行span mask的自回归生成，对NLU任务有很好的支持，为了进一步同时解决NLG任务，将span换为sentence-level和document-level不同长度的自回归生成任务。

fine-tuning 过程类似文本分类任务可以使用模板promt方法进行转换为text2text任务，其他也可以直接在无条件生成和有条件生成上进行fine-tune

实验：作者在在superGLUE和CNN daily和XSum数据上进行对比实验。在superGLUE上进行消融实验。

实验。在superGLUE上进行消融实验。

评价：整个模型还是很大的，不过可能受限于实验室的人力，对比实验工作量有些不够，就说自己在NLG上比其他NLG模型更好，有些不充分，整体在其他NLU任务除了SuperGLUE也没有进行实验，创新点还是有的，但模型在实际效果上能否超过经典模型还需要进行实验尝试。

GLM General Language Model Pretraining with Autoregressive Blank Infilling相关推荐

（五十）：COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining
(五十):COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining Abstract 1. I ...
face - Cross-lingual Language Model Pretraining ---- XLM
跨语言预训练模型(XLM) 摘要 Shared sub-word vocabulary 跨语言模型代码生成跨语言句子表征文章翻译文章链接: Cross-lingual Language Mode ...
【ICML 2020】REALM: Retrieval-Augmented Language Model PreTraining
知识就是力量培根背景去年可以说是语言模型快速发展的一年,BERT.XLNET.Albert等等模型不断刷新各个NLP榜单.在NLP榜单中比较引人注目的应该属于阅读理解型的任务,例如SQuAD等等 ...
XLM：Cross-lingual Language Model Pretraining（2019-1-22）
模型介绍尽管原有的BERT模型可以在上百种语言上进行预训练,语言之间的信息并不是互通的,不同的语言模型之间没有共享知识.Facebook的XLM模型克服了信息不互通的难题,将不同语言放在一起采用新的 ...
论文阅读Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval
密集文本检索的无监督语料库感知语言模型预训练 ACL2022 论文链接摘要最近的研究证明了使用微调语言模型(LM)进行密集检索的有效性.然而,密集检索器很难训练,通常需要经过精心设计的微调管道才能 ...
文本生成（一）【NLP论文复现】Unified Language Model 文本生成从未如此轻松
Unified Language Model 文本生成从未如此轻松前言 UniLM How to build UniLM Get 2D MASK Send 2D MASK to Bert 使用Uni ...
【NLP】AutoRegressive Language Model
AutoRegressive Language Model 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法.AutoRegressiv ...
UNISAR: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL
简介 Text2SQL(也称为NL2SQL)是一项将用户的自然语句转为可执行 SQL 语句的技术,对改善用户与数据库之间的交互方式有很大意义.Text2SQL的本质,是将用户的自然语言语句转化 ...
Multi-task Pre-training Language Model for Semantic Network Completion
多任务预训练语言模型用于语义网络补全 Da Li ∗ , Sen Yang †‡ , Kele Xu §¶ , Ming Yi ∗ , Yukai He ∗ , and Huaimin Wang §¶ ...

GLM General Language Model Pretraining with Autoregressive Blank Infilling

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

GLM General Language Model Pretraining with Autoregressive Blank Infilling相关推荐

最新文章

热门文章