【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络
读论文是做AI的人必需要下的功夫,所以咱们开通了专栏《每周NLP论文推荐》。本着有三AI的一贯原则,即系统性学习,所以每次的论文推荐也会是成系统的,争取每次能够把一个领域内的“故事”基本说清楚。
先通过无监督学习在大规模语料上进行Pre-Training,再通过Fine-tune的方式,在一定语料上进行有监督学习,进行下游任务的学习,是NLP领域近来的以大趋势。这次论文推荐就从词向量开始,依次介绍到最新的XLnet。
作者&编辑 | 小Dream哥
1 词向量的提出
在这篇文章中,Bengio等人提出了神经语言模型(NNLM),而它的副产品,词向量,可以实现词的分布式表征。词向量模型是一个重要的工具,可以把真实世界抽象存在的文字转换成可以进行数学公式操作的向量,对这些向量的操作,是NLP所有任务都在做的事情。NNLM提出了一种可能的获得词向量的稠密式表征的手段,具有重要意义。
[1] D'informatique Et Recherche Operationnelle, Departement & Bengio, Y & Ejean Ducharme, R & Vincent, Pascal & De Recherche Mathematiques, Centre. (2001). A Neural Probabilistic Language Model.
2 Word2vec的提出
这篇文章提出了一种能够真正高效获得词向量的手段,进而促进了后续NLP的快速发展。Mikolov等研究者在这篇论文中提出了连续词袋模型CBOW和 Skip-Gram 模型,通过引入负采样等可行性的措施。使得学习高质量的词向量成为现实。
[2] Mikolov T , Sutskever I , Chen K , et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems, 2013.
3 ELMo词向量的动态表征
训练得到的词向量表征的词语之间的信息其实有限。词向量一个难以解决的问题就是多义词的问题,例如“bank”在英文中有“河岸”和“银行”两种完全不同意思,但是在词向量中确实相同的向量来表征,这显然不合理。
ELMO的本质思想是:用事先训练好的语言模型学好一个单词的Word Embedding,此时多义词无法区分,不过这没关系。在实际使用Word Embedding的时候,单词特定的上下文就可以知道,这个时候模型可以根据上下文单词的语义去调整单词的Word Embedding表示,这样经过调整后的Word Embedding更能表达在这个上下文中的具体含义,也就能克服多义词动态表征的问题。
[3] Peters, Matthew E. , et al. "Deep contextualized word representations." (2018).
4 通用语言模型GPT
Generative Pre-Training(GPT)采用单向语言模型,用Transformer作为特征抽取器,在当时NLP领域的各项任务中都取得了非常不错的效果。
从GPT中可以看到一个明显的趋势:越来越多的将原来在下游任务中做的事情,搬到预训练时来做。
[4] Alec RadfordKarthik, NarasimhanTim, SalimansIlya Sutskever. (2018). Improving Language Understanding by Generative Pre-Training.
5 BERT的横空出世
谷歌推出BERT(Bidirectional Encoder Representation from Transformers)模型,刷新了几乎所有NLP任务的榜单,一时风头无两。仔细看BERT的实现,其与GPT的主要差别在于,BERT用的“双向语言模型”,它通过MASK掉预料中的部分词再重建的过程来学习预料中词语序列中的语义表示信息,同样采用Transformer作为特征抽取器。BERT的出现,因其效果太好,几乎让其他所有的NLP工作都黯然失色。
[5] Devlin, Jacob , et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." (2018).
6 能写故事的GPT2.0
2019年2月openAI用更大的模型,规模更大质量更好的数据推出了GPT2.0,其语言生成能力令人惊叹。相比于BERT,得益于以语言模型为训练任务,GPT2.0的生成能力要更强,在文本生成领域获得很大的反响。
值得关注的一点是,GPT的创造者们认为,Finetune的过程其实是不必要的,不同的任务用不同的处理方式即可。也就是说,自然语言处理中,几乎所有的事情都放在无监督中的预训练就可以了。是不是听着就觉得带劲?当然,这个还需要时间来考证,至少BERT还不这么认为。
[6] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei , Ilya Sutskever.(2019) Language Models are Unsupervised Multitask Learners.
7 GPT与BERT的结合体XLnet
在2019年6月,XLNet: Generalized Autoregressive Pretraining for Language Understanding诞生,其基于BERT和GPT等两类预训练模型来进行改进,分别吸取了两类模型的长处,获得的很好的效果。
在XLnet中,提出了AutoRegressive (AR) 语言模型和AutoEncoding (AE)语言模型的说法,分别对应GPT和BERT,分析他们的优劣势,然后做出结合,模型的效果超过BERT,暂时占据自然语言处理头牌。
[7] Zhilin Yang, Zihang Dai, Yiming Yang , Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le(2019). XLNet: Generalized Autoregressive Pretraining for Language Understanding.
8 如何获取文章与交流
找到有三AI github开源项目即可获取。
https://github.com/longpeng2008/yousan.ai
文章细节众多,阅读交流都在有三AI-NLP知识星球中进行,感兴趣可以加入,扫描下图中的二维码即可。
总结
这一期我们从头到尾,看了现在最火爆的预训练语言模型的发展过程,细细看过来,你能够品味到NLP这些年发展的脉络,非常有益处。后面我们的每周论文分享会从不同的自然语言处理任务来展开。
转载文章请后台联系
侵权必究
往期NLP精选
【NLP】自然语言处理专栏上线,带你一步一步走进“人工智能技术皇冠上的明珠”。
【NLP】用于语音识别、分词的隐马尔科夫模型HMM
【NLP】用于序列标注问题的条件随机场(Conditional Random Field, CRF)
【NLP】经典分类模型朴素贝叶斯解读
【NLP】 NLP专栏栏主自述,说不出口的话就交给AI说吧
【NLP】 深度学习NLP开篇-循环神经网络(RNN)
【NLP】 NLP中应用最广泛的特征抽取模型-LSTM
【NLP】 聊聊NLP中的attention机制
【技术综述】深度学习在自然语言处理中的应用发展
【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络相关推荐
- 【每周NLP论文推荐】 生成式聊天机器人论文介绍
欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 生成式聊天机器人是研究的热点,现在看来,通 ...
- 【每周NLP论文推荐】 聊天机器人中FAQ相关的论文推荐
欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 今天推荐FAQ相关的论文,FAQ是聊天机器 ...
- 【每周NLP论文推荐】 掌握实体关系抽取必读的文章
欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 实体关系抽取作为信息抽取领域的重要研究课题 ...
- 【每周NLP论文推荐】 开发聊天机器人必读的重要论文
欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 对于聊天机器人研究,可以追溯到上个世纪50 ...
- 【每周NLP论文推荐】 介绍语义匹配中的经典文章
欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 语义匹配也是NLP中比较基础的任务,它的主 ...
- 【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究
NER是自然语言处理中相对比较基础的任务,但却是非常重要的任务.在NLP中,大部分的任务都需要NER的能力,例如,聊天机器人中,需要NER来提取实体完成对用户输入的理解:在信息提取任务中,需要提取相应 ...
- 【每周NLP论文推荐】 知识图谱重要论文介绍
欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 知识图谱是NLP中非常重要的底层基础建筑. ...
- 【每周NLP论文推荐】 对话管理中的标志性论文介绍
欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 对话管理(Dialog Managemen ...
- 【每周CV论文推荐】 CV领域中数据增强相关的论文推荐
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 数据增强在每一个深度学习项目中都是必要的操作 ...
最新文章
- 日均请求量百亿级数据处理平台的容器云实践
- 数据结构实验之串三:KMP应用
- arcgis导入excel数据_导入Excel数据到ArcGIS属性表的两种实用方法
- [Python图像处理] 十九.图像分割之基于K-Means聚类的区域分割
- 写论文,这个神器不能少!
- 剑指offer-3(替换空格)
- mysql如何修改开启允许远程连接
- linux shell 高级编程,shell高级编程
- 洞察SaaS:中国SaaS的前世今生
- Symbian编程VC开发环境设置
- 同样是百度输入法,定制远没有原版好用
- Mono 之 单元测试
- 解决2345劫持主页的办法--火绒2345专杀
- 【听课笔记】复旦大学遗传学_06基因组
- debugger使用
- 将QQ和微信的保存路径由C盘转移到其他盘
- ACM144-小柯的烦恼zy
- 纸片人「活」了。Meta AI新作:只需几分钟,手绘小人有了灵魂
- 小白学 Python(1):开篇
- 经纬度坐标系转东北天_经纬度坐标系转换
热门文章
- Java跨平台实现原理及JVM垃圾回收、内存管理实战
- 【Maven】maven 插件开发实战
- 【拥抱大厂系列】百度面试官问过的 “JVM内存分配与回收策略原理”,我用这篇文章搞定了
- “面试不败计划”:垃圾垃圾回收
- 信息系统项目管理知识--计算机网络基础
- SpringMVC教程--Validation校验
- jerseycom.sun.jersey.api.client.UniformInterfaceException
- Android中接收系统广播消息
- 07 ORA系列:ORA-01747 或列说明无效 user.table.column, table.column
- Java设计模式详解