NLP入门-综述阅读-【基于深度学习的自然语言处理研究综述】

  • 基于深度学习的自然语言处理研究综述
    • 摘要
    • 0 引言
    • 1 深度学习概述
      • 卷积神经网络
      • 递归神经网络
    • 2 NLP应用研究进展
    • 3 预训练语言模型
      • BERT
      • XLNet
      • ERNIE
    • 4 结束语
    • 个人总结

基于深度学习的自然语言处理研究综述

2020年4月
罗枭-浙江农林大学信息工程学院
来源:智能计算机与应用-第10卷-第4期

摘要

摘要:自然语言处理的研究综述,重点介绍最新的预训练语言模型,以及总结与展望
关键词:深度学习;自然语言处理;深度神经网络;语言模型

0 引言

NLP:实现人机间通过自然语言交流,存在多义词、一词多义等问题
Deep Learning:具有强大的特征提取和学习能力,可以处理高维度稀疏数据
文章对当前深度学习在 NLP 领域的发展展开综述性讨论,详细阐述目前 NLP 的研究进展和最新的技术方法

1 深度学习概述

深度学习研究如何从数据中自动提取多层特征表示。其核心思想是通过数据驱动的方式,采用一系列的非线性变换,从原始数据中提取由底层到高层、由具体到抽象的特征。

例如:卷积神经网络CNN、递归神经网络RNN。

卷积神经网络

CNN是一种前馈神经网络,区别于其他神经网络模型,卷积运算操作赋予了CNN处理复杂图像和自然语言的特殊能力。
连接方式:局部连接和权值共享
由以下五部分组成:

1)输入层:通常是将单词或者句子表示成向量矩阵
2)卷积层:卷积层中的每一个节点输入是上一神经网络层的一部分,其目的是提取图片或者文本的不同特征
3)池化层:降低网络模型的输入维度,使神经网络具有更高的鲁棒性。常见的池化方式有最大池化和平均池化
4)全连接层:把高维转换成低维度,同时把有用的信息保留下来
5)输出层:完成分类或者预测任务
一般将学习到的高维度特征表示馈送到输出层,通 过 Softmax 函数可以计算出当前样本属于不同类别的概率。

递归神经网络

RNN具有树状层结构,网络节点按其连接顺序对输入信息进行递归的人工神经网络
RNN的基本结构包括输入层、隐藏层和输出层
与传统神经网络最大的区别在于 RNN 每次计算都会将前一词的输出结果送入下一词的隐藏层中一起训练,最后仅仅输出最后一个词的计算结果。

缺点:
1)对短期的记忆影响比较大,但对长期的记忆影响很小,无法处理很长的输入序列。
2)训练 RNN 需要极大的成本投入。
3)RNN 在反向传播时求底层的参数梯度会涉及到梯度连乘,容易出现梯度消失或者梯度爆炸。

长短时记忆网络LSTM和门控循环单元GRU在一定程度上可以解决该问题

2 NLP应用研究进展

语言建模、机器翻译、问答系统、情感分析、文本分类、阅读理解、中文分词、词性标注、命名实体

3 预训练语言模型

预训练思想的本质是模型参数不再随机初始化,而是通过语言模型进行训练。
目前 NLP 各项任务的解决思路是预训练加微调。
Word2Vec、Glove、ULMFiT、EMLo

当前最优秀的预训练语言模型是基于Transformer模型构建的。该模型是由 Vaswani 等人提出的,其是一种完全基于 Self-Attention 所构建的,是目前 NLP领域最优秀的特征提取器,不但可以并行运算而且可以捕获长距离特征依赖。

BERT

当前影响最大的预训练语言模型是基于Transformer 的双向深度语言模型—BERT。其网络结构如图所示:

BERT是由多层双向Transformer解码器构成,主要包括2个不同大小的版本: 基础版本有12层Transformer,每个Transformer中的多头注意力层是12个,隐藏层大小为768; 加强版有24层Transformer,每个Transformer中的多头注意力层是24个,隐藏层大小为 1024。由此可见深而窄的模型效果要优于浅而宽的模型。目前 BERT 在机器翻译、文本分类、文本相似性、阅读理解等多个任务中都有优异的表现。BERT模型的训练方式包括2种:

1)采用遮盖单词的方式。将训练语料中的80%的单词用[MASK]替换,如 my dog is hairy—> my dog is [MASK]。还有 10%的单词进行随机替换,如 my dog is hairy—> my dog is banana。剩下10%则保持句子内容不变。

2)采用预测句子下一句的方式。将语料中的语句分为A和B,B中的 50%的句子是A中的下一句,另外的50%则是随机的句子。

通过上述2种方式训练得到通用语言模型,然后利用微调的方法进行下游任务,如文本分类、机器翻译等任务。较比以前的预训练模型,BERT 可以捕获真正意义上的双向上下文语义。

缺点:在训练模型时,使用大量的[MASK]会影响模型效果,而且每个批次只有 15%的标记被预测,因此 BERT 在训练时的收敛速度较慢。此外由于在预训练过程和生成过程不一致,导致在自然语言生成任务表现不佳,而且 BERT 无法完成文档级别的 NLP 任务,只适合于句子和段落级别的任务。

XLNet

XLNet是一种广义自回归的语言模型,是基于Transformer-XL而构建的。

Transformer的缺点:

  1. 字符之间的最大依赖距离受输入长度的限制。
  2. 对于输入文本长度超过 512 个字符时,每个段都是从头开始单独训练,因此使训练效率下降,影响模型性能。

针对以上2个缺点,Transformer-XL引入 了 2 个解决方法: 分割循环机制 ( Division Recurrence Mechanism) 和 相对位置编码 ( Relative Positional Encoding) 。Transformer -XL 的测试速度更快,可以捕获更长的上下文长度。

通过 XLNet训练得到语言模型后,可以用于下游相关任务,如阅读理解,基于 XLNet 得到的结果已经远超人类水平,在文本分类、机器翻译等任务中取得了优异的效果。

ERNIE

无论是 BERT 还是 XLNet 语言模型,在英文语料中表现都很优异,但在中文语料中效果一般, ERNIE则是以中文语料训练得出一种语言模型。 ERNIE 是一种知识增强语义表示模型,其在语言推断、语义相似度、命名实体识别、文本分类等多个NLP 中文任务上都有优异表现。ERNIE 在处理中文语料时,通过对预测汉字进行建模,可以学习到更大语义单元的完整语义表示

模型结构主要包括 2 个模块,下层模块的文本编码器( T-Encoder) 主要负责捕获来自输入标记的基本词汇和句法信息,上层模块的知识编码器( K-Encoder) 负责从下层获取的知识信息集成到文本信息中,以便能够将标记和实体的异构信息表示成一个统一的特征空间中。

ERNIE 模型通过建立海量数据中的实体概念等先验语义知识,学习完整概念的语义表示,即在训练模型时采用遮盖单词的方式通过对词和实体概念等语义单词进行遮盖,使得模型对语义知识单元的表示更贴近真实世界。

总体来说,ERNIE 模型通过对实体概念知识的学习来学习真实世界的完整概念语义表示,使得模型对实体概念的学习和推理能力更胜一筹,其次通过对训练语料的扩充,尤其是引入了对话语料使得模型的语义表示能力更强。

4 结束语

本文主要对深度学习中的卷积神经网络和递归神经网络做了简单介绍,阐述了目前 NLP 领域各个任务的研究进展。当前 NLP 的研究重点是预训练语言模型,因此详细介绍 BERT、XLNet 和 ERNIR3种模型。

个人总结

感觉也就那样吧…
万事开头难!冲吧!上学人!
没有困难的工作,只有勇敢的狗勾!

NLP入门之综述阅读-基于深度学习的自然语言处理研究综述相关推荐

  1. 【NLP】一文了解基于深度学习的自然语言处理研究

    目前,人工智能领域中最热的研究方向当属深度学习.深度学习的迅速发展受到了学术界和工业界的广泛关注,由于其拥有优秀的特征选择和提取能力,对包括机器翻译.目标识别.图像分割等在内的诸多任务中产生了越来越重 ...

  2. 读“基于深度学习的图像识别技术研究综述”有感

    "基于深度学习的图像识别技术研究综述"总结 现在流行的图像识别技术都是基于深度学习的算法,经过前辈们的探索改进,图像识别技术经历很多阶段,现如今图像识别技术已经广泛的应用于生活的方 ...

  3. 基于深度学习的目标检测研究综述

    基于深度学习的目标检测研究综述 摘要:深度学习是机器学习的一个研究领域,近年来受到越来越多的关注.最近几年,深度学习在目标检测领域取得了不少突破性的进展,已经运用到具体的目标检测任务上.本文首先详细介 ...

  4. 基于深度学习的图像识别模型研究综述

    基于深度学习的图像识别模型研究综述 摘要:深度学习是机器学习研究中的一个新的领域,其目的在于训练计算机完成自主学习.判断.决策等人类行为并建立.模拟人脑进行分析学习的神经网络,它模仿人类大脑的机制来解 ...

  5. 行为检测论文笔记【综述】基于深度学习的行为检测方法综述

    摘 要: 行为检测在自动驾驶.视频监控等领域的广阔应用前景使其成为了视频分析的研究热点.近年来,基于深度学习的方法在行为检测领域取得了巨大的进展,引起了国内外研究者的关注,对这些方法进行了全面的梳理和 ...

  6. 基于深度学习的视频预测研究综述

    原址:http://html.rhhz.net/tis/html/201707032.htm (收集材料ing,为论文做准备)[综述性文章,,,可以做背景资料] 莫凌飞, 蒋红亮, 李煊鹏 摘要:近年 ...

  7. AI综述专栏 | 基于深度学习的目标检测算法综述

    https://www.toutiao.com/a6685618909275488780/ 2019-04-30 17:35:53 关注微信公众号:人工智能前沿讲习, 重磅干货,第一时间送达 AI综述 ...

  8. 基于深度学习的交互式问答研究综述

    来源:专知 本文为论文,建议阅读5分钟文章对交互式问答的发展及前沿动态进行了调研. 相比传统的一问一答,交互式问答增加了对话上下文和背景等信息,这为理解用户输入和推理答案带来了新的挑战.首先,用户输入 ...

  9. 帮推|基于深度学习的图像融合方法综述

    基于深度学习的图像融合方法综述 博主朋友关于图像融合的综述论文基于深度学习的图像融合方法综述已被<中国图象图形学报>正式接收! 极力推荐想要入门图像融合领域的小伙伴下载学习,此外希望在图像 ...

最新文章

  1. 搜索引擎重复网页发现技术分析
  2. 判断一个js对象,是否具有某个属性
  3. Navicat Premium 15连接虚拟机上mysql并创建数据库
  4. jQuery 增加 删除 修改select option
  5. 黄聪:C#设置Word中表格某个列宽
  6. Tokio教程之深入异步
  7. ubuntu命令安装中文语言包_Ubuntu安装中文语言包
  8. SAP中 关于BAPI_MATERIAL_SAVEDATA创建物料报错:字段MARA-MEINS/BAPI_MARA-BASE_UOM(_ISO)被定义为必需的字段; 它不包含条目
  9. Tableau文件管理
  10. 孙子兵法之36计详解
  11. 级数收敛与交换运算顺序
  12. 初识EMC元器件(五)——电容参数解读及选型应用
  13. python如何生成指定均值向量和协方差矩阵的多维正态分布数据
  14. Android开发学习之基于ZBar实现微信扫一扫
  15. 你见过程序员跳槽宝典吗,35岁后慎点
  16. SourceInsight4.0下载安装教程
  17. POJ 1845 逆元 / 分治
  18. 考研总结--北邮网研院上岸
  19. iPhone开发初试锋芒 一个简单的iPhone播放器 --紫枫凝潇烟
  20. 【C++ Primer】Part0·Day1 第一章 笔记及练习作答

热门文章

  1. Sen2Cor-02.05.05处理哨兵数据的坑
  2. matlab的subplot--子图位置大小随心所欲
  3. 蒙特卡罗算法 与 拉斯维加斯算法
  4. amd编码器 hevc_支持 AMD VCE H.264 编码器在Bandicam录制视频 - Bandicam(班迪录屏)
  5. 华为Ascend:进一步做好产品差异化是后续重点
  6. 拍摄照片发生反转,变量初始null
  7. Python 和 Web 前端选择哪个比较合适?哪个前景好?
  8. 手机视频监控解决方案(客户端)
  9. JavaFx界面设计【SceneBuilder版】适合初学者
  10. 阅读《迁移学习简明手册》总结(二)