来源:专知

摘要:深度学习使用多层学习层次的数据表示,并在许多领域得到了最优的结果。最近,各种各样的模型设计和方法在自然语言处理(NLP)蓬勃发展。在本文中,我们回顾了被广泛应用于各种NLP任务的深度学习相关模型和算法以及它们的发展演变过程。我们还总结,比较和对比了各种模型,对深度学习应用于NLP领域的过去,现在和未来进行了详细阐述和展望。

引言

自然语言处理(NLP)是一种基于理论的计算技术,用于人类语言的自动分析和表达。NLP的研究已经从分析一个句子的时间长达7分钟的打孔卡和批处理的时代发展到像谷歌这样的不到一秒时间处理数百万网页的时代。NLP使计算机能够在各个层面执行各种与自然语言相关的任务,从解析和词性标注到机器翻译和对话系统。

深度学习架构和算法已经在计算机视觉和模式识别等领域取得了令人瞩目的发展。遵循这一趋势,近年来的NLP研究越来越多地关注于使用新的深度学习方法(见图1)。几十年来,针对NLP问题的机器学习方法一直基于在非常高维和稀疏特征上训练浅层模型(如SVM和logistic回归)。近年来,基于密集向量表示的神经网络已经在各种NLP任务中取得了较好的效果。这种趋势是由词嵌入(word embeddings)[2,3]和深度学习方法[4]的成功引发的。深度学习可以实现多层次的自动特征表示学习。相比之下,传统的基于机器学习的NLP系统在很大程度上依赖于人工制作的特性。这些人工制作的功能非常耗时,而且常常是不完整的。

Fig. 1: Percentage of deep learning papers in ACL, EMNLP, EACL, NAACL over the last 6 years (long papers).

Collobert et al.[5]证明了一个简单的深度学习框架在一系列NLP任务(如命名实体识别(NER)、语义角色标记(SRL)和POS标注)中的表现优于最先进的方法。此后,针对一些复杂的NLP任务,提出了许多基于深度学习的复杂算法。该论文回顾了应用于自然语言任务的一些主要的深度学习模型和方法,如卷积神经网络(CNNs)、循环神经网络(RNNs)和递归神经网络。我们还讨论了记忆增强策略、注意力机制以及无监督模型,强化学习的方法以及最近的深度生成模型如何被用于与语言相关的任务。

据我们所知,这是第一个全面涵盖当今NLP研究中最流行的深度学习方法的一项工作。Goldberg[6]的工作只是以教程的方式介绍了将神经网络应用于NLP的基本原理。我们相信这篇文章将会让读者更全面的了解这个领域目前的一些实践。

本文的结构如下:

第二部分介绍了分布式表示的概念,是复杂的深度学习模型的基础;

第三、第四和第五节讨论了一些比较流行的模型,如卷积、循环和递归神经网络,以及它们在各种NLP任务中的使用;

第六节列举了强化学习在自然语言处理中的最新应用和无监督句子表示学习的新进展;

第七节阐述了深度学习模型与记忆模块耦合的最新趋势;

第八部分总结了一系列基于深度学习方法的NLP任务在标准数据集上的性能表现。

结论

深度学习提供了一种处理大量计算和数据的方法,而无需多少手工工程[90]。随着分布式表示的出现,各种深度模型已经成为解决NLP问题的最新方法。监督学习是近年来NLP深度学习研究中最受欢迎的做法。然而,在许多现实世界的情景中,我们都有未标记的数据,这些数据需要先进的无监督或半监督方法。如果某些特定的类缺少标记数据,或者在测试模型时出现了一个新类,那么应该使用zero-shot learning之类的策略。这些学习方案仍处于发展阶段,但我们期望基于深度学习的NLP研究能够朝着更好地利用未标记数据的方向发展。我们预计这种趋势会随着更多更好的模型设计而继续。我们期望看到更多采用强化学习方法的NLP应用,例如对话系统。我们还期望看到更多关于多模态学习的研究[190],因为在现实世界中,语言通常以其他信号为基础(或与之相关)。

最后,我们期望看到更多深度学习模型,其内部存储器(从数据中学到的自底向上的知识)通过外部存储器 (从知识库继承的自顶向下的知识)得到丰富。符号与子符号人工智能的耦合是实现从自然语言理解向自然语言理解过渡的关键。事实上,依靠机器学习,可以根据过去的经验做出“好的猜测”,因为子符号方法可以编码相关性,而他们的决策过程也是概率性的。然而,自然语言理解需要的远不止于此。用诺姆•乔姆斯基(Noam Chomsky)的话来说,“在科学领域,你不会通过获取大量数据、将它们输入电脑并对它们进行统计分析来获得发现:这不是你理解事物的方式,你必须具备理论上的见解。”

附教程内容

基于深度学习的NLP 32页最新进展综述,190篇参考文献相关推荐

  1. 深度学习图像融合_基于深度学习的图像超分辨率最新进展与趋势【附PDF】

    因PDF资源在微信公众号关注公众号:人工智能前沿讲习回复"超分辨"获取文章PDF 1.主题简介 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析.生物特 ...

  2. 基于深度学习的眼底影像分析最新综述

    医学影像是深度学习取得极大成功的一个领域,而眼底图像是其中一个重要的分支.眼底图像是由单目相机捕获到的眼底的2D图像. 使用眼底图像可以用于对眼科疾病诊断分级.对病变点和重要的生物标记进行分割等等,对 ...

  3. 回望2017,基于深度学习的NLP研究大盘点

    回望2017,基于深度学习的NLP研究大盘点 雷锋网 百家号01-0110:31 雷锋网 AI 科技评论按:本文是一篇发布于 tryolabs 的文章,作者 Javier Couto 针对 2017 ...

  4. 基于深度学习的NLP研究大盘点

    AI深入浅出 公众号ID:xiumius 关注 在过去的几年里,深度学习(DL)架构和算法在诸如图像识别和语音处理等领域取得了世人瞩目的进步.然而在最开始的时候,深度学习在自然语言处理(Natural ...

  5. Pytorch实现基于深度学习的面部表情识别(最新,非常详细)

    目录 一.项目背景 二.数据预处理 1.标签与特征分离 2.数据可视化 3.分割训练集和测试集 三.搭建模型 四.训练模型 五.训练结果 附录 一.项目背景 基于深度学习的面部表情识别 (Facial ...

  6. 基于深度学习的目标检测的研究进展2

    普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只猫.而在ILSVRC(ImageNet Large Scale Visual Recognition Cha ...

  7. 深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)

    摘要:机器视觉是人工智能正在快速发展的一个分支.简单说来,机器视觉就是用机器代替人眼来做测量和判断.机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号, ...

  8. 基于深度学习的知识图谱构建(简要综述)

    1  简介 信息技术的发展不断推动着互联网技术的变革,Web技术作为互联网时的标志性技术,正处于这场技术变的核心.从网页的链接到数据的链接,Web技术正在逐步朝向Web之父Berners-Lee设想中 ...

  9. 基于深度学习的3D pose estimation总结(包括几篇2D pose estimation)

    声明:此文章是作者自己学习过程中的简单总结,也是作者第一次上传,仅供各位同行参考,也请对文中错误和不足多多指教,敬请指正,谢谢! 一.任务描述 给定一幅图或者是一段视频,人体姿态估计就是恢复出其中的人 ...

最新文章

  1. 电动汽车驱动电机及其控制系统
  2. 开发音频频谱_ToneBoosters音频效果器插件合集
  3. 课时20:内嵌函数和闭包
  4. 【面向对象】面向对象程序设计测试题2-Java基本语法测试题
  5. oracle给表赋清空权限,oracle建表赋权限
  6. 用户登录程序--绘制--遍历窗口
  7. 如何使用OBS录制采集卡视频内容
  8. 条码仓库管理系统在食品行业中的应用
  9. 通过子网掩码和ip地址计算网络地址和广播地址
  10. Java反射创建对象效率高还是通过new创建对象的效率高?
  11. 如何守住项目管理的质量“底线”?
  12. 假如给我三天光明阅读心得收获
  13. 【测试方法】业务流测试法之场景法
  14. 万分之二用百分之怎么表示_百分比表示什么 什么是百分之多少是怎么算的?...
  15. 【源码】核磁共振成像的脑部肿瘤检测与分类
  16. linux mysql 备份 恢复_[转]linux下如何备份与恢复mysql数据库。
  17. J2SE自学(二)——开发工具Eclipse
  18. 英飞凌SP370方案胎压监测器-入门级视频课程-朱有鹏-专题视频课程
  19. 服务化-mysql-01 mysql基础框架
  20. 知云文献翻译打不开_软件推荐|强大的翻译软件盘点

热门文章

  1. 前列腺癌检测 AI 算法登上《柳叶刀》:分类性能超过人类专家,还能完成其他临床任务...
  2. 原创 | 专家对话:大数据助力健康管理面临的机遇与挑战
  3. 收藏|最优论文+代码查找神器,覆盖AI全领域(966个ML任务、8500+论文)
  4. 制药企业SAP项目中CSV认证需要准备的文档
  5. SAP Variant Conditions in Purchasing using reference characteristics【中英文双语版】
  6. 机器人技术推动工业领域的数字革命
  7. 人工智能在哪些方面可以对IT运营产生重大影响
  8. 无人驾驶中的 3D 目标检测技术
  9. A/B测试中我们都会犯的十个常见错误
  10. 2018年中国城市用电量30强