近日,AI 技术大牛李航博士(已加入今日头条)在《国家科学评论》(National Science Review,NSR)上发表了一篇题为《Deep Learning for Natural Language Processing: Advantages and Challenges》的论文,扼要地探讨了深度学习 NLP 的当前现状与未来机遇。作者认为深度学习可通过与强化学习、推断等技术的结合,进一步扩展 NLP 的边界。

1. 介绍

深度学习是指学习和利用“深度”人工神经网络比如深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)的机器学习技术。目前深度学习已成功应用于自然语言处理(NLP)并取得了重大进展。本论文对深度学习在 NLP 方面的最新进展做了总结,并进一步探讨了其优势与挑战。

我们认为 NLP 有五个主要任务:分类、匹配、翻译、结构化预测、与序贯决策过程。对于前四个任务,深度学习方法的表现优于或显著优于传统方法。

端到端训练与表征学习是深度学习的核心特征,这使其成为 NLP 的强大工具。但深度学习并非万能,它在对解决多轮对话等复杂任务异常关键的推断和决策上表现欠佳。此外,如何结合符号处理与神经处理、如何应对长尾现象等问题依然是深度学习 NLP 面临的挑战。

2. NLP 的进展

如上所述,我们认为 NLP 主要有五个任务:分类、匹配、翻译、结构化预测、与序贯决策过程。自然语言处理中的绝大多数问题皆可归入其中的一个,如表 1 所示。在这些任务中,单词、词组、语句、段落甚至文档通常被看作标记(字符串)序列而采取相似的处理,尽管它们的复杂度并不相同。事实上,语句是 NLP 中最常用的处理单元。

最近发现,深度学习有助于解决前四个任务,并成为解决这些问题的当前最佳技术(比如 [1-8])。

表 1:NLP 的五个主要任务

表 2:不同方法在 NLP 问题上的表现对比

表 2 表明在示例问题上深度学习的表现已超越传统方法。在所有的 NLP 问题中,机器翻译的进展尤其引人注目。神经机器翻译(使用深度学习的机器翻译)的表现显著优于传统的统计机器翻译。当前最佳的神经翻译系统采用了包含 RNN [4-6] 的序列到序列学习模型。

此外,深度学习首次使某些应用变成可能。比如,深度学习成功应用于图像检索(又叫 text to image),首先使用 CNN 把查询和图像转换成与 DNN 匹配的向量表征,然后计算查询和图像的相关性 [3]。深度学习还可用于基于生成的自然语言对话,该任务中给出一句话,系统可以自动生成回答,该模型使用序列到序列学习进行训练 [7]。

第五项任务中,序贯决策过程,如马尔科夫决策过程,是多轮对话的关键问题。但是,深度学习对该任务有何贡献尚未得到完全验证。

3. 优势和挑战

深度学习应用于自然语言处理时具备很多优势,也面临许多挑战,如表 3 所示。

表 3. 深度学习 NLP 的优势和挑战

3-1. 优势

我们认为端到端训练和表征学习真正使深度学习区别于传统的机器学习方法,使之成为自然语言处理的强大工具。

深度学习中通常可以执行端到端的训练。原因在于模型(深度神经网络)能够提供充足的可表征性,数据中的信息能够在模型中得到高效“编码”。比如,在神经机器翻译中,模型完全利用平行语料库自动构建而成,且通常不需要人工干预。与传统的统计机器翻译(特征工程是其关键)相比,这是一个明显的优势。

使用深度学习,数据可以有不同形式的表征,比如,文本和图像都可以作为真值向量被学习。这使之能够多模态执行信息处理。比如,在图像检索任务中,将查询(文本)与图像匹配并找到最相关的图像变得可行,因为所有这些都可以用向量来表征。

3-2. 挑战

深度学习还面临着更普遍的挑战,比如,缺乏理论基础和模型可解释性、需要大量数据和强大的计算资源。而 NLP 需要面对一些独特的挑战,即长尾挑战、无法直接处理符号以及有效进行推断和决策。

自然语言数据通常遵循幂律分布(power law distribution)。因此,词汇量随着数据规模的增加而增加。这意味着不管有多少训练数据,通常都会存在训练数据无法覆盖的情况。如何处理长尾问题对深度学习来说是一个巨大挑战。仅仅凭借深度学习解决该问题比较困难。

语言数据是自然符号数据,和深度学习通常使用的向量数据(真值向量)不同。目前的方法是,先将语言中的符号数据转换成向量数据,然后输入神经网络中,再把神经网络的输出转换成符号数据。事实上,自然语言处理的大量知识都是符号的形式,包括语言学知识(如语法)、词汇知识(如 WordNet)和世界知识(如 Wikipedia)。目前,深度学习方法尚未有效利用这些知识。符号表征易于解释和操作,而向量表征对歧义和噪声具有一定的鲁棒性。如何把符号数据和向量数据结合起来、如何利用二者的力量仍然是 NLP 领域一个有待解决的问题。

自然语言处理领域有很多复杂任务,这些任务可能无法仅使用深度学习来轻松完成。例如,多轮对话是一个非常复杂的过程,涉及语言理解、语言生成、对话管理、知识库访问和推断。对话管理可以正式作为序贯决策过程,其中强化学习发挥关键作用。很明显,把深度学习和强化学习结合起来可能有利于完成任务。

总之,深度学习 NLP 仍然面临许多待解决的挑战。深度学习与其他技术(强化学习、推断、知识)结合起来将会进一步扩展 NLP 的边界。

今日头条李航:深度学习NLP的现有优势与未来挑战相关推荐

  1. 一文概述2017年深度学习NLP重大进展与趋势

    本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步.可能会有遗漏,毕竟涵盖所有论文.框架和工具难度太大.我想和大家分享这一年我最喜欢的一些研究.我认为 2017 年是 NLP 领域的重 ...

  2. 深度学习(1)---2017年深度学习NLP重大进展与趋势

    深度学习(DL)架构和算法在图像识别.语音处理等领域实现了很大的进展.而深度学习在自然语言处理方面的表现最初并没有那么起眼,不过现在我们可以看到深度学习对 NLP 的贡献,在很多常见的 NLP 任务中 ...

  3. 【自然语言处理】一文概述2017年深度学习NLP重大进展与趋势

    选自 tryolabs 机器之心编译 参与:路雪.黄小天.蒋思源 作者通过本文概述了 2017 年深度学习技术在 NLP 领域带来的进步,以及未来的发展趋势,并与大家分享了这一年中作者最喜欢的研究.2 ...

  4. 从语言学到深度学习NLP,一文概述自然语言处理

    来源:萤火虫沙龙2 概要:自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注. 自然语言处理(NLP)近来因为人类语言的计算表征和分析而获得越来越多的关注.它已经应用于许多如机 ...

  5. [深度学习-NLP]什么是Self-attention, Muti-attention和Transformer

    系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer 深度学习NLP(三)之 ...

  6. 保健中的深度学习nlp技术用于决策

    介绍 (Introduction) The ubiquitous adoption of electronic health records in hospitals and other health ...

  7. Python深度学习-NLP实战:字向量的训练与生成

    系列文章目录 Python深度学习-NLP实战:深度学习系列培训教程 Linux服务器软件的简单使用 Linux命令的简单使用 训练集.测试集.验证集的介绍及制作 字向量的训练与生成 文本分类之SVM ...

  8. Python深度学习-NLP实战:命名实体识别(NER)之分词与序列标注、实体识别任务简介

    系列文章目录 Python深度学习-NLP实战:深度学习系列培训教程 Linux服务器软件的简单使用 Linux命令的简单使用 训练集.测试集.验证集的介绍及制作 字向量的训练与生成 文本分类之SVM ...

  9. 深度学习与工业互联网安全:应用与挑战

    来源:中国工程院院刊 一.前言 工业互联网是新一代信息技术与制造业深度融合的新兴工业生态与应用模式,通过"人.机.物"的泛在可靠互联,连接生产全要素.全产业链.全价值链,推动制造业 ...

最新文章

  1. Spark任务提交底层原理
  2. 基于oracle 的PL/SQL编程 -变量使用
  3. 大热荒野敲开资本大门后,精致露营就留得住年轻人吗?
  4. Kotlin实战指南一:集合
  5. Ubuntu下无法使用Secure_CRT连接服务器
  6. 11.17 模拟:总结
  7. WinXP下替代IIS的新思路
  8. hashmap转红黑树的阈值为8_面试必考的 HashMap,这篇总结到位了
  9. FPGA双沿采样之Verilog HDL实现
  10. sql 分组求和_《从零学会SQL-第七关高级功能》课后练习
  11. php里面优先级最高的是,数据结构-PHP 优先级队列(最大堆)的实现
  12. 解决org.hibernate.QueryException illegal attempt to dereference collection 异常错误
  13. mongo数据排序和分页显示
  14. 前端常用布局大全——细致讲解
  15. 模拟电路 二极管伏安特性(一)
  16. Vue 项目API接口封装
  17. 基于SSM框架实现的日记管理系统
  18. ATEC倒计时14天|蚂蚁金服区块链技术:让善款来有影去有踪(内赠门票)
  19. TDengine 单节点Cluster not ready( 群集未就绪) 异常问题分析及解决方案
  20. CTF之代码审计汇总

热门文章

  1. 【简书 DC谢老师】JMeter + jenkins + SVN 接口自动化之简单 demo​​​​​​​
  2. 英文网站更新自动采集工具
  3. 齐岳DSPE-mPEG2000|二硬脂酸磷脂酰乙醇胺-聚乙二醇2000
  4. 分享10个值得每天一看的精品网站,可以让你全方面得到提升,每一个都会让你大开眼界...
  5. ST-GCN demo运行记录
  6. linux如何添加360网站卫士ip,使用加速乐、360网站卫士PHP无法获取用户IP的解决方法...
  7. Android判断软键盘 输入法 是否显示
  8. ping回显目标主机不可达destination host unreachable的含义及发生情况
  9. Docker Hub账号申请
  10. oracle purge作业,Oracle purge用法介绍