NLP(自然语言处理)到底是做什么?

NLP 的全称是 Natural Language Processing,翻译成中文称作:自然语言处理。它是计算机和人工智能的一个重要领域。顾名思义,该领域研究如何处理自然语言。

自然语言就是我们人类市场交流所使用的语音和字符系统。就目前而言,NLP所研究的对象,以字符系统——也就是我们通常说的“文字”——为主。

为什么要处理自然语言?

为什么要处理文字呢?因为有需求啊!

我们用文字描述事物、经历和思想。形成的文献资料,除了被阅读,往往还需要进行很多其他操作。

比如,被翻译成其他语种;对内容进行摘要;在其中查找某个问题的答案;或者,了解其中提到了哪些人事物,以及它们之间的关系如何,等等。

虽然所有这些需求,都可以通过人工阅读文献来解决,但“浩如烟海”的文献量导致人工文字处理的产能严重不足。

NLP 的发展历程

上世纪 40 年代计算机被发明,用机器而非人力来处理信息成为可能。早在 1950 年代,自然语言处理就已经成为了计算机科学的一个研究领域。

不过一直到 1980 年代,NLP 系统是以一套复杂的人工订制规则为基础,计算机只是机械地执行这些规则,或者做一些诸如字符匹配,词频统计之类的简单计算。

1980年代末期,机器学习的崛起为 NLP 引入了新的思路。刚性的文字处理人工规则日益被柔性的、以概率为基础的统计模型所替代。

近些年来,随着深度学习的发展,各类神经网络也被引入 NLP 领域,成为了解决问题的技术。

这里要注意了:自然语言处理(NLP)指以计算机为工具解决一系列现实中和自然语言相关的问题,机器学习、深度学习是解决这些问题的具体手段。

当我们关注 NLP 这一领域时,要分清本末,要做的事情是本,做事的方式方法是末。如果神经网络能够解决我们的问题,我们当然应该采用,但并不是只要去解决问题,就一定要用神经网络。

常见的 NLP 任务

NLP 要处理的问题纷繁复杂,而且每一个问题都要结合相应场景和具体需求才好讨论。

不过这些问题也有相当多的共性,基于这些共性,我们将千奇百怪的待解决 NLP 问题抽象为若干任务。

例如:分词、词嵌入、新词发现、拼写提示、词性标注、实体抽取、关系抽取、事件抽取、实体消歧、公指消解、文本分类、机器翻译、自动摘要、阅读理解等等,都是常见的 NLP 任务。

从 NLP 任务到技术实现

针对这些任务,NLP 研究人员探索出了很多方法,这些方法又对应于不同类型的技术。

在工作中,当我们遇到问题的时候,往往需要先将其对应到一个或多个任务,再在该任务的常用实现方法中选取一种适合我们使用的来执行任务。

【举个例子】:我们要基于若干文献构建一个知识图谱,知识图谱的两大核心要素是实体和关系,那么当然首先我们面临的任务就是从这些文献中抽取实体和关系。

实体抽取是一项非常常见的 NLP 任务,实现它的方法有多种,大体而言分为两个方向:

i)基于实体名字典进行字符匹配抽取;

ii)用序列预测模型进行抽取。

序列预测模型又可以选用机器学习模型,比如条件随机场(CRF);或选用神经网络,比如 CRF+LSTM,或 CRF+BERT等。

具体选哪种方法呢?那就要看我们需要抽取的实体类型、文献类型和文献量了。

如果现在是从少量专业文献(例如论文、说明书、研究报告等)中抽取一些列专业名词表示的实体,那么用字典匹配方便直接代价小,可以一试。

如果是要从海量的各类文献中抽取一些通用的实体,那么借助模型则可能效果更佳。

具体用机器学习模型还是神经网络呢?这又和我们拥有的标注数据与计算资源有关,如果不差钱,想标多少数据,想训练多大模型都不在乎,上神经网络自然可以追求高准确率,但如果资源捉襟见肘,可能机器学习模型更加实用。

“众智汇”愿景

尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到让我们每个人的职业生涯得到最大程度的发展的目的

欢迎扫面下列二维码关注“悦思悦读”公众微信号

什么是 NLP (自然语言处理)相关推荐

  1. NLP自然语言常见问题及相关模型训练数据格式示例

    NLP自然语言常见问题及相关模型训练数据格式示例 目录 NLP自然语言常见问题及相关模型训练数据格式示例 NLP任务集 <

  2. nlp自然语言处理_自然语言处理(NLP):不要重新发明轮子

    nlp自然语言处理 介绍 (Introduction) Natural language processing (NLP) is an intimidating name for an intimid ...

  3. nlp自然语言处理_不要被NLP Research淹没

    nlp自然语言处理 自然语言处理 (Natural Language Processing) 到底是怎么回事? (What is going on?) NLP is the new Computer ...

  4. 【AI视野·今日NLP 自然语言处理论文速览 第二十八期】Wed, 1 Dec 2021

    AI视野·今日CS.NLP 自然语言处理论文速览 Wed, 1 Dec 2021 Totally 27 papers

  5. 【AI视野·今日NLP 自然语言处理论文速览 第二十七期】Thu, 4 Nov 2021

    AI视野·今日CS.NLP 自然语言处理论文速览 Thu, 4 Nov 2021 Totally 20 papers

  6. 【AI视野·今日NLP 自然语言处理论文速览 第二十六期】Wed, 3 Nov 2021

    AI视野·今日CS.NLP 自然语言处理论文速览 Wed, 3 Nov 2021 Totally 23 papers

  7. 【AI视野·今日NLP 自然语言处理论文速览 第二十五期】Fri, 1 Oct 2021

    AI视野·今日CS.NLP 自然语言处理论文速览 Fri, 1 Oct 2021 Totally 36 papers

  8. 【AI视野·今日NLP 自然语言处理论文速览 第二十四期】Thu, 30 Sep 2021

    AI视野·今日CS.NLP 自然语言处理论文速览 Thu, 30 Sep 2021 Totally 24 papers

  9. 【AI视野·今日NLP 自然语言处理论文速览 第二十二期】Mon, 27 Sep 2021

    AI视野·今日CS.NLP 自然语言处理论文速览 Mon, 27 Sep 2021 Totally 29 papers

  10. 【AI视野·今日NLP 自然语言处理论文速览 第二十一期】Fri, 24 Sep 2021

    AI视野·今日CS.NLP 自然语言处理论文速览 Fri, 24 Sep 2021 Totally 39 papers

最新文章

  1. 基于Redis的服务治理平台!
  2. 网曝某互联网大厂给员工电脑安装插件,基本等于全程监控!网友:就是监控你们划水!...
  3. Windows10 + VS2015 环境下对gdal2.0.1进行64bit编译小结
  4. nodejs在windows平台下搭建部署环境教程
  5. Spring MVC 向页面传值-Map、Model和ModelMap
  6. C/C++写无控制台窗口程序
  7. 没啥好标题才显得有逼格对叭-CSDN
  8. jq 点击按钮跳转到微信_小程序 web-view组件跳转到小程序页面
  9. Python学习之web框架 Flask
  10. 【js Date】时间字符串、时间戳转换成今天,明天,本月等文字日期
  11. My 1st webUI try
  12. ansible安全之加密主机清单
  13. Java思维导图(1)
  14. 【MATLAB】MATLAB基本运算
  15. Tree命令的下载与使用
  16. oppo手机解锁_ColorOS一键解锁工具
  17. python读取TXT、CSV、xml
  18. 15-Mixly模拟输出 | Mixly技巧系列
  19. Scan Reorder Formal
  20. Android---App Widget(官方文档翻译)

热门文章

  1. 钉钉审批流API接口
  2. 视频基础知识 720P、1080i、1080P
  3. git clone与git pull区别
  4. 对于神经网络学习 Maxwell 方程的思考——泛化能力
  5. voyage java_Voyage:Java 实现的基于 Netty 的轻量、高性能分布式 RPC 服务框架
  6. yarn 错误There appears to be trouble with your network connection. Retrying
  7. linux or msys2设置网络代理
  8. Linux 下 va_start、va_end 学习及使用
  9. 电影感悟-豆瓣TOP3
  10. python 开任意数的平方