自然语言处理( Natural Language Processing ,简称 NLP )是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。

在一般情况下,用户可能不熟悉机器语言,所以自然语言处理技术可以帮助这样的用户使用自然语言和机器交流。从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。

自然语言处理研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并且不断完善这样的语言模型,还需要根据该语言模型来设计各种实用的系统,并且探讨这些实用技术的评测技术。

从自然语言的角度出发,如图1所示, NLP 基本可以分为两个部分:自然语言理解以及自然语言生成。

其中,自然语言理解是个综合的系统工程,它包含很多细分学科:

  • 代表声音的音系学;
  • 代表构词法的词态学;
  • 代表语句结构的句法学;
  • 代表理解的语义句法学和语用学。

自然语言生成则从结构化数据中以读取的方式自动生成文本。该过程主要包含三个阶段:

  • 1、文本规划:完成结构化数据中的基础内容规划;
  • 2、语句规划:从结构化数据中组合语句来表达信息流;
  • 3、实现:产生语法通顺的语句来表达文本。

NLP 的研究任务

NLP 可以被应用于很多领域,大概可以总结出以下几种通用的应用:

1、机器翻译
机器翻译是自然语言处理中最为人所熟知的场景,主要研究计算机具备将一种语言翻译成另一种语言的能力。国内外有很多比较成熟的机器翻译产品,比如百度翻译、 Google 翻译等,还有提供支持语音输入的多国语言互译的产品(比如科大讯飞的翻译机)。

2、情感分析
情感分析主要研究计算机能够准确判断用户评论是否积极。情感分析在一些评论网站比较有用,比如某餐饮网站的评论中会有非常多客人的评价,如果一眼扫过去满眼都是又贵又难吃,那谁还想去呢?另外有些商家为了获取大量的客户不惜雇佣水军灌水,那就可以通过自然语言处理来做水军识别。此外,情感分析可以用来分析用户的评价是积极的还是消极的。

3、智能问答
智慧问答主要关注于计算机能否正确回答输入的问题。智能问答在一些电商网站有非常实际的价值,比如代替人工充当客服角色,有很多基本而且重复的问题,其实并不需要人工客服来解决,通过智能问答系统可以筛选掉大量重复的问题,使得人工座席能更好地服务客户。

4、文摘生成
文摘生成主要研究计算机能够准确归纳、总结并产生文本摘要的能力。文摘生成利用计算机自动地从原始文献中摘取文摘,全面准确地反映某一文献的中心内容。这个技术可以帮助人们节省大量的时间成本,而且效率更高。

5、文本分类
文本分类指的是计算机能够采集各种文章,进行主题分析,从而进行自动分类。具体是指机器对文本按照一定的分类体系自动标注类别的过程。

6、舆论分析
舆论分析主要关注计算机能够判断目前舆论的导向。可以帮助分析哪些话题是目前的热点,分析传播路径以及发展趋势,对于不好的舆论导向可以进行有效的控制。

7、知识图谱
知识图谱主要研究知识点相互连接而成的语义网络。具体是指用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

NLP 的发展历程

如图2所示,自然语言处理的发展大致经历了3个阶段:1956年以前的萌芽期、1980年~1999年的快速发展期和21世纪的突飞猛进期。

1、萌芽期(1956年以前)
1956年以前,可以看作自然语言处理的基础研究阶段。由于来自机器翻译的社会需求,这一时期进行了许多自然语言处理的基础研究,诞生了一个叫做“形式语言理论”的新领域。这一时期,虽然诸如贝叶斯方法、隐马尔可夫、最大熵、支持冋量机等经典理论和算法也均有提出,但自然语言处理领域的主流仍是基于规则的理性主义方法。

2、快速发展期
从20世纪90年代未到21世纪初,人们逐渐认识到,仅用基于规则或统计的方法是无法成功进行自然语言处理的。基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种处理技术开始融合自然语言处理的硏究再次繁荣。

3、突飞猛进期(2000年至今)
进入21世纪以后,自然语言处理又有了突飞猛进的变化。2006年,以 Hinton 为首的几位科学家历经近20年的努力,终于成功设计出第一个多层神经网络算法——深度学习。这是一种将原始数据通过一些简单但是非线性的模型转变成更高层次、更加抽象表达的特征学习方法,一定程度上解决了人类处理“抽象概念”这个亘古难题。目前,深度学习在机器翻译、问答系统等多个自然语言处理任务中均取得了不错的成果,相关技术也被成功应用于商业化平台中。

自然语言处理概念及发展相关推荐

  1. 自然语言理解的概念与发展历史

    如果计算机能够理解.处理自然语言,这将是计算机技术的一项重大突破.自然语言理解的研究在应用和理论两个方面都具有重大的意义. 首先自然语言理解的概念以及发展历史,然后从应用角度介绍机器翻译和语音识别技术 ...

  2. php avc,什么是AVC编码?简述H.264概念和发展

    频编解码技术有两套标准,国际电联(ITU-T)的标准H.261.H.263.H.263+等:还有ISO 的MPEG标准Mpeg1.Mpeg2.Mpeg4等等.H.264/AVC是两大组织集合H.263 ...

  3. VBNET学习笔记---MS VBnet数据库访问技术,概念,介绍,发展历程.

    VBNET学习笔记---MS VBnet数据库访问技术,概念,介绍,发展历程. 2013-02-20 1.数据库访问技术 a.JET与DAO JET(Joint Engine Technology)数 ...

  4. 手机电视的概念及其发展状况

    一.手机电视的概念及其发展状况 1.1 手机电视的概念 所谓"手机电视"业务,就是利用移动终端为用户提供视频资讯服务.手机电视业务是利用具有操作系统和视频功能的智能手机观看电视的业 ...

  5. 计算机体系结构——1.1 计算机体系结构的概念与发展

    目录 1.1 计算机体系结构的概念与发展 1.1.1存储程序计算机 1.1.2 计算机体系结构.组成和实现 1.1.3 计算机系统中的层次概念 1.1.4 系列机和兼容 1.1 计算机体系结构的概念与 ...

  6. havc是什么意思_什么是AVC编码? 简述H.264概念和发展

    什么是 AVC 编码? 简述 H.264 概念和发展 频编解码技术有两套标准,国际电联( ITU-T )的标准 H.261 . H.263 . H.263+ 等:还有 ISO 的 MPEG 标准 Mp ...

  7. 5G(9)---5G基本概念及其发展概况

    5G基本概念及其发展概况 一.5G基本概念   第五代移动电话行动通信标准,也称第五代移动通信技术,外语缩写:5G.也是4G之后的延伸,正在研究中,5G网络的理论下行速度为10Gb/s(相当于下载速度 ...

  8. 海外网红营销的概念与发展,网红是如何赚钱的?

    海外网红营销的概念与发展: 渠道分布:目前Instagram依然是网红运营最多的渠道,其次是TikTok,相反只有36%的网红运营 YouTube渠道. 渠道选择:新渠道推出后,可以根据CPV的方式进 ...

  9. 主成分分析的概念与发展

    主成分分析的概念与发展 目录 主成分分析的概念与发展 摘要: 关键字: 1 主成分分析的概念 1.1主成分分析的研究背景 1.2 主成分分析的思想 2 主成分分析的原理 2.1 最大化方差 2.2 最 ...

最新文章

  1. 在网页中动态的生成一个gif图片
  2. 数字人民币实现可控匿名交易?产业升级离不开安全可信的“数字底座”
  3. qsort函数的用法
  4. hash一致性算法理解
  5. mysql键1键2_详解mysql基本操作详细(二)
  6. 前端学习(726):如何交换变量值
  7. Arduino笔记-流水点灯
  8. C++ 枚举类型的思考
  9. Leetcode每日一题:842.split-array-into-fibonacci-sequenc(将数组拆分成斐波那契序列)
  10. Java 日期格式工具类
  11. 河南科技学院计算机专业是几本,河南科技学院是几本
  12. Mini-Batch 、Momentum、Adam算法的实现
  13. Apache ab测试结果解析
  14. matlab编程求卫星轨道长度,GPS卫星轨道计算及其MATLAB仿真.pdf
  15. python做excel表格代码_Python读写Excel表格
  16. linux加载的驱动无法卸载,Linux驱动模块卸载后不能再加载、驱动不能卸载的问题(转)...
  17. SQL中CONVERT()函数用法详解
  18. MHA架构实施(一主一从)学不会,你来打我?加油!奥利给
  19. Chrome浏览器播放HTML5音频没声音的解决方案
  20. 粒子群算法的matlab实现

热门文章

  1. php中的三元运算符
  2. Debian 8 时间同步
  3. 学会asp后再学php,九天学会ASP 之 第二天
  4. python list突破上限武器_Python3 tkinter基础 Listbox height 显示行数的上限
  5. cv2 python 多线程调用摄像头_2种方法用python调用cv2模块给图片打马赛克
  6. .NETFramework、C#、VisualStudio 这三者之间关系,你了解吗!
  7. k8s glusterfs mysql_k8s使用glusterfs实现动态持久化存储
  8. 提示,请选择有效的文件
  9. 三个数互质 java_LeetCode 5198. 丑数 III(Java)容斥原理和二分查找
  10. 发现 nios2-elf-gcc 一处 bug