NLP入门-综述阅读-【自然语言处理发展及应用综述】

1 前言
2 自然语言处理的发展
3 自然语言处理的研究方法和内容
- 3.1 自然语言处理的研究方法
- 3.2 自然语言处理基础研究
- - 3.2.1 词法分析
  - 3.2.2 句法分析
  - 3.2.3 语义分析
  - 3.2.4 语用分析
4 自然语言处理的技术领域
- 4.1 信息抽取（IE）
- - 4.1.1 信息抽取的主要方法
  - 4.1.2 信息抽取的主要工作
- 4.2 自动文摘
- - 4.2.1 自动文摘的分类
  - 4.2.2 自动文摘生成方法
5 自然语言处理的预测和展望
总结

青岛理工大学-赵京胜等人-2019年7月

摘要：自然语言处理涉及许多领域，包括词汇、句法、语义和语用分析，文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着通信和计算机相关技术的发展，自然语言处理的应用需求也越来越大。分析自然语言处理的相关背景、常用方法和应用领域，并对 NLP 的发展进行了展望。

关键词：自然语言处理；信息抽取；自动文摘

1 前言

自然语言处理主要分两个流程：自然语言理解NLU和自然语言生成NLG

自然语言理解NLU主要是理解文本的含义，具体到每个单词和结构都需要被理解

自然语言生成NLG通过评估情况和可用的交际资源来计划如何实现目标，并将计划形成文本

2 自然语言处理的发展

1956年以前：萌芽期
1957-1970年：快速发展期
1971-1993年：低谷发展期
1994年至今：复苏融合期

隐马尔可夫模型？（好像经常听到，只能学了！冲！）

3 自然语言处理的研究方法和内容

3.1 自然语言处理的研究方法

中文信息处理主要是对字、词、段落或篇章进行处理。主要方法分别是基于规则和基于统计的方法，前者是人工根据语言相关的规则对文本进行处理；后者则是通过大规模的数据库分析数据，从而实现对自然语言的处理。

自然语言处理受数据影响较大，而数据的增长是大多数 NLP 应用（如机器翻译）性能提高的原因，所以拥有强大的数据支持才可以更好的对文本进行进一步的理解和分析，这使得如今很多NLP 应用程序采用数据流分析方法。

自然语言处理的大致流程：
1）获取语料
2）对语料进行预处理，其中包括语料清理、分词、词性标注和去停用词等步骤
3）特征化，即向量化，主要把分词后的字和词表示成计算机可计算的类型（向量），这样有助于较好的表达不同词之间的相似关系
4）模型训练，包括传统的有监督、半监督和无监督学习模型等，可根据应用需求不同进行选择。但在模型训练时可能会出现过拟合和欠拟合的状况。解决过拟合的方法主要有增加正则化项从而增大数据的训练量，解决欠拟合则要减少正则化项，增加其他特征项处理数据才行。
5）对建模后的效果进行评价，常用的评测指标有准确率、召回率、F值等。准确率是衡量检索系统的查准率；召回率是衡量检索系统的查全率；而F值是综合准确率和召回率用于反映整体的指标，当F值较高时则说明试验方法有效。

3.2 自然语言处理基础研究

3.2.1 词法分析

词法分析主要包括分词、词性标注、命名实体识别和词义消歧。

词性和词义标注是词法分析的主要任务。词性是词汇最基本的语法属性，使用词性标注便于判定每个词的语法范畴。词义标注、词义消歧主要解决多语境下的词义问题，因为在多语境下一个词可能会拥有很多含义，但在固定情境下意思往往是确定的。在中文自然语言处理的分词模块中，词法分析是最核心的一部分，只有做好分词工作，剩下的工作才能顺利进行。

命名实体识别的主要任务是识别文本中具有特定意义的词语如人名、地名等，并为其添加标注，是自然语言处理的一个重要工具。

词法分析的实现主要通过基于规则、基于统计、基于机器学习的方法。

3.2.2 句法分析

句法分析的主要任务是为了确定句子中各组成成分之间的关系，也就是其句法结构，技术实现上主要分为修辞结构分析和依存关系分析，功能上可分为完全句法分析和局部句法分析。

完全句法分析是要通过一套完整的分析过程获得一个句子的句法树，局部分析也叫浅层分析，仅获得局部成分的语法。目前应用较多的依存分析是指对句子中词汇之间的依存关系进行分析。

对完全句法分析来说，Chomsky 形式文法是极为重要的理论，根据重写规则分为 4 级，分别是 0 型文法（无约束文法）、1 型文法（上下文有关文法）、2 型文法（上下文无关文法）和 3 型文法（正则文法）。这 4 种文法统称为短语结构语法。

浅层句法分析可分为两个子任务：其一是识别和分析语块，其二是分析语块之间的依附关系。依存句法也称从属关系语法。一个依存关系可分为核心词和依存词。核心词是一个句子的根节点，一个句子只有一个，它负责支配句子中的其他词，核心词一般与依存词之间存在着一定的关系，如主谓关系、动宾关系和并列关系等。

3.2.3 语义分析

对于不同的语言单位，语义分析有着不同的意义。在词的层面上，语义分析指词义消歧；在句的层面上指语义角色标注；在篇章的层面上指共指消解。语义分析是目前 NLP研究的重点方向。

语义分析目前很难

3.2.4 语用分析

语用分析主要是把文本中的描述和现实相对应，形成动态的表意结构。

语用分析有四大要素：发话者、受话者、话语内容和语境。前两者指语言的发出者和接受者；话语内容指发话者用语言符号表达的具体内容；语境指言语行为发生时所处的环境，主要有上下文语境、现场语境、交际语境和背景知识语境。

4 自然语言处理的技术领域

自然语言处理作为一个多学科交叉的研究领域，涉及到许多的研究和应用技术，包括信息检索、文本分类和自动文摘等。

**信息检索（IR）**有两方面的任务，第一是存储海量信息，第二是根据用户需求快速查找相关信息

文本分类是根据一套分类规则对文本进行自动分类的过程

情感分析是一种通过判断文本情感极性去表征文档的技术

机器翻译是通过计算机将一种语言翻译到其他语言

社会计算是采用互联网、大数据和机器学习等技术来研究社会问题，并寻找出一种合适的方法去解决问题。

4.1 信息抽取（IE）

信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程，从自然语言构成的语料中提取出命名实体之间的关系，是一种基于命名实体识别更深层次的研究。

信息抽取的主要过程有三步：
1）对非结构化的数据进行自动化处理
2）针对性的抽取文本信息
3）对抽取的信息进行结构化表示

信息抽取最基本的工作是命名实体识别，而核心在于对实体关系的抽取

非结构化：如文本

4.1.1 信息抽取的主要方法

传统的信息抽取的方法主要有两种：基于规则和基于统计的方法。

近年来，信息抽取工作越来越依赖机器学习的算法，所以机器学习在一些方面的突破为信息抽取提供了技术上的支持。

4.1.2 信息抽取的主要工作

信息抽取主要工作包括实体识别与抽取、实体消歧、关系抽取和事件抽取等。其中基础性工作是命名实体识别（NER），其主要任务是识别文本中具有特定意义的词语，并为其添加相应的标注，为后续工作奠定基础。

4.2 自动文摘

自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术，旨在实现两个目标：首先使语言的简短，其次要保留重要信息。

4.2.1 自动文摘的分类

主要分为抽取式摘要和生成式摘要

抽取式摘要是选取原文中部分关键词组合成一篇摘要；生成式摘要是指当计算机通读原文并理解了文章的基础上，间接凝练出原文的主旨要点。

除此之外还可以根据输入文本的数量分为单文本摘要和多文本摘要等。

4.2.2 自动文摘生成方法

自动文摘的主要过程有三步，首先对语料进行预处理，识别冗余信息；其次是对文本内容进行选取和泛化；最后对文摘进行转换和生成，就是对文本内部进行重组生成文摘，生成的摘要具有压缩性、内容完整性和可读性的特点。

自动文摘的主要方法包括：基于规则的方法、基于图模型的方法、基于理解的方法和基于结构的方法等。

5 自然语言处理的预测和展望

哈尔滨工业大学刘挺教授在第三届中国人工智能大会上提到：可以使阅读理解作为一个深入探索自然语言理解的平台，Google 也已经推出了这样的测试机，也就是说让计算机理解一篇文章，接下来人类对计算机进行提问，观察计算机的回答能力完成测试。

总结

NLP综述搞定！下一篇知识图谱的综述！冲冲冲！

NLP入门之综述阅读-自然语言处理发展及应用综述相关推荐

自然语言处理发展及应用
目录自然语言处理发展及应用 Summary 概念定义流程发展历史研究方法 >自然语言处理流程基础研究的四个层面 >1. 词法分析 >2. 句法分析 >3. 语义分析 ...
NLP入门之综述阅读-基于深度学习的自然语言处理研究综述
NLP入门-综述阅读-[基于深度学习的自然语言处理研究综述] 基于深度学习的自然语言处理研究综述摘要 0 引言 1 深度学习概述卷积神经网络递归神经网络 2 NLP应用研究进展 3 预训练语言模 ...
论文阅读：How Does NLP Benefit Legal System：A Summary of LAI如何使用NLP技术帮助法律智能：关于法律智能的综述
How Does NLP Benefit Legal System:A Summary of Legal ArtificialIntelligence Intelligence 如何使用NLP技术帮助 ...
NLP 作业：机器阅读理解（MRC）综述
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的个人博客,以及我的github. 本文主要是我的 NLP 作业--机器阅读理解的综述,内容很少涉及到模型的具体架构和相关 ...
论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型
Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型目录 Pre-trained Models f ...
【组队学习】【29期】9. 基于transformers的自然语言处理(NLP)入门
9. 基于transformers的自然语言处理(NLP)入门航路开辟者:多多.erenup.张帆.张贤.李泺秋.蔡杰.hlzhang 领航员:张红旭.袁一涵航海士:多多.张红旭.袁一涵.童鸣基 ...
【组队学习】【28期】基于transformers的自然语言处理(NLP)入门
基于transformers的自然语言处理(NLP)入门论坛版块: http://datawhale.club/c/team-learning/39-category/39 开源内容: https: ...
自然语言处理(NLP)入门
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库.NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库. 什么是NLP? 简单来说,自然 ...
《预训练周刊》第28期：M6-10T：高效多万亿参数预训练的共享去链接范式、大模型自然语言处理的最新进展综述...
No.28 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了11篇预训练相关的论文,涉及模型训练.图像编码.气候文本.对比学习.文本生成评估.小样本学习.决策推理 ...

NLP入门之综述阅读-自然语言处理发展及应用综述