自然语言处理NLP知识结构

自然语言处理NLP知识结构

文|秦陇纪，数据简化DataSimp

自然语言处理(计算机语言学、自然语言理解)涉及：字处理，词处理，语句处理，篇章处理词处理分词、词性标注、实体识别、词义消歧语句处理句法分析(SyntacticAnalysis)、语义分析(SenmanticAnalysis)等。其中，重点有：

1.句法语义分析：分词，词性标记，命名实体识别。

2.信息抽取

3.文本挖掘：文本聚类，情感分析。基于统计。

4.机器翻译：基于规则，基于统计，基于神经网络。

5.信息检索

6.问答系统

7.对话系统建议…本文总结的自然语言处理历史、模型、知识体系结构内容，涉及NLP的语言理论、算法和工程实践各方面，内容繁杂。参考黄志洪老师自然语言处理课程、宗成庆老师《统计自然语言处理》，郑捷2017年电子工业出版社出版的图书《NLP汉语自然语言处理原理与实践》，以及国外著名NLP书籍的英文资料、汉译版资料。

一、NLP知识结构概述

1)自然语言处理：利用计算机为工具，对书面实行或者口头形式进行各种各样的处理和加工的技术，是研究人与人交际中以及人与计算机交际中的演员问题的一门学科，是人工智能的主要内容。

2)自然语言处理是研究语言能力和语言应用的模型，建立计算机(算法)框架来实现这样的语言模型，并完善、评测、最终用于设计各种实用系统。

3)研究问题(主要)：

信息检索
机器翻译
文档分类
问答系统
信息过滤
自动文摘
信息抽取
文本挖掘
舆情分析
机器写作
语音识别

研究模式：自然语言场景问题，数学算法，算法如何应用到解决这些问题，预料训练，相关实际应用

自然语言的困难：

场景的困难：语言的多样性、多变性、歧义性

学习的困难：艰难的数学模型(hmm,crf,EM,深度学习等)

语料的困难：什么的语料？语料的作用？如何获取语料？

二、NLP知识十大结构

1形式语言与自动机

语言：按照一定规律构成的句子或者字符串的有限或者无限的集合。

描述语言的三种途径：

穷举法
文法(产生式系统)描述
自动机

自然语言不是人为设计而是自然进化的，形式语言比如：运算符号、化学分子式、编程语言

形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域，从语言学而来，作为一种理解自然语言的句法规律，在计算机科学中，形式语言通常作为定义编程和语法结构的基础

形式语言与自动机基础知识：

集合论
图论

自动机的应用：

1，单词自动查错纠正
2，词性消歧(什么是词性？什么的词性标注？为什么需要标注？如何标注？)

形式语言的缺陷：

1、对于像汉语，英语这样的大型自然语言系统，难以构造精确的文法
2、不符合人类学习语言的习惯
3、有些句子语法正确，但在语义上却不可能，形式语言无法排出这些句子
4、解决方向：基于大量语料，采用统计学手段建立模型

2 语言模型

1)语言模型(重要)：通过语料计算某个句子出现的概率(概率表示)，常用的有2-元模型，3-元模型

2)语言模型应用：

语音识别歧义消除例如，给定拼音串：ta shi yan yan jiu saun fa de

可能的汉字串：踏实烟酒算法的他是研究酸法的他是研究算法的，显然，最后一句才符合。

3)语言模型的启示：

1、开启自然语言处理的统计方法

2、统计方法的一般步骤：

收集大量语料

对语料进行统计分析，得出知识

针对场景建立算法模型

解释和应用结果

4)语言模型性能评价，包括评价目标，评价的难点，常用指标(交叉熵，困惑度)

5)数据平滑：

数据平滑的概念，为什么需要平滑

平滑的方法，加一法，加法平滑法，古德-图灵法，J-M法，Katz平滑法等

6)语言模型的缺陷：

语料来自不同的领域，而语言模型对文本类型、主题等十分敏感

n与相邻的n-1个词相关，假设不是很成立。

3概率图模型

生成模型与判别模型，贝叶斯网络，马尔科夫链与隐马尔科夫模型(HMM)

1)概率图模型概述(什么的概率图模型，参考清华大学教材《概率图模型》)

2)马尔科夫过程(定义，理解)

3)隐马尔科夫过程(定义，理解)

HMM的三个基本问题(定义，解法，应用)

注：第一个问题，涉及最大似然估计法，第二个问题涉及EM算法，第三个问题涉及维特比算法，内容很多，要重点理解，(参考书李航《统计学习方法》，网上博客，笔者github)

4 马尔科夫网，最大熵模型，条件随机场(CRF)

1)HMM的三个基本问题的参数估计与计算

2)什么是熵

3)EM算法(应用十分广泛，好好理解)

4)HMM的应用

5)层次化马尔科夫模型与马尔科夫网络

提出原因，HMM存在两个问题

6)最大熵马尔科夫模型

优点：与HMM相比，允许使用特征刻画观察序列，训练高效

缺点：存在标记偏置问题

7)条件随机场及其应用(概念，模型过程，与HMM关系)

参数估计方法(GIS算法，改进IIS算法)

CRF基本问题：特征选取(特征模板)、概率计算、参数训练、解码(维特比)

应用场景：

词性标注类问题(现在一般用RNN+CRF)

中文分词(发展过程，经典算法，了解开源工具jieba分词)

中文人名，地名识别

8)CRF++

5 命名实体识别，词性标注，内容挖掘、语义分析与篇章分析(大量用到前面的算法)

1)命名实体识别问题

自然语言处理NLP知识结构相关推荐

Interview之NLP：人工智能领域求职岗位—自然语言处理NLP算法工程师职位的简介、薪资介绍、知识结构之详细攻略
Interview之NLP:人工智能领域求职岗位-自然语言处理NLP算法工程师职位的简介.薪资介绍.知识结构之详细攻略目录自然语言处理NLP算法工程师的职位简介 1.资讯指数 2.各大公司的具体职 ...
【组队学习】【29期】9. 基于transformers的自然语言处理(NLP)入门
9. 基于transformers的自然语言处理(NLP)入门航路开辟者:多多.erenup.张帆.张贤.李泺秋.蔡杰.hlzhang 领航员:张红旭.袁一涵航海士:多多.张红旭.袁一涵.童鸣基 ...
【组队学习】【28期】基于transformers的自然语言处理(NLP)入门
基于transformers的自然语言处理(NLP)入门论坛版块: http://datawhale.club/c/team-learning/39-category/39 开源内容: https: ...
自然语言处理(NLP)之用深度学习实现命名实体识别(NER)
几乎所有的NLP都依赖一个强大的语料库,本项目实现NER的语料库如下(文件名为train.txt,一共42000行,这里只展示前15行,可以在文章最后的Github地址下载该语料库): played ...
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度所用数据集:ChnSentiCorp_htl_all.csv 语料库即存放稀疏向量的列表. 要注意的是,搜索文本text与被检索的文档共用一 ...
自然语言处理(NLP)之gensim中的TF-IDF的计算方法
自然语言处理(NLP)之gensim中的TF-IDF的计算方法 step 1. 去掉所有文本中都会出现的词 texts = [['这是', '一个', '文本'], ['这是', '第二个', '文 ...
自然语言处理NLP之语义相似度、语言模型、doc2vec
自然语言处理NLP之语义相似度.语言模型.doc2vec 目录自然语言处理NLP之语义相似度.语言模型.doc2vec 语义相似度
自然语言处理NLP之BERT、BERT是什么、智能问答、阅读理解、分词、词性标注、数据增强、文本分类、BERT的知识表示本质
自然语言处理NLP之BERT.BERT是什么.智能问答.阅读理解.分词.词性标注.数据增强.文本分类.BERT的知识表示本质目录
自然语言处理NLP之文本蕴涵、智能问答、语音识别、对话系统、文本分类、情感计算
自然语言处理NLP之文本蕴涵.智能问答.语音识别.对话系统.文本分类.情感计算目录
自然语言处理NLP之文本摘要、机器翻译、OCR、信息检索、信息抽取、校对纠错
自然语言处理NLP之文本摘要.机器翻译.OCR.信息检索.信息抽取.校对纠错目录

自然语言处理NLP知识结构

自然语言处理NLP知识结构相关推荐

最新文章

热门文章