自然语言菜鸟学习笔记（二）

词法分析

1.语言的分类

传统语言学根据词的形态结构把语言分为三大类：

分析型语言

黏着性语言

曲折型语言

1.1分析型语言

词基本没有专门表示语法意义的附加成分

形态变化少

语法关系靠词序、虚词来表示

如：汉语、藏语

1.2黏着型语言

词内有专门表示语法意义的附加成分，一个附加成分表达一种语法意义，一种意义也基本上由一个附加成分来表达

词根或词干跟附加成分的结合不紧密

如：日语

1.3曲折型语言

用词的形态变化来表示语法关系，一个形态成分可以表示若干种不同的语法意义

词根或词干跟词的附加成分结合得很紧密，往往不容易截然分开

如：英语、德语、法语等

简单比较（汉语与英语的比较）

汉语：词与词紧密相连，没有明显的分界标志

英语：用空格隔开，无需分词

汉语的词形态变化少，靠词序或虚词来表示，而英语用词的形态变化来表示语法关系

所以对汉语进行词的自动切分对英语进行词的形态还原

2.汉语的自动分词

根据GB-13715规范：

汉语信息处理

• 用计算机对汉语的音、形、义等信息进行的处理。

词

• 最小的能独立运用的语言单位

词组

• 由两个或两个以上的词，按一定的语法规则组成，表达一定意义的语言单位

分词单位

• 汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组。

汉语分词

• 从信息处理需要出发、按照特定的规范，对汉语按分词单位进行划分的过程。

汉语自动分词主要包括：

1 根据分词规范，建立机器词典；

2 根据分词算法和机器词典，把字串切分为词串。

3 机器学习方法和统计方法

构建词典：把没有明显分界标志的字串切分为词串。包括：标点符号、数字、数学符号、各种标记、人名、地名、机构名等未登录词的识别。

构建分词词典是一件非常难并且乏味的事情，那些构建词典的大佬都是值得敬佩的，像大佬鞠躬

汉语分词的重要性

汉语中词是汉语语言中最小的独立运用单位

分词是句法分析的基础，是所有应用系统进行的第一步。

只有进行了分词，才可以继续进行下面的语法分析、语义分析等。

一般句法分析所凭借的语法知识主要来自机器词典和句法规则库，这些都是根据词条来收录的，因此需要事先对一连串的汉字进行分词

应用包括：词频统计、自动摘要、自动分类、机器翻译等都需要事先进行分词。

汉语分词又分为基于规则和基于统计的分词方法

基于规则的分词法：

(1) 事先人工建立好分词词典和分词规则库。

(2) 原理为基于字符串匹配进行分词，这样就要求有足够大的词表为依据。

(3) 通过一定的算法来实现，如正向最大匹配法、逆向最大匹配法、双向匹配法等。

(4) 优缺点：当分词词典所收容的词较少时，显然覆盖度就有限，分词的正确率就低。

基于统计的分词法：

（1）利用字与字间、词与词间的同现频率作为分词的依据，可以没有建立好的词典

（2）需要大规模的训练文本, 用来训练模型参数

（3）优点：不受应用领域的限制；

（4）缺点：训练文本的选择将影响分词结果

3.基于规则的分词算法

3.1正向最大匹配分词法（MM）

算法描述：

设MaxLen表示最大词长，D为分词词典

(1) 从待切分语料中按正向取长度为MaxLen的字串str,令 Len=MaxLen;

(2) 把str与D中的词相匹配;

(3) 若匹配成功，则认为该字串为词，指向待切分语料的指针向前移Len个汉字(字节)，返回到（1）;

(4) 若不成功：如果Len>1，则将Len减2，从待切分语料中取长度为Len的字串str,返回到（2）。否则，得到长度为 2的单字词，指向待切分语料的指针向前移1个汉字，返回（1）。

举例：比如说有一个分词词典：我，我是，我在，吃饭

比如说我们要对一个句子“我在吃饭”进行分词，那么我们首先先设定一个MaxLen，这里我们将MaxLen设为3，那么我们从句子里面取出三个字也就是 “我在吃” 去词典里面去匹配，发现词典里面匹配不到 “我在吃” 那么我们进行第（4）步操作，我们将长度减一，也就是变成 “我在” 去词典里面匹配，发现匹配成功！然后我们将指针向前移两个字，再取最后的 “吃饭” 去词典里面匹配，匹配成功，那么我们最后的分词结果为：

“我在 / 吃饭”

正向最大匹配分词缺点：

忽视“词中有词”的现象，导致切分错误

如切分：”幼儿园地节目”

切分结果为：幼儿园/地/节目/

正确结果为：幼儿/园地/节目/

最大词长难以确定

太长，匹配所花时间多，算法时间复杂度提高

太短，不能切分长度超过它的词，导致切分正确率降低

3.2逆向最大匹配法（RMM）

与正向匹配算法反向，一开始的时候从尾部开始取，去MaxLen个字，然后匹配不成功的时候len减一则减去开头那个字

3.3双向匹配法

算法描述：

对同一个字符串分别采用MM和RMM两种方法进行切分处理，如果能够得到相同的切分结果，则认为切分成功，否则认为有疑点。

针对疑点：

•采用上下文信息，根据歧义规则库进行排歧；

•或进行人工干预，选取一种切分为正确的切分。

优点：

克服了MM方法里忽视“词中有词”的现象

缺点：

• 于算法复杂度的提高

• 并且为了支持正反向匹配算法，词典设置要复杂

• 对某些句子仍然无法发现歧义

4.基于统计的中文分词算法

概率最大分词方法

基本思想：选择概率最大的分词路径作为最优结果:

输入：字符串S：幼儿园地节目

输出：

词串W1：幼儿园/ 地/ 节目/

词串W2：幼儿/ 园地/ 节目/

即求 max(P(W1|S), P(W2|S))

依据贝叶斯定理及独立性假设：

举例：

我们这里随便假设一个概率表格，我们对字符串 “有意见分歧” 进行分词，我们给出两种分词的路径如下：

经过计算：

可见：P(W1)>P(W2) 所以我们最后的结果为：有 / 意见 / 分歧 /

概率最大分词方法优化：

根据分词的左临词来决定总的概率

利用动态规划算法来实现：即最优路径中的第i个词wi 的累计概率等于它的左相邻词wi-1的累积概率乘以wi 自身的概率

具体步骤：

对一个待分词的字串S,按照从左到右的顺序取出全部候选词w1,w2,…,wi ,wn;

计算每个候选词的概率值P(wi ),记录每个候选词的全部左邻词;

计算每个候选词的累计概率，累计概率最大的候选词为最佳左邻词;

如果当前词wn是字串的尾词,且累计概率P’(wn)最大，则wn是S的终点词；

从wn开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即S的分词结果.

举例：

我们下面使用概率最大分词方法来对 “结合成分子时”

概率表：

可见，我们执行最后一步，从“时”开始往左进行扫描最佳左邻词，“时”的最佳左邻是分子（P(分子)>P(子)）

以此类推，我们最后得到的概率最大分词为：结合/ 成/ 分子/ 时/

5.评测指标

正确率 (precision, P) ：测试结果中正确切分的个数占系统所有输出结果的比例

召回率(Recall ratio, R)：测试结果中正确结果的个数占标准答案总数的比例

F-度量值：正确率和召回率的综合值

本菜鸟学习不好，如有不妥望各位大佬指点

如要转载请说明原文：https://blog.csdn.net/qq_36652619/article/details/83789218