NLP基础—2.文本预处理

文章目录

一、分词
- 1.最大匹配分词法
- 2.基于语言模型的分词
二、拼写纠错
- 1. 如何解决错别字错误？
三、停用词过滤
四、词的标准化—normallzation
- 1.Stemming—词干提取
- 2. Lemmatization—词形还原

一、分词

中文中常用的分词工具（Word Segmentation Tools）有JieBa分词，SnowNlp，HanLP。

1.最大匹配分词法

最大匹配分词法是一种基于字符串匹配和规则的方法，这种方法依赖于词典的信息，对于词典以外的信息，认为没有见过。最大匹配分词法会优先考虑长词，如果优先考虑短词则是最小匹配分词法。如果从前往后匹配则是前向匹配，如果从后往前匹配则是后向匹配。

以前向最大匹配法，这句话会分成
他说的确实在理
以后向最大匹配法，这句话会分成
他说的确实在理

在汉语中，后向匹配的准确率比前向匹配的准确率高，这是因为汉语中存在中心词偏后的现象。
最大匹配法的缺点是什么？
这种方法的优势在于切分简单，很容易将待切分的字符串分成不同的词，但是这种方法很容易生成不符合语法逻辑的分词结果，不符合汉语常用的语法规则（不像人话）。

2.基于语言模型的分词

语言模型可以说是自然语言处理中最重要的模型。语言模型可以看做是一个函数，用于计算一个句子出现的概率，即语言模型可以判断某一句话是不是人话。那么我们怎么利用语言模型进行分词呢？我们可以采取这样的套路，对于待切分的句子，我们生成所有可能的切分，使用语言模型对所有可能的分词模型进行打分，选择概率最高的作为分词结果，最终得到最符合语言模型的结果。其原理为：

这样求解下来，容易出现数据稀疏问题，如果假设：假设每个词的出现概率是独立的，那样，就可以将上面的条件概率分布简化为如下一元语言模型：

但是很明显每个词出现的概率不可能是独立的，所以我们可以放宽假设，这就涉及到NLP领域最重要的假设：马尔科夫假设，假设任意一个词，它的出现概率只与前面出现的一个词(或者几个词)有关，那么，基于这个假设就可以将上面的条件概率分布简化为如下二元语言模型：

这就是基于N-gram的语言模型。其思路是：利用链式法则，将联合概率分布转化为条件概率分布乘积的形式，然后再近似估计每一个单词的条件概率，最后得到每一个句子出现的概率。

我们需要做的是：对于这个带权重的有向图，我们需要寻找从第一个节点到最后一个节点的一条路径，这条路径使得对应边上权重的乘积最大。我们可以使用动态规划算法来解决这个DP问题。比如：维特比算法，将分词任务转变成有向图中路径检索的任务，检索出最优路径，即得到最好的分词结果。

二、拼写纠错

拼写错误在英语中比汉语中更加常见。拼写纠错的前提是你所要输入的词是在词典中的，所使用的词典是非常完备的。我们可以将拼写错误分成两种情况：一种是错别字错误；另一种是语法错误。

1. 如何解决错别字错误？

首先是发现错误
假设有一个非常完备的包含所有正确单词的词典，将用户的词在词典中寻找，如果没有发现，那么认为用户单词拼写错误
纠正错误
纠正错误的核心是如何生成候选的单词，要求候选的词与输入非常相近，这时，我们就需要一个度量方式（编辑距离），来度量两个单词之间是否相似，我们把编辑距离最小的词当成它的候选。

输入（用户输入）

从词典中寻找编辑距离最小的候选（生成编辑距离为1,2的字符串）

过滤
我们如何进行过滤呢？
这里要用到noisy channel model

贝叶斯公式:

其中，P(c)P(c)P(c)就是一个语言模型，P(s|c)就是在字符串c出现的前提下，字符串s出现的概率。这样处理相当于将一个复杂问题划分成两个子问题乘积的形式来考虑。

返回

最小编辑距离Minimum Edit Distance（MED）：
两个字符串之间的最小编辑距离可以定义为将字符串1转化为字符串2的最小的[插入/删除/替换]的操作数。

字符串"ABC"到字符串“BC”的操作数为1。

字符串“INTENTION”转变成字符串“EXECUTION”的操作数为5。
最小编辑距离有如下应用：拼写纠错，基因序列对齐；评估机器翻译与语音识别中的错误。
如何计算两个字符串的最小编辑距离？
这是一个DP问题，需要使用动态规划算法，两个字符串的最小编辑距离可以划分成计算两个子串的最小编辑距离。

如果两个子串Am == Bn，则两个字符串的最小编辑距离等于去掉这个子串的最小编辑距离。
如果两个子串Am != Bn，则分别计算三种操作的最小编辑距离，选择编辑距离最小的，即为最小编辑距离。

三、停用词过滤

对于NLP应用，我们通常会先把停用词、出现频率很低的词汇过滤掉，这其实类似于特征筛选的过程。在英文里，比如：“the”，“an”，“their”这些都可以作为停用词来处理，但是，也需要考虑对应的应用场景。这一部分会基于已维护的停用词表来做，只要这个词出现在停用词表中，就将这个词删掉。

四、词的标准化—normallzation

Acronyms(缩略语)

Accents(口音)

Capitalization（大小写转换）

其他，诸如：日期的统一

1.Stemming—词干提取

只保留词根（通常只是删除后缀），将不同词性的单词统一成为同一词干的形式。

 keeping only the root of the word (usually just deleting suffixes)

例如：
’ economy, economic, economical, economically, economics, economize => econom

2. Lemmatization—词形还原

仅保留lemma
例如：
produce, produces, product, production => produce

不论是词干提取还是词形还原现在都可以直接调用现成的工具库来使用。

如果对您有帮助，麻烦点赞关注，这真的对我很重要！！！如果需要互关，请评论或者私信！