【机器学习】自然语言处理中的关键技术

参考

华为云学院

分词

中文分词（Chinese Word Segmentation）：指的是将一个汉字序列切分成一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
例如：一九九八年/中国/实现/进出口/总值/达/一千零九十八点二亿/美元

规则分词

规则分词：一种机械分词方法，主要是通过维护词典，在切分语句时，将语句中的每个字符串与词表中的词进行逐一匹配，找到则切分，否则不予切分。按照匹配切分的方式，主要有：
（1）正向最大匹配法（Maximum Match Method，MM法）
（2）逆向最大匹配法（Reverse Maximum Match Method，RMM法）
（3）双向最大匹配法（Bi-direction Match Method，MM法）
特点：简单高效，词典维护困难。网络新词层出不穷，词典很难覆盖所有词。

统计分析

将分词作为字在字串中的序列标注任务来实现。每个字在构造一个特定的词语时都占据着一个确定的构词位置，如果相连的字在不同的文本中出现的次数越多，就证明这相连的字很可能就是一个词。

步骤：
（1）建立统计语言模型
（2）对句子进行单词划分，然后对结果进行概率计算，获得概率最大的分词方式。如隐马尔科夫（HMM）、条件随机场（CRF）等。

深度学习分词

使用word2vec对词料的词进行嵌入，得到词嵌入后，用词嵌入特征输入给双向LSTM，对输出的隐层加一个线性层，然后加一个CRF得到最终实现的模型。

混合分词

在实际工程应用中，多是基于一种分词算法，最常用的是先基于词典的方式分词，再用统计分词方式进行辅助。

词性标注的定义

词性标注是指为分词结果中的每个单词标注一个正确的词性的过程。比如一个词是名词、动词、形容词或其他词性。
词性：词汇基本的语法属性。
目的：是很多NLP任务的预处理步骤，如句法分析、信息抽取，经过词性标注后的文本会带来很大的便利性，但也不是不可或缺。
方法：基于规则的方法、基于统计的方法、基于深度学习的方法。

命名实体识别

命名实体识别（Named Entities Recognition，NER）：又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。例如：冶金/n 工业部/n 洛阳/ns 耐火材料/l 研究院/n。
NER研究的命名实体一般分为3大类（实体类、时间类和数字类）和7小类（人名、地名、组织机构名、时间、日期、货币和百分比）。
与自动分词、词性标注一样，命名实体识别也是自然语言中的一个基础任务，是信息抽取、信息检索、机器翻译、问答系统等技术必不可少的组成部分。
步骤：（1）实体边界识别。（2）确定实体类别（人名、地名、机构名）
难点：（1）各类命名实体的数量众多。（2）命名实体的构成规律复杂。（3）嵌套情况复杂。（4）长度不确定

深度学习NER

关键词提取

关键词是代表文章重要内容的一组词，现实中大量文本不包含关键词，因此自动提取关键词技术能使人们便捷地浏览和获取信息，对文本聚类、分类、自动摘要等起重要的作用。
关键词提取算法一般也可以分为有监督和无监督两类。
有监督：通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后通过判断每个文档与词表中每个词的匹配程度，以类似打标签的方式，达到提取关键词的效果。
无监督：不需要人工生成、维护的词表，不要人工标准语料辅助进行训练。例如，TF-IDF算法、TextRank算法、主题模型算法（LSA、LSI、LDA）

TF-IDF算法

词频-逆文档频率算法（Term Frequency-Inverse Document Frequency，TF-IDF）：是一种基于统计的计算方法，常用于评估在一个文档集中一个词对某份文档的重要程度。

TextRank算法

TextRank算法的基本思想来源于Google的PageRank算法。PR算法用来评价搜索系统覆盖网页重要性的一种方法。其基本思想有两条：
（1）链接数量。一个网页被越多的其他网页链接，说明这个网页越重要。
（2）链接质量。一个网页被一个越高权重的网页链接，也能说明这个网页重要。

LSA/LSI/LDA算法

主题模型认为在词与文档之间没有直接的联系，它们应当还有一个维度将它们串联起来，这个维度称为主题。每个文档都应该你对应着一个或者多个主题，而每个主题都会有对应的词分布，通过主题可以得到每个文档的词分布。

LSA\LSI算法

LDA算法