作者:白宁超,工学硕士,现工作于四川省计算机研究院,著有《自然语言处理理论与实战》一书,作者公众号:机器学习和自然语言处理(公众号ID:datathinks)


结巴分词详解1中文分词介绍

中文分词特点

  1. 词是最小的能够独立活动的有意义的语言成分

  2. 汉语是以字位单位,不像西方语言,词与词之间没有空格之类的标志指示词的边界

  3. 分词问题为中文文本处理的基础性工作,分词的好坏对后面的中文信息处理其关键作用

中文分词的难点

  1. 分词规范,词的定义还不明确 (《统计自然语言处理》宗成庆)

  2. 歧义切分问题,交集型切分问题,多义组合型切分歧义等 
    结婚的和尚未结婚的 => 
    结婚/的/和/尚未/结婚/的 
    结婚/的/和尚/未/结婚/的

  3. 未登录词问题有两种解释:一是已有的词表中没有收录的词,二是已有的训练语料中未曾出现过的词,第二种含义中未登录词又称OOV(Out of Vocabulary)。对于大规模真实文本来说,未登录词对于分词的精度的影响远超歧义切分。一些网络新词,自造词一般都属于这些词。

汉语分词方法

  1. 基于字典、词库匹配的分词方法(基于规则) 
    基于字符串匹配分词,机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率,或将分词与词类标注结合。

  2. 基于词频度统计的分词方法(基于统计) 
    相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,基于词的频度统计的分词方法是一种全切分方法。jieba是基于统计的分词方法,jieba分词采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

  3. 基于知识理解的分词方法。 
    该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。因此目前基于知识的分词系统还处在试验阶段。

分词工具下载

  • hanllp jar包(http://download.csdn.net/download/lb521200200/9686915)

  • ik 分词 5.0.0版本jar包(http://download.csdn.net/download/youyao816/9676084)

  • ik分词 1.10.1版本jar包(http://download.csdn.net/download/youyao816/9676082)

  • IKAnalyzer所需的jar包(http://download.csdn.net/download/jingjingchen1014/9659225)

  • jieba分词包(http://download.csdn.net/download/u014018025/9652341)

2结巴中文分词详解

结巴分词的算法策略

  1. 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

  2. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

  3. 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

结巴源码组织形式

jieba 

|-- Changelog 

|-- extra_dict 

| |-- dict.txt.big 

| |-- dict.txt.small 

| |-- idf.txt.big 

| `-- stop_words.txt 

|-- jieba 

| |-- analyse 

| | |-- analyzer.py 

| | |-- idf.txt 

| | |-- __init__.py 

| | |-- textrank.py 

| | `-- tfidf.py 

| |-- _compat.py 

| |-- dict.txt 

| |-- finalseg 

| | |-- __init__.py 

| | |-- prob_emit.p 

| | |-- prob_emit.py 

| | |-- prob_start.p 

| | |-- prob_start.py 

| | |-- prob_trans.p 

| | `-- prob_trans.py 

| |-- __init__.py 

| |-- __main__.py 

| `-- posseg 

| |-- char_state_tab.p 

| |-- char_state_tab.py 

| |-- __init__.py 

| |-- prob_emit.p 

| |-- prob_emit.py 

| |-- prob_start.p 

| |-- prob_start.py 

| |-- prob_trans.p 

| |-- prob_trans.py 

| `-- viterbi.py 

|-- LICENSE 

|-- setup.py `-- test 

|-- *.py 

|-- parallel 

| |-- extract_tags.py 

| `-- test*.py `-- userdict.txt

代码行数统计(没有统计test文件夹下的代码)

256 ./posseg/prob_start.py 

5307 ./posseg/prob_trans.py 

304 ./posseg/__init__.py 

89372 ./posseg/prob_emit.py 

61087 ./posseg/char_state_tab.py 

53 ./posseg/viterbi.py

578 ./__init__.py 

4 ./finalseg/prob_start.py 

4 ./finalseg/prob_trans.py 

107 ./finalseg/__init__.py 

35226 ./finalseg/prob_emit.py 

31 ./_compat.py 

50 ./__main__.py 

111 ./analyse/tfidf.py 

37 ./analyse/analyzer.py 

104 ./analyse/textrank.py 

18 ./analyse/__init__.py 

192649 总用量

其中prob*.py的文件是作者事先训练好的模型参数(λ=(A,B,π)),如状态转移概率、发射概率等。真正的代码数也就:304+53+578+107+31+50+111+37+104+18=1393行(不包括test文件中的代码),当然作者的代码写的比较简洁。

jieba分词模型的参数数据(λ=(A,B,π))是如何生成的?

即文件finalseg/prob_*.py,中初始化概率,状态转移概率,发射概率怎么算出来的? 
来源主要有两个: 一个是网上能下载到的1998人民日报的切分语料还有一个msr的切分语料; 另一个是作者自己收集的一些txt小说,用ictclas把他们切分(可能有一定误差)。 然后用python脚本统计词频 具体详情。

要统计的主要有三个概率表

  1. 位置转换概率(状态转移概率),即B(开头),M(中间),E(结尾),S(独立成词)四种状态的转移概率;

  2. 位置到单字的发射概率,比如P(“和”|M)表示一个词的中间出现”和”这个字的概率;

  3. 词语以某种状态开头的概率,其实只有两种,要么是B,要么是S。

3结巴分词的思想

算法实现分词

(1) 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);

作者这个版本中使用前缀字典实现了词库的存储(即dict.txt文件中的内容),而弃用之前版本的trie树存储词库,想想也是,python中实现的trie树是基于dict类型的数据结构而且dict中又嵌套dict 类型,这样嵌套很深,导致内存耗费严重,详情见作者把trie树改成前缀词典的 缘由, 具体实现见 gen_pfdict(self, f_name)。接着说DAG有向无环图, 生成句子中汉字所有可能成词情况所构成的有向无环图。DAG根据我们生成的前缀字典来构造一个这样的DAG,对一个sentence DAG是以{key:list[i,j…], …}的字典结构存储,其中key是词的在sentence中的位置,list存放的是在sentence中以key开始且词sentence[key:i+1]在我们的前缀词典中 的以key开始i结尾的词的末位置i的列表,即list存放的是sentence中以位置key开始的可能的词语的结束位置,这样通过查字典得到词, 开始位置+结束位置列表。

例如:句子“抗日战争”生成的DAG中{0:[0,1,3]} 这样一个简单的DAG, 就是表示0位置开始, 在0,1,3位置都是词, 就是说0~0,0~1,0~3 即 “抗”,“抗日”,“抗日战争”这三个词 在dict.txt中是词。

(2)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合; 
基于上面的DAG利用动态规划查找最大概率路径,这个理解DP算法的很容易就能明白了。根据动态规划查找最大概率路径的基本思路就是对句子从右往左反向计算最大概率,..依次类推, 最后得到最大概率路径, 得到最大概率的切分组合(这里满足最优子结构性质,可以利用反证法进行证明),这里代码实现中有个小trick,概率对数(可以让概率相乘的计算变成对数相加,防止相乘造成下溢,因为在语料、词库中每个词的出现概率平均下来还是很小的浮点数). 
(3)对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法;
未登录词(即jieba中文分词源码分析(一))中说的OOV, 其实就是词典 dict.txt 中没有记录的词。这里采用了HMM模型,HMM是个简单强大的模型,可以参考这个网络资源进行学习,HMM在实际应用中主要用来解决3类问题:

  1. a. 评估问题(概率计算问题) :即给定观测序列 O=O1,O2,O3…Ot和模型参数λ=(A,B,π),怎样有效计算这一观测序列出现的概率. (Forward-backward算法)

  2. b. 解码问题(预测问题) :即给定观测序列 O=O1,O2,O3…Ot和模型参数λ=(A,B,π),怎样寻找满足这种观察序列意义上最优的隐含状态序列S。 (viterbi算法,近似算法)

  3. c. 学习问题 :即HMM的模型参数λ=(A,B,π)未知,如何求出这3个参数以使观测序列O=O1,O2,O3…Ot的概率尽可能的大. (即用极大似然估计的方法估计参数,Baum-Welch,EM算法)

模型的关键相应参数λ=(A,B,π),经过作者对大量语料的训练, 得到了finalseg目录下的三个文件(初始化状态概率(π)即词语以某种状态开头的概率,其实只有两种,要么是B,要么是S。这个就是起始向量, 就是HMM系统的最初模型状态,对应文件prob_start.py;隐含状态概率转移矩A 即字的几种位置状态(BEMS四个状态来标记, B是开始begin位置, E是end, 是结束位置, M是middle, 是中间位置, S是single, 单独成词的位置)的转换概率,对应文件prob_trans.py;观测状态发射概率矩阵B 即位置状态到单字的发射概率,比如P(“狗”|M)表示一个词的中间出现”狗”这个字的概率,对应文件prob_emit.py)。

4参考文献

  1. 中文分词之HMM模型详解

  2. HMM相关文章

  3. 结巴分词GitHub源码

作者:白宁超,工学硕士,现工作于四川省计算机研究院,研究方向是自然语言处理和机器学习。曾参与国家自然基金项目和四川省科技支撑计划等多个省级项目。著有《自然语言处理理论与实战》一书。

作者博客官网:

https://bainingchao.github.io/

作者公众号,欢迎关注:

机器学习和自然语言处理公众号ID:datathinks

jieba结巴分词--关键词抽取_结巴中文分词原理分析2相关推荐

  1. jieba结巴分词--关键词抽取_初学者 | 知否?知否?一文学会Jieba使用方法

    欢迎关注同名微信公众号:AI小白入门.跟着博主的脚步,每天进步一点点哟 我始终觉得,入门学习一件事情最好的方式就是实践,加之现在python如此好用,有越来越多的不错nlp的python库,所以接下来 ...

  2. 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  3. PHP+mysql数据库开发搜索功能:中英文分词+全文检索(MySQL全文检索+中文分词(SCWS))...

    PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索 中文分词: a)   robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...

  4. jieba结巴分词--关键词抽取(核心词抽取)

    转自:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献 ...

  5. jieba结巴分词--关键词抽取_jieba分词的原理(文末有维特比算法讲解)

    前言 实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...

  6. python关键词提取源码_Python 结巴分词 关键词抽取分析

    关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来.这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语.因此,目前依然可以在论文中看到关键词这一项. ...

  7. 结巴分词python安装_“结巴”分词:做最好的Python分词组件

    python 结巴分词学习 https://www.toutiao.com/a6643201326710784520/ 2019-01-06 10:14:00 结巴分词(自然语言处理之中文分词器) j ...

  8. 如何在jieba分词中加自定义词典_常见中文分词包比较

    1 jieba jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_sea ...

  9. python中文分词工具jieba_Python 流行的中文分词工具之一 jieba

    jieba分词是Python 里面几个比较流行的中文分词工具之一.为了理解分词工具的工作原理,以及实现细节对jieba进行了详细的阅读. 读代码之前,我有几个问题是这样的: 分词工具的实现都有哪几个步 ...

最新文章

  1. “人工智能进行临床诊断,至少在今天看来不靠谱”
  2. 浅谈机房内的汇流铜排
  3. PyPy为什么能让Python比C还快?一文了解内在机制
  4. java 文件下载详解_Java 从网上下载文件的几种方式实例代码详解
  5. python接口自动化接口依赖_Python接口自动化之mock模块简单使用
  6. [转]SqlServer2005 各版本区别
  7. 信息流服务器哪种好,选购存储服务器需要注意六大关键因素,你知道几个?
  8. python手写代码面试_常见Python面试题—手写代码系列
  9. 基于GaussDB(DWS)的全文检索特性,了解一下?
  10. ORACLE 修改日志大小及增加日志成员
  11. 听说阎王爷要做个生死簿后台管理系统,我们派去了一个程序员……
  12. 使用express重构博客项目
  13. JAVA基本数据结构
  14. 提高办公效率的方法-工具篇
  15. MATLAB警告:名称不存在或不是目录
  16. AMI编码规则与HDB3编码规则详解
  17. 计算机等级考试一级wps office 教程,全国计算机等级考试一级WPSOffice教程
  18. ubuntu屏幕放大+复制粘贴共享
  19. ERP财务管理模块包括什么
  20. matlab剪切板中内容清除,清除剪贴板的内容

热门文章

  1. 该系列主要整理收集在使用C#开发WinForm应用文章及相关代码来源于WinForms小组...
  2. JavaScript,等比例缩放图片的函数,很好用。
  3. mybatis学习笔记-04-常见错误排查
  4. 牛客 16499 解方程 (数学、Python)
  5. b站的服务器在哪个位置,b站用的是哪个云服务器
  6. 最小步长移动word表格标尺
  7. pycharm运行程序时看不到任何结果显示
  8. 使用KNN时出现非数值属性和缺失值
  9. 相关与卷积、各种误差
  10. RxJava学习入门