nlp技能，jieba分词

jieba中文处理

参考寒小阳，jieba课的内容

1.基本分词函数与用法¶

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)

jieba.cut 方法接受三个输入参数:

· 需要分词的字符串

· cut_all 参数用来控制是否采用全模式

· HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数

· 需要分词的字符串

· 是否使用 HMM 模型。

该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

# encoding=utf-8

importjieba

seg_list =jieba.cut("我在学习自然语言处理", cut_all=True)

print seg_list

print("FullMode: "+"/ ".join(seg_list)) # 全模式

seg_list =jieba.cut("我在学习自然语言处理", cut_all=False)

print("DefaultMode: "+"/ ".join(seg_list)) # 精确模式

seg_list =jieba.cut("他毕业于上海交通大学，在百度深度学习研究院进行研究") # 默认是精确模式

print(",".join(seg_list))

seg_list =jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在哈佛大学深造") # 搜索引擎模式

print(",".join(seg_list))

Full Mode: 我/ 在/ 学习/ 自然/ 自然语言/ 语言/ 处理

Default Mode: 我/ 在/ 学习/ 自然语言/ 处理

他, 毕业, 于, 上海交通大学, ，, 在, 百度, 深度, 学习, 研究院, 进行, 研究

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 哈佛, 大学, 哈佛大学, 深造

jieba.lcut以及jieba.lcut_for_search直接返回 list

result_lcut=jieba.lcut("小明硕士毕业于中国科学院计算所，后在哈佛大学深造")

printresult_lcut

print" ".join(result_lcut)

print" ".join(jieba.lcut_for_search("小明硕士毕业于中国科学院计算所，后在哈佛大学深造"))

[u'\u5c0f\u660e', u'\u7855\u58eb', u'\u6bd5\u4e1a', u'\u4e8e',u'\u4e2d\u56fd\u79d1\u5b66\u9662', u'\u8ba1\u7b97\u6240', u'\uff0c', u'\u540e',u'\u5728', u'\u54c8\u4f5b\u5927\u5b66', u'\u6df1\u9020']

小明硕士毕业于中国科学院计算所，后在哈佛大学深造

小明硕士毕业于中国科学学院科学院中国科学院计算计算所，后在哈佛大学哈佛大学深造

添加用户自定义词典

很多时候我们需要针对自己的场景进行分词，会有一些领域内的专有词汇。

· 1.可以用jieba.load_userdict(file_name)加载用户字典

· 2.少量的词汇可以自己用下面方法手动添加：

§ 用 add_word(word, freq=None, tag=None) 和del_word(word) 在程序中动态修改词典

§ 用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。

print('/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False)))

如果/放到/旧/字典/中将/出错/。

In [4]:

jieba.suggest_freq(('中', '将'), True)

Out[4]:

494

In [5]:

print('/'.join(jieba.cut('如果放到旧字典中将出错。', HMM=False)))

如果/放到/旧/字典/中/将/出错/。

关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

· jieba.analyse.extract_tags(sentence,topK=20, withWeight=False, allowPOS=())

§ sentence 为待提取的文本

§ topK 为返回几个TF/IDF 权重最大的关键词，默认值为 20

§ withWeight 为是否一并返回关键词权重值，默认值为 False

§ allowPOS 仅包括指定词性的词，默认值为空，即不筛选

importjieba.analyseasanalyse

lines = open('NBA.txt').read()

print " ".join(analyse.extract_tags(lines, topK=20,withWeight=False,allowPOS=()))

韦少杜兰特全明星全明星赛 MVP 威少正赛科尔投篮勇士球员斯布鲁克更衣柜张卫平三连庄 NBA 西部指导雷霆明星队

In [7]:

lines = open(u'西游记.txt').read()

print " ".join(analyse.extract_tags(lines, topK=20,withWeight=False,allowPOS=()))

行者八戒师父三藏唐僧大圣沙僧妖精菩萨和尚那怪那里长老呆子徒弟怎么不知老孙国王一个

关于TF-IDF 算法的关键词抽取补充

· 关键词提取所使用逆向文件频率（IDF）文本语料库可以切换成自定义语料库的路径

§ 用法： jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径

o 自定义语料库示例见这里

o 用法示例见这里

§ 关键词提取所使用停止词（Stop Words）文本语料库可以切换成自定义语料库的路径

o 用法： jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径

o 自定义语料库示例见这里

o 用法示例见这里

· 关键词一并返回关键词权重值示例

§ 用法示例见这里

基于 TextRank 算法的关键词抽取

· jieba.analyse.textrank(sentence,topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用，接口相同，注意默认过滤词性。

· jieba.analyse.TextRank() 新建自定义 TextRank 实例

算法论文： TextRank: BringingOrder into Texts

基本思想:

· 将待抽取关键词的文本进行分词

· 以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图

· 计算图中节点的PageRank，注意是无向带权图

In [8]:

import jieba.analyseas analyse

lines = open('NBA.txt').read()

print " ".join(analyse.textrank(lines, topK=20,withWeight=False, allowPOS=('ns','n', 'vn','v')))

print "---------------------我是分割线----------------"

print " ".join(analyse.textrank(lines, topK=20,withWeight=False, allowPOS=('ns','n')))

全明星赛勇士正赛指导对方投篮球员没有出现时间威少认为看来结果相隔助攻现场三连庄介绍嘉宾

---------------------我是分割线----------------

勇士正赛全明星赛指导投篮玩命时间对方现场结果球员嘉宾时候全队主持人特点大伙肥皂剧全程快船队

In [9]:

lines = open(u'西游记.txt').read()

print " ".join(analyse.textrank(lines, topK=20,withWeight=False, allowPOS=('ns','n', 'vn','v')))

行者师父八戒三藏大圣不知菩萨妖精只见长老国王却说呆子徒弟小妖出来不得不见不能师徒

词性标注

· jieba.posseg.POSTokenizer(tokenizer=None)新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。

· 标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。

· 具体的词性对照表参见计算所汉语词性标记集

In [10]:

importjieba.possegaspseg

words=pseg.cut("我爱自然语言处理")

forword,flaginwords:

print('%s%s'%(word,flag))

我 r

爱 v

自然语言 l

处理 v

并行分词

原理：将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows

用法：

jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数

jieba.disable_parallel() # 关闭并行分词模式

实验结果：在 4 核 3.4GHz Linux 机器上，对金庸全集进行精确分词，获得了 1MB/s 的速度，是单进程版的 3.3 倍。

注意：并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。

In [11]:

importsys

importtime

importjieba

jieba.enable_parallel()

content=open(u'西游记.txt',"r").read()

t1=time.time()

words="/".join(jieba.cut(content))

t2=time.time()

tm_cost=t2-t1

print('并行分词速度为%s bytes/second'%(len(content)/tm_cost))

jieba.disable_parallel()

content=open(u'西游记.txt',"r").read()

t1=time.time()

words="/".join(jieba.cut(content))

t2=time.time()

tm_cost=t2-t1

print('非并行分词速度为%s bytes/second'%(len(content)/tm_cost))

并行分词速度为 830619.50933bytes/second

非并行分词速度为 259941.448353bytes/second

ChineseAnalyzer for Whoosh 搜索引擎

fromjieba.analyse import ChineseAnalyzer

In [16]:

# -*- coding: UTF-8 -*-

from__future__importunicode_literals

importsys,os

sys.path.append("../")

fromwhoosh.indeximportcreate_in,open_dir

fromwhoosh.fieldsimport*

fromwhoosh.qparserimportQueryParser

analyzer=jieba.analyse.ChineseAnalyzer()

schema=Schema(title=TEXT(stored=True),path=ID(stored=True),content=TEXT(stored=True,analyzer=analyzer))

ifnotos.path.exists("tmp"):

os.mkdir("tmp")

ix=create_in("tmp",schema)#for create new index

#ix =open_dir("tmp") # for read only

writer=ix.writer()

writer.add_document(

title="document1",

path="/a",

content="This is the first document we’ve added!"

)

writer.add_document(

title="document2",

path="/b",

content="The second one 你中文测试中文 iseven more interesting! 吃水果"

)

writer.add_document(

title="document3",

path="/c",

content="买水果然后来世博园。"

)

writer.add_document(

title="document4",

path="/c",

content="工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"

)

writer.add_document(

title="document4",

path="/c",

content="咱俩交换一下吧。"

)

writer.commit()

searcher=ix.searcher()

parser=QueryParser("content",schema=ix.schema)

forkeywordin("水果世博园","你","first","中文","交换机","交换"):

print(keyword+"的结果为如下：")

q=parser.parse(keyword)

results=searcher.search(q)

forhitinresults:

print(hit.highlights("content"))

print("\n--------------我是神奇的分割线--------------\n")

fortinanalyzer("我的好朋友是李明;我爱北京天安门;IBM和Microsoft;I have a dream. this is intetesting and interested me a lot"):

print(t.text)

水果世博园的结果为如下：

买水果然后来<bclass="match term1">世博园