使用jieba库分词

一.什么是jieba库

1.jieba库概述

jieba是优秀的中文分词第三方库,中文文本需要通过分词获得单个词语。

2.jieba库的使用:(jieba库支持3种分词模式)

通过中文词库的方式识别

精确模式:把文本精确的切分开,不存在冗余单词

全模式:把文本所有可能的词语都描述出来,有冗余

搜索引擎模式:在精确模式的基础上,对长词进行切分

3.jieba库是属于python中优秀的中文分词第三方库,需要额外安装

二.安装jieba库

途径1:百度jieba库下载(百度上很多jieba库的安装教程,可以参考一下)

方法2:在计算机命令行输入

pip install jieba

按下回车就会自动安装,稍微等待就可以了

三.函数库的调用

jieba库在python的 IDLE中运行时可以使用两种导入方式

(1)

导入库函数:import

使用库中函数: . ()

例如:import jieba

jieba.lcut()

jieba.lcut(" ",cut_all=True)

jieba.lcut_for_search()

(2) 导入库函数:from    import * ( *为通配符 )

使用库中函数: ()

例如:from jieba import *

lcut()

lcut(" ",cut_all=True)

lcut_for_search()

四.jieba库的实际应用(对文本的词频统计)

文本是水浒传,百度上下载的

1 from jieba import *

2 excludes=lcut_for_search("头领两个一个武松如何只见说道军马众人那里")3 txt=open("水浒传.txt","r").read()4 words=lcut(txt)5 counts={}6 for word inwords:7 if len(word)==1:8 continue

9 elif word =="及时雨" or word == "公明" or word =="哥哥" or word == "公明曰":10 rword ="宋江"

11 elif word =="黑旋风" or word =="黑牛":12 rword ="李逵"

13 elif word =="豹子头" or word == "林教头":14 rword ="林冲"

15 elif word =="智多星" or word =="吴用曰":16 rword ="吴用"

17 else:18 rword=word19 counts[word]=counts.get(word,0)+1

20 for word inexcludes:21 del(counts[word])22 items=list(counts.items())23 items.sort(key=lambda x:x[1],reverse=True)24 for i in range(10):25 word,count=items[i]26 print("{0:<10}{1:>5}".format(word,count))

运行结果:(有些多余的词语未做好排除,代码仍需要改进)

五.词云图(jieba库与wordcloud库的结合应用)

from wordcloud import WordCloud

import matplotlib.pyplot as plt

from jieba import *

# 生成词云

def create_word_cloud(filename):

text = open("{}.txt".format(filename)).read()

font = 'C:\Windows\Fonts\simfang.ttf'

wordlist = cut(text, cut_all=True) # 结巴分词

wl = " ".join(wordlist)

# 设置词云

wc = WordCloud(

# 设置背景颜色

background_color="black",

# 设置最大显示的词云数

max_words=200,

# 这种字体都在电脑字体中,一般路径

font_path= font,

height=1200,

width=1600,

# 设置字体最大值

max_font_size=100,

# 设置有多少种随机生成状态,即有多少种配色方案

random_state=100,

)

myword = wc.generate(wl) # 生成词云

# 展示词云图

plt.imshow(myword)

plt.axis("off")

plt.show()

wc.to_file('img_book.png') # 把词云保存下

if __name__ == '__main__':

create_word_cloud('水浒传')

运行结果

jieba分词怎么操作_如何运用jieba库分词相关推荐

  1. java分词 词权重_分析牛:查询分词权重,巧妙布局网页关键词

    今天和大家分享一个纯干货,关键词的布局,也许很多人会说,这个还不容易,title出现一次,keywords出现一次,description在出现一次,然后正文的H标签里在出现一次,最后在每段的开头,末 ...

  2. jieba分词怎么操作_常用分词工具使用教程

    常用分词工具使用教程 以下分词工具均能在Python环境中直接调用(排名不分先后). jieba(结巴分词) 免费使用 HanLP(汉语言处理包) 免费使用 SnowNLP(中文的类库) 免费使用 F ...

  3. jieba分词_自然语言NLP必备(1),jieba工具 5 行代码对整篇文章分词

    自然语言是什么?下面来看看百度百科的介绍: 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法.自然语言处理是一门融语言学.计 ...

  4. jieba分词怎么操作_jieba 分词的使用和原理浅析

    自然语言处理目的在于让计算机"理解"人说的话或者文字,而在中文自然语言处理中第一步是获取语料,第二步就是对语料进行预处理,预处理的一个重要的环节就是对语料进行分词,其目的在于将一句 ...

  5. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

  6. python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

    最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...

  7. python jieba 文本相似度_文本相似度分析(基于jieba和gensim)

    ##基础概念 本文在进行文本相似度分析过程分为以下几个部分进行, 文本分词 语料库制作 算法训练 结果预测 分析过程主要用两个包来实现jieba,gensim jieba:主要实现分词过程 gensi ...

  8. python jieba库分词_Python基于jieba库进行简单分词及词云功能实现方法

    本文实例讲述了Python基于jieba库进行简单分词及词云功能实现方法.分享给大家供大家参考,具体如下: 目标: 1.导入一个文本文件 2.使用jieba对文本进行分词 3.使用wordcloud包 ...

  9. 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

    写在前边的话: 本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难, ...

  10. python lcut精确分词_Python jieba库分词模式实例用法

    在中文分词中,jiebe库是最为常见的,主要的原因还是它独特的支持分词模式如:精确模式.全模式.搜索引擎模式.也对应着三种方式,包括jieba.cut()方法.jieba.lcut()方法.jieba ...

最新文章

  1. 《疯狂Java讲义》2
  2. python通过DictReader实现两个csv文件的映射查找lookup之代码详解
  3. typescript 接口 interface
  4. 动态规划简单应用:斐波那契数列
  5. web前端复习系列[1]——标签
  6. mysql中的索引什么意思_索引是什么意思(数据库中的索引是什么)
  7. ajax 传送很多html字符串到前台例子
  8. MySQL不能插入中文字段的解决办法
  9. Axure rp 8 基本用法图解之一
  10. 浅谈美国ESS音频DAC解码芯片ES9023
  11. 如何使Tello无人机能够通过Python进行条形码扫描?
  12. KEILC51的下载和安装与工程建立
  13. SQL Server 、SQLiteSpy、Access对应数据库后缀名分别是什么?
  14. 王子与骑士-第14届蓝桥杯STEMA测评Scratch真题精选
  15. 织梦dedecms 幻灯片 自定义设置
  16. Qt编写可视化大屏电子看板系统10-改造QCustomPlot
  17. java爬虫系列(二)——爬取动态网页
  18. 温度上报实时监控项目——客户端
  19. 获取网页内所有图片地址
  20. vue3上传图片解析身份证,银行卡

热门文章

  1. linux中安装程序的命令是,Linux安装软件命令是什么
  2. 深度学习优化算法之SGD
  3. 使用 PotPlayer 搭配 SVP 4 播放60帧电影
  4. python大漠插件官网视频教程_python使用大漠插件进行脚本开发的尝试(一)
  5. IT 运营管理 (ITOM)解决方案-OpManager Plus
  6. OBS教程:3分钟学会直播推流与视频录制
  7. Win10安装ST-Link驱动--无需下载驱动
  8. python 移动文件 覆盖_Python操作文件(删除、复制、移动...)
  9. 流媒体技术基础-流媒体服务与框架【38款 流媒体服务器开源软件】
  10. 《统计学》第八版贾俊平第四章总结及课后习题答案