一.jieba库的使用与说明

1.jieba库基本介绍

jieba库是优秀的中文分词第三方库

-中文文本需要通过分词获得单个的词语
         - jieba是优秀的中文分词第三方库,需要额外安装

- jieba库提供三种分词模式,最简单只需掌握一个函数

2.jieba库使用说明

(1)、jieba分词的三种模式

精确模式、全模式、搜索引擎模式

- 精确模式:把文本精确的切分开,不存在冗余单词
         - 全模式:把文本中所有可能的词语都扫描出来,有冗余

- 搜索引擎模式:在精确模式基础上,对长词再次切分

(2)、jieba库常用函数

3.jieba库的利用实例显示

4.利用jieba库统计三国演义的人物出场次数

(1)代码如下

import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此","商议","军士","如何","主公","军马","左右",}
txt = open("./三国演义.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:if len(word) == 1:continueelif word == "诸葛亮" or word == "孔明曰":rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1
for word in excludes:del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(5):word, count = items[i]print ("{0:<10}{1:>5}".format(word, count))

(2)结果显示如下:

二、利用好看的词元

1.Python的词元图的生成

(1)安装库

pip install jieba wordcloud matplotlib

(2)准备

  • txt文本
  • 字体(simhei.ttf)
  • 词云背景图片

由上面的三国演义的文本txt可以生成如下图形:

Python jieba和词元的利用到此结束....................

转载于:https://www.cnblogs.com/psl1234/p/10652467.html

jieba库的使用和好看的词元相关推荐

  1. Python_note6 组合数据类型+jieba库+文本词频统计

    集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...

  2. 如何在Python上用jieba库分析TXT文件的词频

    准备: 1.win10系统 2.Python3.7(已安装jieba库) 步骤: 1.先将准备好的文件放入指定位置 2.将代码打入IDLE 3.运行检测 上图即为运行成功的结果 (p.s.Python ...

  3. mysql调用jieba库_jieba库的使用及实例

    安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间 ...

  4. python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词

    python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt'fn=open(file,"r")pr ...

  5. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

  6. NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary)

    NLP:基于nltk和jieba库对文本实现提取文本摘要(两种方法实现:top_n_summary和mean_scored_summary) 目录 输出结果 设计思路 核心代码 输出结果 1.测试文本 ...

  7. jieba是python中一个重要的标准函数库_python——Jieba库整理(基础知识+实例)

    先上目录,1.Jieba库是什么 2.Jieba库的使用(常见方法及函数) 3.实例--英文文本解析和中文文本解析 1.Jieba库是什么 Jieba库是优秀的中文分词第三方库,中文文本需要通过分词获 ...

  8. python jieba库下载_Python中jieba库安装步骤及失败原因解析

    Python 中 jieba 库安装步骤及失败原因解析 作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机 专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一 句话 ...

  9. 与自定义词典 分词_使用jieba库进行中文分词、关键词提取、添加自定义的词典进行分词...

    jieba库在中文分词中很常用,做一个简单的介绍和运用~ 需求1:打开本地的十九大报告文本,并采用jieba分词器进行分词,最后将分词结果存入名为segresult的文本文件中. 注释:①jieba库 ...

最新文章

  1. php 长短字符串转换,将php的数组按照字符串长短进行排序
  2. python能做表格吗-python可以用来做excel吗
  3. 阿里云实时计算,前世功,今生能!
  4. [工具]微软的学习平台Microsoft Learn很好用,推荐一下
  5. [C/C++]C++标准
  6. 高通的快充协议_高通:后续骁龙旗舰将标配100W快充
  7. 提高网站性能的常见方法
  8. 如何在源码包编译安装的 LEMP 环境下开启 OpenSSL 功能
  9. asc怎么用 linux zip_linux的asc文件怎么打开
  10. C#DateTime的用法
  11. 9.21 小程序开发培训讲座
  12. unbtun python tab补全
  13. windows 2003活动目录更名操作[图]
  14. 在线文本比较工具-toolfk程序员在线工具网
  15. 企业微信网页应用开发 - 权限验证
  16. CRM系统与呼叫中心系统对接
  17. 手把手教你申请计算机软件著作权(1)——填写软著申请表
  18. Lucene的各中文分词比较
  19. 打算逃离北上广?看完这份地图大数据报告或许你有新的答案
  20. Snug(舒适) as a Bug(小虫) in a Rug(小地毯)(2019/1/2)

热门文章

  1. linux文件的特殊权限,Linux系统文件的默认权限和特殊权限
  2. 2017年10大年度最佳的ICO项目
  3. 区块链核心技术:拜占庭共识算法之PBFT全面理解
  4. 模仿探探的左右滑动切换卡片功能
  5. java html提取_2020年全新Java学习路线,含配套资料,更易上手 - 打不过就跑吧
  6. NOIP信息奥赛--1995“同创杯”初中复赛题题解(三)
  7. mysql 主表某一列 小于某一个表的两列之和_关于MySQL索引知识与小妙招
  8. crt脚本怎么添加等待时间_secureCRT自动化脚本(之定时任务)
  9. 前端ui框架_跨屏建站发布同名响应式前端ui框架
  10. [CH Round #61] 取数游戏