1.jieba库的在安装:jieba是python计算生态中非常优秀的中文分词第三方库,因此我们需要进行额外的安装来得到并使用jieba库,windows环境下,我们使用win + R键,然后在对话框中输入cmd打开命令行,如下图所示,在命令行中我们输入pip install jieba来进行jieba库的安装。成功安装之后我们可以看到下面的提示,显示您已经成功安装jieba库。


2.jieba库的原理:jieba的分词是依靠中文词库来进行计算,计算的内容是汉字之间关联成一个词语的概率,他将概率较大的就认为是一个词语;除了它自带的分词之外,用户也可以向jieba添加自定义的词语。
3.jieba库的三种模式:精确模式,搜索引擎模式、全模式
&&&精确模式就是将文本精确地切分成若干个中文单词,且这些单词可以经过组合,精确地还原为文本,其中不存在冗余单词。正是因为精确模式的特性,他也因此成为最常用的jieba模式。
&&&全模式:他会将一段中文文本中所有可能的词语都扫描出来,因此我们可以想见,如果一段文本可以被切分成不同的模式,那么我们切分出来的结果就会有很多的冗余。
&&&搜索引擎模式:他可以将我们精确模式所切分出来的长一些的词语再一次进行精确的切分,进而适合搜索引擎对短词语的搜索。
3.常用函数:jiaba.lcut(s)函数是精确模式,jieba.lcut(s, cut_all = true)形成了全模式


通过上图我们不难发现,全模式下的jieba的分词结果确实是出现了冗余。
我们利用精准模式的函数来对一个中文小说(武林外传)进行词频分析,小说的来源我们可以直接在网上进行搜索,将你想要的小说的.txt版或者压缩包进行下载即可,然后进行词频分析,具体的代码实现如下:

import jieba
txt = open("F:all.txt", "r", encoding = 'utf - 8').read()
excludes = {'湘玉', '什么', '老白', '没有', '掌柜的''}
words = jieba.lcut(txt)
counts = {}     #创建一个字典,对文本中的汉字进行分词,通过字典接受
for word in words:if len(word) == 1:continueelse:counts[word] = counts.get(word, 0) + 1
for word in excludes:del counts[word]
items = list(counts.items())        #将字典转换为列表
items.sort(key = lambda x:x[1], reverse = True)    #将列表中的分词进行排序(这里的True中的T必须大写,否则会报错)
for i in range(5):     #打印输出前五位单词word, count = items[i]print("{0:<10}出场了{1:>5}次".format(word, count))

需要注意的两点是:第一个是代码中的True的首字母必须是大写,否则会报错;第二个是由于我们所下载的剧本的不同可能会导致我们的分析结果有些差异,但是我们主要是掌握这个方法,只要我们掌握了方法,那么结果还会很重要吗?
对于文本来讲,我们有中文文本,同时也就会有英文文本,这二者的分析方法大同小异,但是英文文本要求我们对标点符号进行一定的处理,下面直接给出代码贴图,图片出处为中国大学MOOC嵩天老师的python课程

该文本对英文名著哈姆雷特进行了分析,读者可以和武林外传的词频分析进行对比阅读,发现二者的异同

python入门day12(jieba库下载及其使用)相关推荐

  1. python jieba库下载_Python中jieba库安装步骤及失败原因解析

    Python 中 jieba 库安装步骤及失败原因解析 作为计算机小白, Python 的流行也让我蠢蠢欲动, 在请教计算机 专业同学后,开始上网课自学 Python 基础知识.今天老师简单的一 句话 ...

  2. python jieba库不存在_Python入门:jieba库的使用

    jieba库是一款优秀的 Python 第三方中文分词库,jieba 支持三种分词模式:精确模式.全模式和搜索引擎模式,下面是三种模式的特点. 精确模式:试图将语句最精确的切分,不存在冗余数据,适合做 ...

  3. python怎么安装jieba库-python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明 ======= 代码对 Python 2/3 均兼容 * 全自动安装:`e ...

  4. python怎么安装jieba库这个模块 No module named ‘jieba‘ python3.7

    报错提示:No module named 'jieba' 首先点击桌面左下角的开始图标,然后选择运行--cmd(也可以win+R唤出运行菜单) 1. anaconda安装库 可以使用conda ins ...

  5. Python初学13——jieba库简介与使用

    目录 一.jieba库基本介绍 二.jieba库的使用说明(三种模式.lcut().lcut_for_search().add_word() ) 三."文本词频统计"实例 一.ji ...

  6. python编程入门课 视频-Python入门到精通视频教程下载[21课程全]

    Python入门到精通视频教程 初级共21节课 python编程入门,针对0基础就python语言基础语法的各个点逐步讲解,由浅入深,通俗易懂,层层深入.提取码: python编程入门,针对0基础就p ...

  7. python基础教程视频下载-Python入门到精通视频教程下载[21课程全]

    Python入门到精通视频教程 初级共21节课 python编程入门,针对0基础就python语言基础语法的各个点逐步讲解,由浅入深,通俗易懂,层层深入.提取码: python编程入门,针对0基础就p ...

  8. 【Python】 -- 使用jieba库实现对《三国演义》人物出场次数统计

    需要借助一个中文词频分析工具--jieba库. 什么是jieba库 jieba是Python中一个重要的第三方中文分词函数库 通过指令pip install jieba 安装 使用: >> ...

  9. 如何在Python上用jieba库分析TXT文件的词频

    准备: 1.win10系统 2.Python3.7(已安装jieba库) 步骤: 1.先将准备好的文件放入指定位置 2.将代码打入IDLE 3.运行检测 上图即为运行成功的结果 (p.s.Python ...

最新文章

  1. 打造线下版元宇宙!机器人VR助力远程做核酸,登上Science子刊
  2. vue --- cdn导入,一些基本操作
  3. 《跟我一起写Makefile》读书笔记(2)
  4. php 全角符号 转成半角,php全角字符转换为半角字符简单示例
  5. 一件事情没弄清楚,十有八九做不好
  6. 如何画正太分布曲线_python scipy.stats实现各种常见的统计分布
  7. js简单正则表达式验证密码
  8. python手册中文版-python学习手册下载|
  9. C语言小案例_关于爱普生喷墨机APG复位错误(APG reset error)的最终答案: 故障案例 每日一例 【第1358篇】...
  10. ansys18.0安装教程
  11. 6.0系统机器Xposed框架安装经验
  12. Mock.js + RAP 使用介绍
  13. 数据结构与算法3 树(上)树与树的表示
  14. 进入centos命令行的方式
  15. Bugzilla 的安装
  16. JTAG与SWD的接口连接关系简介
  17. 神一样的编程语言? -- 发现一个编程语言“shen”
  18. eBPF 如何简化服务网格
  19. 梁昌勇 软件工程_梁昌勇简介_研究领域_学术成果_合肥工业大学管理学院教授-教师点评 - 人大经济论坛...
  20. 多方面了解WLAN和WIFI的区别

热门文章

  1. 中国大陆第二家Moxy酒店在深圳正式开业;香格里拉集团入驻天猫开设食品旗舰店 | 美通社头条...
  2. 指数平滑法(Exponential Smoothing,ES)
  3. 编译原理实验报告:词法分析
  4. EditText取消默认焦点
  5. unity中利用cinemachine插件制作玩家视觉效果(第三人称转第一人称视角)
  6. 100个线程同时向一个银行账户中存入1元钱
  7. 原创:语义相似度(理论篇)
  8. linux 背景图片路径,Ubuntu背景图片打包制作
  9. 正则匹配数字,大小写字母和一些自定义标点符号
  10. 如何注册多个百度网盘账号?