0x00 前言

找不到要写什么东西了!今天有个潭州大牛讲师  说了个  文本词频分析

我基本上就照抄了一遍

中间遇到一些小小的问题 自我百度 填坑补全了  如下 :

效果演示

0x01   准备环境及介绍

python3.x版本   随意

安装jieba库

pip install jieba

jieba三种模式:

1.精准模式 lcut函数,返回一个分词列表

2.全模式

3.搜索引擎模式

词频:

:的键值对

IPO描述 imput output process

输入 :从文件读取三国演义的内容

处理 :采用jiedb进行分词,字典数据结构统计词语出现的频率

输出 :文章中出现最对的前10个词

代码:

第一步:读取文件

第二步:分词

第三步:统计

第四步:排序

介绍完毕了!那么进入实战吧!

0x02 实战

完整代码如下:

1 importjieba2

3 content = open('三国演义.txt', 'r',encoding='utf-8').read()4 words =jieba.lcut(content)#分词

5 excludes={"将军","却说","二人","后主","上马","不知","天子","大叫","众将","不可","主公","蜀兵","只见","如何","商议","都督","一人","汉中","不敢","人马","陛下","魏兵","天下","今日","左右","东吴","于是","荆州","不能","如此","大喜","引兵","次日","军士","军马"}#排除的词汇

6 words=jieba.lcut(content)7 counts={}8

9 for word inwords:10 if len(word) == 1: #排除单个字符的分词结果

11 continue

12 elif word == '孔明' or word == '孔明曰':13 real_word = '孔明'

14 elif word == '关公' or word == '云长':15 real_word = '关羽'

16 elif word == '孟德' or word == '丞相':17 real_word = '曹操'

18 elif word == '玄德' or word == '玄德曰':19 real_word = '刘备'

20 else:21 real_word =word22 counts[word] = counts.get(word, 0) + 1

23

24

25

26 for word inexcludes:27 del(counts[word])28 items=list(counts.items())29 items.sort(key=lambda x:x[1],reverse=True)30 for i in range(10):31 word,count=items[i]32 print("{0:<10}{1:>5}".format(word,count))

0x03 注意事项

① 在执行的过程中遇到:'gbk' codec can't decode byte 0x82 in position 20: illegal multibyte sequence           编码错误:content = open("C:\\Users\\geek\\Desktop\\python.txt", "r",encoding= 'utf-8')

这里是我下载的txt文件 《三国演义》是ASCII,怎么办呢!搜索过后得知,要正常运行就得把TXT的编码改为UTF-8的形式才能运行成功,怎么做呢!

首先:打开TXT文本→文件→另存为→编码→UTF-8 →确定    完成第一个坑。  到这里呢!配合以上代码你成功了,但是我遇到的远远要多2个的所以我准备一并写出来。

②  坑②,这里呢!就是他在在线讲课啊 ,没有TXT三国演义文件怎办呢!没办法 自己找个三国演义文本  附上下载地址: http://vdisk.weibo.com/s/AfY-rVkr38Gg

③  下载好以后就可以就可以愉快的玩耍了,但是我要说但是了,要问我为什么?容我一一道来! 15个字组太多会出现什么呢!我截图

运行后会出现很多不相干的词汇,行,没办法只能清理 ,但是我清理大多数还是有 ,实在没办法了,本为了练手所用所以我降到10个词组,不错,那么想要完整的名字词组呢?就需要排除的词汇增多,所以这个玩法就到此结束。

0x04 谢幕

python词频统计三国演义_python实例:三国演义TXT文本词频分析相关推荐

  1. python英文文本词频统计代码_Python小程序:文本词频统计(英文+中文)

    在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...

  2. Python实例10:文本词频统计

    Python实例10:文本词频统计 6.6.1 问题分析 在英文中文中,出现哪些词,出现多少次? 6.6.2 hamlet英文词频统计 CalHamletV1.py 6.6.3 三国演义人物出场统计 ...

  3. python中文文本分析和提取_python str(使用python对txt文本进行分析和提取)

    python 文本文件数据处理 #/usr/bin/env python3 # -*- coding: utf-8 -*- def zhidao_560604345(infile, outfile): ...

  4. python文本txt词频统计_python实例:三国演义TXT文本词频分析

    0x00 前言 找不到要写什么东西了!今天有个潭州大牛讲师  说了个  文本词频分析 我基本上就照抄了一遍 中间遇到一些小小的问题 自我百度 填坑补全了  如下 : 效果演示 0x01   准备环境及 ...

  5. python字频统计软件_python结巴分词以及词频统计实例

    python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...

  6. python哈姆雷特词频统计_python—文本词频统计 哈姆雷特 txt 下载

    原博文 2020-05-13 15:49 − 文本词频统计 -- Hamlet Hamlet下载 链接:https://pan.baidu.com/s/1Is2mBAED57i6nI38lcnXAA ...

  7. python词频统计西游记_实例10-文本词频统计.pdf

    Python语言程序设计 实例10: 文本词频统计 嵩 天 北京理工大学 "文本词频统计"问题分析 CC BY-NC-SA 4.0 嵩天 问题分析 文本词频统计 - 需求 :一篇文 ...

  8. python 英语词频统计软件_Python实现统计英文文章词频的方法分析

    本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  9. python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总

    python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...

  10. python 英语词频统计软件_Python数据挖掘——文本分析

    作者 | zhouyue65 来源 | 君泉计量 文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程. 一.语料库(Corpus) 语料库是我们要分析的所有文档的集合. ...

最新文章

  1. keras 的 example 文件 mnist_transfer_cnn.py 解析
  2. mysql replace报错_Mysql中replace与replace into的用法讲解
  3. dos与ddos攻击原理
  4. 查看 Oracle 是32位还是64位的方法
  5. 科研这条路:一位数学博士给本科生的建议
  6. OpenShift 4 MTC - 从 OpenShift 3 向 OpenShift 4 迁移应用
  7. 批量 材质 调整_寒霜引擎的PBR实践3.0(一)材质篇
  8. net472无法建立到信任_是否还会信任,那个曾经背叛过自己的人
  9. 团队二阶段冲刺个人工作总结7
  10. 完全卸载迈克菲Mcafee的工具
  11. Python及IPython安装使用
  12. JQuery读取txt文件
  13. 如何处理计算机显卡故障,显卡出现故障怎么办
  14. docker端口映射失败解决方法
  15. StarRocks从入门到精通系列四:表设计
  16. 【- Flutter 桌面篇 -】 FlutterUnit mac版闪亮登场
  17. 【免费开放源码】审批类小程序项目实战(预约审批端)
  18. 为什么Mendix重视私有化部署
  19. 享受知识饕餮盛宴,尽在近期课程安排
  20. Linux 字符设备

热门文章

  1. LOJ 6437 [PKUSC 2018] PKUSC
  2. 求mn的最大公约数和最小公倍数c语言,c语言如何求最大公约数和最小公倍数
  3. python图像的手绘效果代码_Python项目1:实现将图片转化为手绘效果
  4. 报告丨前瞻产业研究院:2019年中国大数据行业研究报告
  5. python中day_python day02
  6. java 提取视频缩略图_如何使用java提取视频缩略图或某一帧的图片
  7. 网易交互设计师微专业C3 规范信息架构与流程设计
  8. 程序员必备的10个B站优质UP主!
  9. 小米6一键刷入Trwp,小米6刷机包,小米6刷Xposd,手机刷机。
  10. 多平台聚合关键字搜索