python词频统计三国演义_python实例：三国演义TXT文本词频分析

0x00 前言

找不到要写什么东西了！今天有个潭州大牛讲师说了个文本词频分析

我基本上就照抄了一遍

中间遇到一些小小的问题自我百度填坑补全了如下：

效果演示

0x01 准备环境及介绍

python3.x版本随意

安装jieba库

pip install jieba

jieba三种模式：

1.精准模式 lcut函数，返回一个分词列表

2.全模式

3.搜索引擎模式

词频：

：的键值对

IPO描述 imput output process

输入　：从文件读取三国演义的内容

处理　：采用jiedb进行分词，字典数据结构统计词语出现的频率

输出　：文章中出现最对的前10个词

代码：

第一步：读取文件

第二步：分词

第三步：统计

第四步：排序

介绍完毕了！那么进入实战吧！

0x02 实战

完整代码如下：

1 importjieba2

3 content = open('三国演义.txt', 'r',encoding='utf-8').read()4 words =jieba.lcut(content)#分词

5 excludes={"将军","却说","二人","后主","上马","不知","天子","大叫","众将","不可","主公","蜀兵","只见","如何","商议","都督","一人","汉中","不敢","人马","陛下","魏兵","天下","今日","左右","东吴","于是","荆州","不能","如此","大喜","引兵","次日","军士","军马"}#排除的词汇

6 words=jieba.lcut(content)7 counts={}8

9 for word inwords:10 if len(word) == 1: #排除单个字符的分词结果

11 continue

12 elif word == '孔明' or word == '孔明曰':13 real_word = '孔明'

14 elif word == '关公' or word == '云长':15 real_word = '关羽'

16 elif word == '孟德' or word == '丞相':17 real_word = '曹操'

18 elif word == '玄德' or word == '玄德曰':19 real_word = '刘备'

20 else:21 real_word =word22 counts[word] = counts.get(word, 0) + 1

26 for word inexcludes:27 del(counts[word])28 items=list(counts.items())29 items.sort(key=lambda x:x[1],reverse=True)30 for i in range(10):31 word,count=items[i]32 print("{0:<10}{1:>5}".format(word,count))

0x03 注意事项

①　在执行的过程中遇到：'gbk' codec can't decode byte 0x82 in position 20: illegal multibyte sequence 编码错误：content = open("C:\\Users\\geek\\Desktop\\python.txt", "r",encoding= 'utf-8')

这里是我下载的txt文件《三国演义》是ASCII，怎么办呢！搜索过后得知，要正常运行就得把TXT的编码改为UTF-8的形式才能运行成功，怎么做呢！

首先：打开TXT文本→文件→另存为→编码→UTF-8 →确定完成第一个坑。到这里呢！配合以上代码你成功了，但是我遇到的远远要多2个的所以我准备一并写出来。

② 　坑②，这里呢！就是他在在线讲课啊，没有TXT三国演义文件怎办呢！没办法自己找个三国演义文本附上下载地址：　http://vdisk.weibo.com/s/AfY-rVkr38Gg

③ 　下载好以后就可以就可以愉快的玩耍了，但是我要说但是了，要问我为什么？容我一一道来！ 15个字组太多会出现什么呢！我截图

运行后会出现很多不相干的词汇，行，没办法只能清理，但是我清理大多数还是有，实在没办法了，本为了练手所用所以我降到10个词组，不错，那么想要完整的名字词组呢？就需要排除的词汇增多，所以这个玩法就到此结束。

0x04 谢幕

完

python词频统计三国演义_python实例：三国演义TXT文本词频分析相关推荐

python英文文本词频统计代码_Python小程序：文本词频统计（英文+中文）
在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...
Python实例10：文本词频统计
Python实例10:文本词频统计 6.6.1 问题分析在英文中文中,出现哪些词,出现多少次? 6.6.2 hamlet英文词频统计 CalHamletV1.py 6.6.3 三国演义人物出场统计 ...
python中文文本分析和提取_python str(使用python对txt文本进行分析和提取)
python 文本文件数据处理 #/usr/bin/env python3 # -*- coding: utf-8 -*- def zhidao_560604345(infile, outfile): ...
python文本txt词频统计_python实例：三国演义TXT文本词频分析
0x00 前言找不到要写什么东西了!今天有个潭州大牛讲师说了个文本词频分析我基本上就照抄了一遍中间遇到一些小小的问题自我百度填坑补全了如下 : 效果演示 0x01 准备环境及 ...
python字频统计软件_python结巴分词以及词频统计实例
python结巴分词以及词频统计实例发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...
python哈姆雷特词频统计_python—文本词频统计哈姆雷特 txt 下载
原博文 2020-05-13 15:49 − 文本词频统计 -- Hamlet Hamlet下载链接:https://pan.baidu.com/s/1Is2mBAED57i6nI38lcnXAA ...
python词频统计西游记_实例10-文本词频统计.pdf
Python语言程序设计实例10: 文本词频统计嵩天北京理工大学 "文本词频统计"问题分析 CC BY-NC-SA 4.0 嵩天问题分析文本词频统计 - 需求 :一篇文 ...
python 英语词频统计软件_Python实现统计英文文章词频的方法分析
本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...
python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总
python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...
python 英语词频统计软件_Python数据挖掘——文本分析
作者 | zhouyue65 来源 | 君泉计量文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程. 一.语料库(Corpus) 语料库是我们要分析的所有文档的集合. ...

python词频统计三国演义_python实例：三国演义TXT文本词频分析

python词频统计三国演义_python实例：三国演义TXT文本词频分析相关推荐

最新文章

热门文章