Python实例3:中文词语统计
《三国演义》文件下载:https://download.csdn.net/download/weixin_44940488/12667741
需求分析
- 以《三国演义》文件为例,统计出现的中文词语数量;
- 按照一定标准输出,如出现次数等;
- 需要解决中文分词问题。
代码实例1:粗略统计《三国演义》中文词语数量
# coding:utf8
import jieba # 引入外部功能库jieba
f = open("分词文本/三国演义.txt", "r", encoding="utf-8") # 打开文件txt = f.read() # 读入文本
ls = jieba.lcut(txt) # 中文分词
d = {}
for w in ls:d[w] = d.get(w, 0) + 1
for k in d:if d[k] >= 50 and k != "\n":print('"{}"出现{}次'.format(k, d[k]))
f.close()
运行结果
代码实例2:统计三国演义中出现最多的十个词语(剔除不统计的词语)
import jieba # 调用分词工具
excludes = {"却说","荆州","二人","不可","不能","如何","如此","商议","左右"} # 选择不想统计的词语
file_name = open("三国演义.txt", "r", encoding='utf-8').read() # 打开需要统计的文本,由于书名不是英文,要加上 encoding='utf8'
words = jieba.lcut(file_name) # 分词查找中的精确模式
counts = {}
for word in words: # 统计文字出现字数if len(word) == 1:continueelif word == "诸葛亮" or word == "孔明曰":rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1
for word in excludes: # 剔除不想统计的文字del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10): # 统计文本出现频率最高的前10个文字word, count = items[i]print ("{0:<10}{1:>5}".format(word, count))# 文本总字数统计
file_name = '三国演义.txt'
try:with open(file_name, encoding='utf8') as file_obj:contents = file_obj.read()
except FileNotFoundError:print('Sorry, the file' + file_name + ' does not exist.')
else:words = contents.rstrip()num_words = len(words)print('这本书 ' + file_name + ' 大约有 ' + str(num_words) + ' 字。')
运行结果
举一反三
- 政府文件词语统计;
- 经典名著词语统计;
- 新闻文章词语统计;
- 聊天记录词语统计;
- 网络文章词语统计;
- 英文文本词语统计;
- 文本重点信息概要;
- 写作风格分析。
Python实例3:中文词语统计相关推荐
- Python实例9:基本数据统计值计算
Python实例9:基本数据统计值计算 需求:给出一组数,对它们有个概要理解: 总个数:len() 求和:for ... in 平均值:求和/总个数 方差:各数据与平均数差的平方的和的平均数 中位数: ...
- Python实例分析——文本词频统计
基于中国大学mooc网嵩天老师的<Python语言程序设计>课程实例 文章目录 一.数字文本 pi 二.英文文本 *Hamlet* 三.中文文本<三国演义> 一.数字文本 pi ...
- python统计汉字个数是_Python中文词频统计
今天看到的一个统计,统计的金庸小说里面的高频词语.想着看了一周python,试试看能不能统计. 网上找的代码,调整顺序拼接了一下,分词库是结巴分词. 解决了python2.7中字典显示中文乱码的问题 ...
- python词频统计西游记_实例10-文本词频统计.pdf
Python语言程序设计 实例10: 文本词频统计 嵩 天 北京理工大学 "文本词频统计"问题分析 CC BY-NC-SA 4.0 嵩天 问题分析 文本词频统计 - 需求 :一篇文 ...
- python jieba分词及中文词频统计
这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计 上篇:python词频统计并按词频排序 参考资料:jieba参考文档 目录 一.jieba库简介 二.一些准备工作 三 ...
- python字符串大写字母个数_【python实例】统计字符串里大写字母,小写字母的个数和非字母的个数...
""" 给定一个以下字符串:统计大写字母的个数,小写字母的个数,非字母的个数. str1 = "ajdkkKDKEK1343KFKiriromfkfKKRIOW ...
- python接收输入的一行字符只统计数字的个数,Python(统计字符),python实例,输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数...
Python(统计字符),python实例,输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数 题目:输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数. 程序分析:利用 ...
- python实现excel计算_用python实现简单EXCEL数据统计的实例
任务: 用python时间简单的统计任务-统计男性和女性分别有多少人. 用到的物料:xlrd 它的作用-读取excel表数据 代码:import xlrd workbook = xlrd.open_w ...
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
写在前边的话: 本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难, ...
- python中文词组统计次数_python统计中文词组出现次数
2018年9月7日在百度google没有找到python统计中文词组的,查出来的都是统计英文单词,词组的,所以我想来实现python中文词组统计分享. 首先我是用textrank4zh库将句子转化成词 ...
最新文章
- 《强化学习周刊》第39期:近似最优深度、多智能体广义、角色动画强化学习...
- boost::random模块实现允许直观地检查分布函数的结果的测试程序
- 《大型网站架构技术》系列分享专栏
- React Native布局
- vue-router动态路由设置参数可选
- makefile--编译出现,未定义的字符
- 超详细三维建模教程【小白专用】
- 快速排序(c语言实现)
- SECOND——论文与代码解析
- Android Studio 配置 Http Proxy
- ONF推出第二版Atrium 获OpenDaylight支持
- 【MySQL】数据库中的三大范式
- AirTag被不法分子滥用为恶意追踪工具?苹果:即将更新解决
- 国家VR/AR扶持政策文件一览(多文件下载)
- 22、python数据处理虚拟变量的转化
- 使用Ubuntu 20.0.4编译Elasticfusion
- NC65 添加客户档案 实战案例
- 2023第三届人工智能与机器学习国际学术会议(ICMLAI 2023)
- 康熙字典收录多少汉字_康熙字典共收录了多少汉字?
- 不同频率的晶振在电子产品中有什么作用?