《三国演义》文件下载:https://download.csdn.net/download/weixin_44940488/12667741

需求分析

  • 以《三国演义》文件为例,统计出现的中文词语数量;
  • 按照一定标准输出,如出现次数等;
  • 需要解决中文分词问题。

代码实例1:粗略统计《三国演义》中文词语数量

# coding:utf8
import jieba                 # 引入外部功能库jieba
f = open("分词文本/三国演义.txt", "r", encoding="utf-8")      # 打开文件txt = f.read()          # 读入文本
ls = jieba.lcut(txt)    # 中文分词
d = {}
for w in ls:d[w] = d.get(w, 0) + 1
for k in d:if d[k] >= 50 and k != "\n":print('"{}"出现{}次'.format(k, d[k]))
f.close()

运行结果 

 代码实例2:统计三国演义中出现最多的十个词语(剔除不统计的词语)

import jieba      # 调用分词工具
excludes = {"却说","荆州","二人","不可","不能","如何","如此","商议","左右"}      # 选择不想统计的词语
file_name = open("三国演义.txt", "r", encoding='utf-8').read()         # 打开需要统计的文本,由于书名不是英文,要加上 encoding='utf8'
words = jieba.lcut(file_name)                 # 分词查找中的精确模式
counts = {}
for word in words:         # 统计文字出现字数if len(word) == 1:continueelif word == "诸葛亮" or word == "孔明曰":rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1
for word in excludes:        # 剔除不想统计的文字del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):           # 统计文本出现频率最高的前10个文字word, count = items[i]print ("{0:<10}{1:>5}".format(word, count))# 文本总字数统计
file_name = '三国演义.txt'
try:with open(file_name, encoding='utf8') as file_obj:contents = file_obj.read()
except FileNotFoundError:print('Sorry, the file' + file_name + ' does not exist.')
else:words = contents.rstrip()num_words = len(words)print('这本书 ' + file_name + ' 大约有 ' + str(num_words) + ' 字。')

运行结果 

举一反三

  1. 政府文件词语统计;
  2. 经典名著词语统计;
  3. 新闻文章词语统计;
  4. 聊天记录词语统计;
  5. 网络文章词语统计;
  6. 英文文本词语统计;
  7. 文本重点信息概要;
  8. 写作风格分析

Python实例3:中文词语统计相关推荐

  1. Python实例9:基本数据统计值计算

    Python实例9:基本数据统计值计算 需求:给出一组数,对它们有个概要理解: 总个数:len() 求和:for ... in 平均值:求和/总个数 方差:各数据与平均数差的平方的和的平均数 中位数: ...

  2. Python实例分析——文本词频统计

    基于中国大学mooc网嵩天老师的<Python语言程序设计>课程实例 文章目录 一.数字文本 pi 二.英文文本 *Hamlet* 三.中文文本<三国演义> 一.数字文本 pi ...

  3. python统计汉字个数是_Python中文词频统计

    今天看到的一个统计,统计的金庸小说里面的高频词语.想着看了一周python,试试看能不能统计. 网上找的代码,调整顺序拼接了一下,分词库是结巴分词. 解决了python2.7中字典显示中文乱码的问题 ...

  4. python词频统计西游记_实例10-文本词频统计.pdf

    Python语言程序设计 实例10: 文本词频统计 嵩 天 北京理工大学 "文本词频统计"问题分析 CC BY-NC-SA 4.0 嵩天 问题分析 文本词频统计 - 需求 :一篇文 ...

  5. python jieba分词及中文词频统计

    这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计 上篇:python词频统计并按词频排序 参考资料:jieba参考文档 目录 一.jieba库简介 二.一些准备工作 三 ...

  6. python字符串大写字母个数_【python实例】统计字符串里大写字母,小写字母的个数和非字母的个数...

    """ 给定一个以下字符串:统计大写字母的个数,小写字母的个数,非字母的个数. str1 = "ajdkkKDKEK1343KFKiriromfkfKKRIOW ...

  7. python接收输入的一行字符只统计数字的个数,Python(统计字符),python实例,输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数...

    Python(统计字符),python实例,输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数 题目:输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数. 程序分析:利用 ...

  8. python实现excel计算_用python实现简单EXCEL数据统计的实例

    任务: 用python时间简单的统计任务-统计男性和女性分别有多少人. 用到的物料:xlrd 它的作用-读取excel表数据 代码:import xlrd workbook = xlrd.open_w ...

  9. 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

    写在前边的话: 本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难, ...

  10. python中文词组统计次数_python统计中文词组出现次数

    2018年9月7日在百度google没有找到python统计中文词组的,查出来的都是统计英文单词,词组的,所以我想来实现python中文词组统计分享. 首先我是用textrank4zh库将句子转化成词 ...

最新文章

  1. 《强化学习周刊》第39期:近似最优深度、多智能体广义、角色动画强化学习...
  2. boost::random模块实现允许直观地检查分布函数的结果的测试程序
  3. 《大型网站架构技术》系列分享专栏
  4. React Native布局
  5. vue-router动态路由设置参数可选
  6. makefile--编译出现,未定义的字符
  7. 超详细三维建模教程【小白专用】
  8. 快速排序(c语言实现)
  9. SECOND——论文与代码解析
  10. Android Studio 配置 Http Proxy
  11. ONF推出第二版Atrium 获OpenDaylight支持
  12. 【MySQL】数据库中的三大范式
  13. AirTag被不法分子滥用为恶意追踪工具?苹果:即将更新解决
  14. 国家VR/AR扶持政策文件一览(多文件下载)
  15. 22、python数据处理虚拟变量的转化
  16. 使用Ubuntu 20.0.4编译Elasticfusion
  17. NC65 添加客户档案 实战案例
  18. 2023第三届人工智能与机器学习国际学术会议(ICMLAI 2023)
  19. 康熙字典收录多少汉字_康熙字典共收录了多少汉字?
  20. 不同频率的晶振在电子产品中有什么作用?

热门文章

  1. C# 使用NPIO在excel指定单元格写内容,合并单元格
  2. mac英文输入模式下不能长按连续输入
  3. 启用计算机无线网络连接,哪位清楚笔记本电脑如何启用无线网络连接
  4. 服务器无法远程的原因
  5. 揭开docker的神秘面纱?镜像制作
  6. 拓嘉辰丰电商:关于拼多多推广计划有哪些问题
  7. 豚鼠学习HTML前端第一周
  8. Spring Security系列教程16--基于持久化令牌方案实现自动登录
  9. 基于NIOS II的1553B总线开发板
  10. 【kubernetes/k8s源码分析】calico node felix源码分析之一