Python实例3：中文词语统计

《三国演义》文件下载：https://download.csdn.net/download/weixin_44940488/12667741

需求分析

以《三国演义》文件为例，统计出现的中文词语数量；
按照一定标准输出，如出现次数等；
需要解决中文分词问题。

代码实例1：粗略统计《三国演义》中文词语数量

# coding:utf8
import jieba                 # 引入外部功能库jieba
f = open("分词文本/三国演义.txt", "r", encoding="utf-8")      # 打开文件txt = f.read()          # 读入文本
ls = jieba.lcut(txt)    # 中文分词
d = {}
for w in ls:d[w] = d.get(w, 0) + 1
for k in d:if d[k] >= 50 and k != "\n":print('"{}"出现{}次'.format(k, d[k]))
f.close()

运行结果

代码实例2：统计三国演义中出现最多的十个词语（剔除不统计的词语）

import jieba      # 调用分词工具
excludes = {"却说","荆州","二人","不可","不能","如何","如此","商议","左右"}      # 选择不想统计的词语
file_name = open("三国演义.txt", "r", encoding='utf-8').read()         # 打开需要统计的文本，由于书名不是英文，要加上 encoding='utf8'
words = jieba.lcut(file_name)                 # 分词查找中的精确模式
counts = {}
for word in words:         # 统计文字出现字数if len(word) == 1:continueelif word == "诸葛亮" or word == "孔明曰":rword = "孔明"elif word == "关公" or word == "云长":rword = "关羽"elif word == "玄德" or word == "玄德曰":rword = "刘备"elif word == "孟德" or word == "丞相":rword = "曹操"else:rword = wordcounts[rword] = counts.get(rword,0) + 1
for word in excludes:        # 剔除不想统计的文字del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):           # 统计文本出现频率最高的前10个文字word, count = items[i]print ("{0:<10}{1:>5}".format(word, count))# 文本总字数统计
file_name = '三国演义.txt'
try:with open(file_name, encoding='utf8') as file_obj:contents = file_obj.read()
except FileNotFoundError:print('Sorry, the file' + file_name + ' does not exist.')
else:words = contents.rstrip()num_words = len(words)print('这本书 ' + file_name + ' 大约有 ' + str(num_words) + ' 字。')

运行结果

举一反三

政府文件词语统计；
经典名著词语统计；
新闻文章词语统计；
聊天记录词语统计；
网络文章词语统计；
英文文本词语统计；
文本重点信息概要；
写作风格分析。

Python实例3：中文词语统计相关推荐

Python实例9：基本数据统计值计算
Python实例9:基本数据统计值计算需求:给出一组数,对它们有个概要理解: 总个数:len() 求和:for ... in 平均值:求和/总个数方差:各数据与平均数差的平方的和的平均数中位数: ...
Python实例分析——文本词频统计
基于中国大学mooc网嵩天老师的<Python语言程序设计>课程实例文章目录一.数字文本 pi 二.英文文本 *Hamlet* 三.中文文本<三国演义> 一.数字文本 pi ...
python统计汉字个数是_Python中文词频统计
今天看到的一个统计,统计的金庸小说里面的高频词语.想着看了一周python,试试看能不能统计. 网上找的代码,调整顺序拼接了一下,分词库是结巴分词. 解决了python2.7中字典显示中文乱码的问题 ...
python词频统计西游记_实例10-文本词频统计.pdf
Python语言程序设计实例10: 文本词频统计嵩天北京理工大学 "文本词频统计"问题分析 CC BY-NC-SA 4.0 嵩天问题分析文本词频统计 - 需求 :一篇文 ...
python jieba分词及中文词频统计
这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计上篇:python词频统计并按词频排序参考资料:jieba参考文档目录一.jieba库简介二.一些准备工作三 ...
python字符串大写字母个数_【python实例】统计字符串里大写字母，小写字母的个数和非字母的个数...
""" 给定一个以下字符串:统计大写字母的个数,小写字母的个数,非字母的个数. str1 = "ajdkkKDKEK1343KFKiriromfkfKKRIOW ...
python接收输入的一行字符只统计数字的个数,Python（统计字符）,python实例,输入一行字符，分别统计出其中英文字母、空格、数字和其它字符的个数...
Python(统计字符),python实例,输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数题目:输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数. 程序分析:利用 ...
python实现excel计算_用python实现简单EXCEL数据统计的实例
任务: 用python时间简单的统计任务-统计男性和女性分别有多少人. 用到的物料:xlrd 它的作用-读取excel表数据代码:import xlrd workbook = xlrd.open_w ...
使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
写在前边的话: 本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难, ...
python中文词组统计次数_python统计中文词组出现次数
2018年9月7日在百度google没有找到python统计中文词组的,查出来的都是统计英文单词,词组的,所以我想来实现python中文词组统计分享. 首先我是用textrank4zh库将句子转化成词 ...

Python实例3：中文词语统计

需求分析

代码实例1：粗略统计《三国演义》中文词语数量

代码实例2：统计三国演义中出现最多的十个词语（剔除不统计的词语）

举一反三

Python实例3：中文词语统计相关推荐

最新文章

热门文章