python词频统计西游记_使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角...
使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理。
[code]import jieba
with open('西游记.txt','r',encoding='utf-8') as f:
content=f.read()
words=jieba.lcut(content)
counts={}
#同义词处理
for word in words:
if len(word)==1:
continue
elif word=='行者' or word=='大圣' or word=='老孙':
rword='悟空'
elif word=='师父' or word=='三藏' or word=='长老':
rword='唐僧'
elif word=='八戒' or word=='呆子':
rword='八戒'
else:
rword=word
counts[rword]=counts.get(rword,0)+1
f.close()
#排除词处理
excludes={'一个','那里','怎么','我们','不知','两个','什么','不是'}
for word in excludes:
del counts[word]
ls=list(counts.items())
ls.sort(key=lambda x:x[1],reverse=True)
for i in range(8):
word,count=ls[i]
print("{0:<10}{1:>5}".format(word,count))
文本分析结果如下:
[code]悟空 5282
唐僧 4013
八戒 2044
沙僧 692
和尚 603
妖精 599
菩萨 578
国王 442
可见,在《西游记》中,孙悟空是当之无愧的主角。
python词频统计西游记_使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角...相关推荐
- 使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角
使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理. import jieba with open('西游记.txt','r',encoding='utf- ...
- python configure函数 循环_使用python统计git仓库中频繁修改的热点函数
本篇博客以开源代码RT-Thread为例,描述了如何使用python扫描统计代码中频繁修改的函数,帮助我们发现系统中需求变化和BUG制造的重灾区. 需求背景 最近在学习设计模式时,印象深刻的一句话就是 ...
- python 代码行数统计工具_使用Python设计一个代码统计工具
问题 设计一个程序,用于统计一个项目中的代码行数,包括文件个数,代码行数,注释行数,空行行数.尽量设计灵活一点可以通过输入不同参数来统计不同语言的项目,例如: # type用于指定文件类型 pytho ...
- python描述性统计命令_描述性统计_Python数据分析实战应用_数据挖掘与分析视频-51CTO学院...
为什么学Python: 重要:数据分析是职业技能必备,Python是大数据分析** 趋势:Python是目前非常火的编程语言,使用人多 好学:学习简单,容易上手,使用灵活,可扩展强 **:会Pytho ...
- python分组统计标准化_分组计算和汇总_Python数据分析实战应用_数据挖掘与分析视频-51CTO学院...
为什么学Python: 重要:数据分析是职业技能必备,Python是大数据分析** 趋势:Python是目前非常火的编程语言,使用人多 好学:学习简单,容易上手,使用灵活,可扩展强 **:会Pytho ...
- 转行学python 数据分析统计服_转行数据分析,你准备好了吗?
前言 笔者从去年5月份下定决心离开汽车制造行业,6月份开始学习Udacity的DAND(Data Analysis Nano Degree, 数据分析纳米学位)课程至今.历经10个月挑灯苦读和1个月四 ...
- python处理excel案例_使用Python处理Excel表格的简单方法
使用Python处理Excel表格的简单方法 Excel 中的每一个单元,都会有这些属性:颜色(colors).number formatting.字体(fonts).边界(borders).alig ...
- python pip国内源_【Python】设置pip源为国内源及简单操作
一.pip国内源镜像: 二.修改源方法: 1.临时修改 可以在使用pip的时候在后面加上-index参数,指定pip源: pip install --index https://pypi.tuna.t ...
- python搭建web服务器_用Python建立最简单的web服务器
利用Python自带的包可以建立简单的web服务器.在DOS里cd到准备做服务器根目录的路径下,输入命令:python -m Web服务器模块 [端口号,默认8000]例如:python -m Sim ...
最新文章
- ASP.net中太长的数据缩略显示
- python中的lambda匿名函数
- Python3_实例汇总
- 待发箱outbox空间已满
- 【好文收藏】k8s中Pod 无法正常解析域名:部署 DNS 调试工具排查
- AE插件Stardust for mac(最强粒子特效)
- 稀缺PSD分层质感男模特男装电商海报
- oracle 9i linux内核,在Linux下安装Oracle9i_oracle
- zyf整合ssm环境
- linux 光盘刻录命令,Linux中使用命令进行光盘刻录
- 安装Tensorflow 报错false Not creating XLA devices, tf_xla_enable_xla_devices not set
- 从软件工程师到创业二十年从业经历感悟
- 暗黑-角色-中英文对照
- 543.diameter-of-binary-tree
- 苏州科技大学java考试_2020年下半年江苏苏州科技大学计算机等级考试报名工作通知...
- 使用Zadig从0到1搭建持续交付平台
- delphi 操作Excel插入图片
- python实现位置定位_python实现物体定位
- 判断IE浏览器版本(IE10+)
- i-house token(IHT)全球不动产区块链交易云平台获3000万美元投资