使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理。

[code]import jieba

with open('西游记.txt','r',encoding='utf-8') as f:

content=f.read()

words=jieba.lcut(content)

counts={}

#同义词处理

for word in words:

if len(word)==1:

continue

elif word=='行者' or word=='大圣' or word=='老孙':

rword='悟空'

elif word=='师父' or word=='三藏' or word=='长老':

rword='唐僧'

elif word=='八戒' or word=='呆子':

rword='八戒'

else:

rword=word

counts[rword]=counts.get(rword,0)+1

f.close()

#排除词处理

excludes={'一个','那里','怎么','我们','不知','两个','什么','不是'}

for word in excludes:

del counts[word]

ls=list(counts.items())

ls.sort(key=lambda x:x[1],reverse=True)

for i in range(8):

word,count=ls[i]

print("{0:<10}{1:>5}".format(word,count))

文本分析结果如下:

[code]悟空 5282

唐僧 4013

八戒 2044

沙僧 692

和尚 603

妖精 599

菩萨 578

国王 442

可见,在《西游记》中,孙悟空是当之无愧的主角。

python词频统计西游记_使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角...相关推荐

  1. 使用python简单实现《西游记》文本分析,通过词频对比探索西游记的主角

    使用jieba模块简单统计西游记词频,并进行同义词处理(如合并 行者,大圣为悟空)及排除词处理. import jieba with open('西游记.txt','r',encoding='utf- ...

  2. python configure函数 循环_使用python统计git仓库中频繁修改的热点函数

    本篇博客以开源代码RT-Thread为例,描述了如何使用python扫描统计代码中频繁修改的函数,帮助我们发现系统中需求变化和BUG制造的重灾区. 需求背景 最近在学习设计模式时,印象深刻的一句话就是 ...

  3. python 代码行数统计工具_使用Python设计一个代码统计工具

    问题 设计一个程序,用于统计一个项目中的代码行数,包括文件个数,代码行数,注释行数,空行行数.尽量设计灵活一点可以通过输入不同参数来统计不同语言的项目,例如: # type用于指定文件类型 pytho ...

  4. python描述性统计命令_描述性统计_Python数据分析实战应用_数据挖掘与分析视频-51CTO学院...

    为什么学Python: 重要:数据分析是职业技能必备,Python是大数据分析** 趋势:Python是目前非常火的编程语言,使用人多 好学:学习简单,容易上手,使用灵活,可扩展强 **:会Pytho ...

  5. python分组统计标准化_分组计算和汇总_Python数据分析实战应用_数据挖掘与分析视频-51CTO学院...

    为什么学Python: 重要:数据分析是职业技能必备,Python是大数据分析** 趋势:Python是目前非常火的编程语言,使用人多 好学:学习简单,容易上手,使用灵活,可扩展强 **:会Pytho ...

  6. 转行学python 数据分析统计服_转行数据分析,你准备好了吗?

    前言 笔者从去年5月份下定决心离开汽车制造行业,6月份开始学习Udacity的DAND(Data Analysis Nano Degree, 数据分析纳米学位)课程至今.历经10个月挑灯苦读和1个月四 ...

  7. python处理excel案例_使用Python处理Excel表格的简单方法

    使用Python处理Excel表格的简单方法 Excel 中的每一个单元,都会有这些属性:颜色(colors).number formatting.字体(fonts).边界(borders).alig ...

  8. python pip国内源_【Python】设置pip源为国内源及简单操作

    一.pip国内源镜像: 二.修改源方法: 1.临时修改 可以在使用pip的时候在后面加上-index参数,指定pip源: pip install --index https://pypi.tuna.t ...

  9. python搭建web服务器_用Python建立最简单的web服务器

    利用Python自带的包可以建立简单的web服务器.在DOS里cd到准备做服务器根目录的路径下,输入命令:python -m Web服务器模块 [端口号,默认8000]例如:python -m Sim ...

最新文章

  1. ASP.net中太长的数据缩略显示
  2. python中的lambda匿名函数
  3. Python3_实例汇总
  4. 待发箱outbox空间已满
  5. 【好文收藏】k8s中Pod 无法正常解析域名:部署 DNS 调试工具排查
  6. AE插件Stardust for mac(最强粒子特效)
  7. 稀缺PSD分层质感男模特男装电商海报
  8. oracle 9i linux内核,在Linux下安装Oracle9i_oracle
  9. zyf整合ssm环境
  10. linux 光盘刻录命令,Linux中使用命令进行光盘刻录
  11. 安装Tensorflow 报错false Not creating XLA devices, tf_xla_enable_xla_devices not set
  12. 从软件工程师到创业二十年从业经历感悟
  13. 暗黑-角色-中英文对照
  14. 543.diameter-of-binary-tree
  15. 苏州科技大学java考试_2020年下半年江苏苏州科技大学计算机等级考试报名工作通知...
  16. 使用Zadig从0到1搭建持续交付平台
  17. delphi 操作Excel插入图片
  18. python实现位置定位_python实现物体定位
  19. 判断IE浏览器版本(IE10+)
  20. i-house token(IHT)全球不动产区块链交易云平台获3000万美元投资

热门文章

  1. DPDK Mempool
  2. 吉首大学校赛B——干物妹小埋(线段树求最大递增子序列)
  3. 【招聘内推】美团招聘搜索推荐算法工程师(核心组)
  4. JMETER解决测试结果乱码问题
  5. 湛江各县市区5G建设计划已明确,共计7460座5G基站
  6. 操作符有哪些?有什么用处?
  7. 湖北省中小学网络考试中心 html,中小学教师资格网登录入口|ie浏览器
  8. 右下角弹出广告 js,漂浮效果(兼容多浏览器)
  9. 2021-11-10----韩顺平Java入门第七天
  10. 0427-android-距离感应了解一下