python对红楼梦的每一章节进行词频统计

python对红楼梦的每一章节进行词频统计

import jieba

f=open("G:\\红楼梦.txt","r",encoding="utf-8")

txt=f.read()

words=jieba.lcut(txt)#精准模式

ls=[]

![在这里插入图片描述](https://img-blog.csdnimg.cn/20201030001436824.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RkbDMyMDcyMQ==,size_16,color_FFFFFF,t_70#pic_center)

for word in words:

a={}

if word[0] == "第" and word[-1] == "回":

if word in ls:

continue

else:

ls.append(word)

print(ls)

for i in range(len(ls)):

print(ls[i])

a={}

if i

for word in words[words.index(ls[i])+1:words.index(ls[i + 1])]:

if len(word) == 1: # 排除单个字符的统计结果

continue

else:

a[word] = a.get(word, 0) + 1

elif i ==len(ls)-1:#最后一回

for word in words[words.index(ls[i])+1:]:

if len(word) == 1: # 排除单个字符的统计结果

continue

else:

a[word] = a.get(word, 0) + 1

items = list(a.items()) # 将字典转换为记录列表

items.sort(key=lambda x: x[1], reverse=True) # 记录第二列排序

for i in range(5):

word, count = items[i]

print("{0:<10}{1:>5}".format(word, count))

print("\n")

f.close()

第一步是打开红楼梦.txt文件,只读的方式,使用UTF-8编码方式

第二步是使用精准模式,将单词保存到words列表中,再将“第几回”存放到一个新的列表中,便于对红楼梦文件每一回进行切片,切边的界点便是第多少回这样的字眼,第一种统计是第i回到第i+1回的之间的词频统计,还有一种就是最后一回的词频统计。

使用一个字典类型a={},统计单词的次数:

for word in words:

if len(word)==1:#排除单个字符的统计结果

continue

else:

a[word]=a.get(word,0)+1

如果字符长度为1则跳过,否则使用a.get(word,0)方法表示:如果word在a中则返回word对应的值,如果word不在a中就返回0。

第三步是对单词的统计的值从高到低进行排序,输出前5个高频词语,并格式化打印输出。由于字典没有顺序,需要将其转换为有顺序的列表类型,再使用sort()方法和lambda函数配合实现单词出现的次数,对元素进行排序。最后输出排序结果前15位的单词。

items=list(a.items())#将字典转换为记录列表

items.sort(key=lambda x:x[1],reverse=True)#记录第二列排序

python对红楼梦的每一章节进行词频统计相关教程

Python爬虫入门实例六之IP地址归属地的自动查询

Python爬虫入门实例六之IP地址归属地的自动查询 文章目录 1.爬取原页面 2.编程思路 3.完整代码 引用源自 使用的网站链接:https://ipchaxun.com/. 页面如下图: ??将想要查询的IP地址复制给变量a,通过观察网站的URL在查询前后的变化,基于规则构建提交IP地址

瞧瞧,这样的代码才叫 Pythonic

瞧瞧,这样的代码才叫 Pythonic 作者|写代码的明哥 来源 | Python编程时光(ID:Cool-Python) 头图 | CSDN下载自东方IC Python由于语言的简洁性,让我们以人类思考的方式来写代码,新手更容易上手,老鸟更爱不释手。 要写出 Pythonic(优雅的、地道的、整洁

最全总结 | 聊聊 Python 办公自动化之 Excel(中)

最全总结 | 聊聊 Python 办公自动化之 Excel(中) 聊聊 Python 数据处理全家桶(Memca 篇) 点击上方“AirPython”,选择“加为星标” 第一时间关注 Python 技术干货! 上一篇文章中,我们聊到使用xlrd、xlwt、xlutils 这一组合操作 Excel 的方法 最全总结 |

python:Cartopy的基础使用

python:Cartopy的基础使用 文章目录 前言 一、基础介绍 二、区域地图的绘制 总结 前言 常用地图底图的绘制一般由Basemap或者cartopy模块完成,由于Basemap库是基于python2开发的一个模块,目前已经不开发维护。故简单介绍cartopy模块的一些基础操作。 一、基

使用Python创建词云

使用Python创建词云 介绍 从开始从事数据可视化工作的那一天起,我就爱上它了,我总是喜欢从数据中获得有用的见解。 在此之前,我只了解基本图表,例如条形图,散点图,直方图等,这些基本图表内置在tableau中,而Power BI则用于数据可视化。通过每天完成此任

Opencv python 漫水填充(魔棒处理)

Opencv python 漫水填充(魔棒处理) 处理代码 import cv2 as cvimport numpy as npdef main(): # 1.导入图片 img_org = cv.imread(./img.png, cv.IMREAD_COLOR) # 2.设置参数 seed_point = (290, 290) # 坐标 new_val = (255, 255, 255) # 赋新值 lower_diff =

OpenCV+python识别并打印HSV颜色

OpenCV+python识别并打印HSV颜色 import cv2import imutilscap = cv2.VideoCapture(0)## Readimg = cv2.imread(D:/deng/ppp/3.png)def Detector_color(): while(True): # Capture frame-by-frame ret, frame = cap.read() frame = imutils.resize(frame, widt

python分析红楼梦出现的虚词词频统计,python对红楼梦的每一章节进行词频统计相关推荐

  1. python分析excel数据-总结:像Excel一样使用python进行数据分析

    Excel是数据分析中最常用的工具,本篇文章通过python与excel的功能对比介绍如何使用python通过函数式编程完成excel中的数据处理及分析工作.在Python中pandas库用于数据处理 ...

  2. 如何用python分析大数据_Twitter数据挖掘:如何使用Python分析大数据

    ,拥有16年的程序员培训经验,上市公司品牌,口碑极好,一线名师授课,强大的教研团队研制开发最新的课程,与中关村软件园战略合作保障人才输出,与学员签订就业协议保障就业问题!真正的靠谱品牌! 大数据无处不 ...

  3. python分析股票主力_python如何获取股票数据,python股票分析系统

    内容导航: Q1:怎样用python处理股票 用Python处理股票需要获取股票数据,以国内股票数据为例,可以安装Python的第三方库:tushare:一个国内股票数据获取包.可以在百度中搜索&qu ...

  4. 程度性数据python分析_用户画像准确性评测初探——拨开python大数据分析的神秘面纱...

    导读 本文主要包括两部分内容,第一部分会对零零散散进行了两个多月的用户画像评测做个简要回顾和总结,第二部分会对测试中用到的python大数据处理神器pandas做个整体介绍. Part1用户画像评测回 ...

  5. python分析pdf年报 货币现金_如何用Python从大量pdf 中提取表格中的数据进行分析?...

    根据一楼答案@森林的建议 说说我的处理经验 我也是借助开源项目tabula,不得不说tabula的功能确实很强大. 我是用Python来处理数据,但是没有用tabula-py,因为表格跨列跨行等情况比 ...

  6. python分析彩票数据,这波太炸了!Python脚本可视化居然可以这么玩

    如同艺术家们用绘画让人们更贴切的感知世界,数据可视化也能让人们更直观的传递数据所要表达的信息.你知道Python脚本可视化有多好看么?就像下图这样,是不是感觉十分高端大气上档次: 以上示例都是通过Ry ...

  7. 开店必看!带你用Python分析闲鱼的爆款商品

    开店必看!带你用Python分析闲鱼的爆款商品 分享 Python 自动化及爬虫.数据分析实战干货,欢迎关注. 1 目 标 场 景 经常看到有朋友在闲鱼卖些小东西又或是自己擅长的一些技能,都能为他们带 ...

  8. python红楼梦词频统计_用 Python 分析《红楼梦》(2)-阿里云开发者社区

    6 词频统计 完成分词以后,词频统计就非常简单了.我们只需要根据分词结果把片段切分开,去掉长度为一的片段(也就是单字),然后数一下每一种片段的个数就可以了. 这是出现次数排名前 20 的单词: (括号 ...

  9. python词频统计之红楼梦_用 Python 分析《红楼梦》,后四十回是曹雪芹所写

    用 Python 分析<红楼梦>,后四十回是曹雪芹所写 2020年11月04日 16:03:11    作者:九九文章网 处理后的效果是这个样子: #甄士隐梦幻识通灵#贾雨村风尘怀闺秀#此 ...

最新文章

  1. 嵌入式自学多久可以找工作?应届生找嵌入式工作难吗?
  2. python读取文件按行分割字符串_python中分割字符串split切割并选择输出 逐行读取文件后字符串拼接...
  3. luogu P2512 [HAOI2008]糖果传递
  4. C# WPF MVVM开发框架Caliburn.Micro View / View Model 命名⑨
  5. 基于.NET Standard的分布式自增ID算法--美团点评LeafSegment
  6. 数据库 MySQL 如何设置表的主键自增起始值
  7. STM32工作笔记0040---认识MOS管
  8. 新媒体增长方法从哪里找?
  9. ssas如何创建分区_如何基于SSAS信息创建Excel报告
  10. Django项目:CRM(客户关系管理系统)--41--33PerfectCRM实现King_admin编辑整张表限制
  11. 软件评测师教程——软件测试基础
  12. R 语言 iris 数据集的可视化
  13. 如何搭建自己的云盘然后进行资源共享?——可道云版
  14. 机器人 迷宫算法_机器人,迷宫和附属建筑
  15. python学习的读书路线
  16. 视频如何批量去除水印
  17. android 10.0禁用电源键(屏蔽关机短按长按事件)
  18. 【web漏洞】弱口令
  19. 【STL切片算法文献笔记】基于GPU并行计算的3D打印切片算法
  20. 从豆瓣看《长安十二时辰》如何成为爆款IP?

热门文章

  1. 0x76731942 (KernelBase.dll) 处最可能的异常: Microsoft C++ 异常:
  2. Java基础IO系列之ByteArrayInputStream和ByteArrayOutputStream解析
  3. mysql 修改 root 密码
  4. STM32CubeIDE HAL库DMA方式驱动MPU925X(1)
  5. 常用计算机制图软件,常用的电脑画图软件有什么?
  6. 机器学习之期望最大化算法(Expectation Maximization, EM)
  7. 收藏!2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台
  8. 11家共享单车可通过支付宝免押骑车,这种省钱的方法你get了吗?
  9. [益智]:3个女儿的年龄
  10. Linux下穿件带点文件夹和隐藏文件显示隐藏文件命令