python红楼梦词频统计
《红楼梦》人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库。
分析过程:
代码:

import jieba
txt=open("G:\\红楼梦.txt","r",encoding="utf-8")
txt.read()
words=jieba.lcut(txt)#精准模式
a={}
for word in words:if len(word)==1:#排除单个字符的统计结果continueelse:a[word]=a.get(word,0)+1
items=list(a.items())#将字典转换为记录列表
items.sort(key=lambda x:x[1],reverse=True)#记录第二列排序
for i in range(15):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))
txt.close()

第一步是打开红楼梦.txt文件,只读的方式,使用UTF-8编码方式
第二步是使用精准模式,将单词保存到words列表中,使用一个字典类型a={},统计单词的次数:

for word in words:if len(word)==1:#排除单个字符的统计结果continueelse:a[word]=a.get(word,0)+1

如果字符长度为1则跳过,否则使用a.get(word,0)方法表示:如果word在a中则返回word对应的值,如果word不在a中就返回0。

第三步是对单词的统计的值从高到低进行排序,输出前15个高频词语,并格式化打印输出。由于字典没有顺序,需要将其转换为有顺序的列表类型,再使用sort()方法和lambda函数配合实现单词出现的次数,对元素进行排序。最后输出排序结果前15位的单词。

items=list(a.items())#将字典转换为记录列表
items.sort(key=lambda x:x[1],reverse=True)#记录第二列排序

实验结果:

可以看出贾宝玉和贾母的出现的次数最高。

python红楼梦词频统计相关推荐

  1. python红楼梦词频统计_Python 红楼梦的字频与词频统计

    Python 红楼梦的字频与词频统计 使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词. 使用wordcloud生成词云. 其实除了停用词,程度词与否定词等也应该去除,但 ...

  2. python红楼梦词频统计_用 Python 分析《红楼梦》(2)-阿里云开发者社区

    6 词频统计 完成分词以后,词频统计就非常简单了.我们只需要根据分词结果把片段切分开,去掉长度为一的片段(也就是单字),然后数一下每一种片段的个数就可以了. 这是出现次数排名前 20 的单词: (括号 ...

  3. python之红楼梦词频统计并生成图云

    一共三个文件 Hlm.py stop_words.txt 红楼梦.txt (tips: txt文件已放在文章最后) 废话不多说,直接上效果图和代码: 效果图 Hlm.py 代码部分: import m ...

  4. python红楼梦人物统计_Python分析红楼梦,宝玉和十二钗的人物关系

    红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析. 出场率 由于我们只统计宝玉和十二钗(正册)这些人物,因此我们需要实 ...

  5. python红楼梦人物统计_基于共现使用Python来分析《红楼梦》中贾宝玉与金陵十二钗的关系...

    上一篇,我们使用Python分析了<三国演义>中人物出现次数(罗贯中的<三国演义>中到底谁是主角?我们使用Python来分析一下),文中我们仅仅从人物出现次数,来推断出这部作品 ...

  6. python红楼梦人数统计结果_Python学习分析红楼梦社交网络,意外发现一个有影响力的神秘人物...

    前言 这次我们将分析整个红楼梦的社交网络.我们尝试用算法去寻找红楼梦中最重要的人物,最有权势的人物,以及一些关系亲密的小团体.看看都有哪些有趣的发现吧. 社交网络 据统计,红楼梦中出场人数共有四百四十 ...

  7. 浅析如何用Python进行中英文词频统计

    浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...

  8. python红楼梦人物词频统计_用 Python 分析《红楼梦》

    1 前言 两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...

  9. python红楼梦人物词频统计_用Python绘制红楼梦词云图,竟然发现了这个!

    原标题:用Python绘制红楼梦词云图,竟然发现了这个! Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具 ...

最新文章

  1. Mac系统的JDK8默认安装路径
  2. ios - Push远程通知代码设置 DeviceToken
  3. LeetCode - Department Highest Salary
  4. 1006 换个格式输出整数 (15 分)(c语言)
  5. .text 0.958之间居的中文汉化下载
  6. Hive的内置数据类型
  7. 如何遍历删除一个数组中的对象
  8. Haproxy+Nginx实现web负载均衡群集
  9. Excel——字符串操作函数
  10. 1.1顺序表的初始化及基本操作(菜单实现)
  11. js常用设计模式实现(一)单例模式
  12. HDU5855 Less Time, More profit(最大权闭合子图)
  13. 高登复习笔记之Http网络协议和Servlet
  14. 运动耳机什么款式好、最适合运动的耳机类型
  15. SAP SD发货流程中托盘的管理
  16. MySQL 一键安装脚本
  17. 王道计算机组成原理课代表 - 考研计算机 第二章 数据的表示和运算 究极精华总结笔记
  18. 【Java中级】8.5 SSH之Hibernate框架(五)——关于Criteria(QBC)过时的补充
  19. 做一个成功的软件项目经理
  20. RocketMQ实战疑问和原理解答(更新至Q9)

热门文章

  1. python输入输出格式化_Python 的输入输出(一):str, repr和格式化输出
  2. 美赛数学建模 | 信息检索与竞赛工具 降低信息差
  3. JDK源码下载:http://download.java.net/openjdk/jdk7
  4. 创新方法72变(荣振环)
  5. C# Windows-API-Code-Pack for .Net
  6. 使用html创建浮标,介绍最基本的浮标调整方法,让大家钓鱼时鱼鱼得水
  7. 备战第十二届蓝桥杯电子类《EDA设计与开发》国赛
  8. postgresql锁表如何处理
  9. 大中华地区的商业IMAX影院(更新至2010年7月)
  10. 简单五步看懂伦敦的银标