jieba分词统计红楼梦出现名字前20名
要求:红楼梦相关的分词,出现次数最高的20个。
import jieba
excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己","一面","只见","怎么","两个","没有","不是","不知","这个","听见","这样","进来","咱们","告诉","就是","东西","袭人","回来","只是","大家","只得","老爷","丫头","这些","不敢","出去","所以","不过","的话","不好","姐姐","探春","鸳鸯","一时","不能","过来","心里","如此","今日","银子","几个","答应","二人","还有","只管","这么","说话","一回","那边","这话","外头","打发","自然","今儿","罢了","屋里","那些","听说","小丫头","不用","如何"}txt = open("红楼梦.txt","r",encoding='utf-8').read()
'''
不写明路径的话,默认和保存的python文件在同一目录下 注意打开格式是utf-8,这个可以打开txt文件,选择另存为,注意界面右下角的格式
'''
words = jieba.lcut(txt)
'''
利用jieba库将红楼梦的所有语句分成词汇
'''
counts = {}
'''
创建的一个空的字典
'''
for word in words:if len(word) == 1: #如果长度是一,可能是语气词之类的,应该删除掉continueelse:counts[word] = counts.get(word,0) + 1
'''如果字典中没有这个健(名字)则创建,如果有这个健那么就给他的计数加一[姓名:数量],这里是数量加一
'''
for word in excludes:del(counts[word])
'''#这一步:如果列出的干扰词汇在分完词后的所有词汇中那么删除
'''
items = list(counts.items())
'''
把保存[姓名:个数]的字典转换成列表
'''
items.sort(key=lambda x:x[1],reverse = True)
'''
对上述列表进行排序,'True'是降序排列
'''
for i in range(20):word,count = items[i]print("{0:<10}{1:>5}".format(word,count))
结果示例:
jieba分词统计红楼梦出现名字前20名相关推荐
- python _ 统计红楼梦人员姓名出现次数
python _ 统计红楼梦人员姓名出现次数 使用到jieba库 --Python 第三方中文分词库 1 安装jieba库 : 2 红楼梦 TXT 文档 import jieba txt = open ...
- VBS脚本统计红楼梦中贾宝玉出现的次数
VBS脚本统计红楼梦中贾宝玉出现的次数 文件: 链接:https://pan.baidu.com/s/1T-XIbIHzMZiIX8IiSMcZdg 提取码:sti6 脚本代码: Dim fso, t ...
- MapReduce: 统计微博点赞数的前5名。
MapReduce: 统计微博点赞数的前5名. 要求:得到点赞数最多的前5名博主ID.微博内容.点赞数. 文件: log_movie.txt id, created_at, attitudes_cou ...
- 干货丨机器学习必备:前20名Python人工智能和机器学习开源项目
如今机器学习和人工智能已经变得家喻户晓,有很多爱好者进入了该领域.但是,什么才是能够进入该领域的正确路径呢?如何保持自己跟上该领域的发展步伐呢? 为了解决以上两个问题,可以通过利用高级专业人员每天使用 ...
- 机器学习必备:前20名Python人工智能和机器学习开源项目
摘要: 机器学习之旅必了解:前20名Python人工智能和机器学习开源项目! 如今机器学习和人工智能已经变得家喻户晓,有很多爱好者进入了该领域.但是,什么才是能够进入该领域的正确路径呢?如何保持自己跟 ...
- 中国计算机国家重点实验室、美国计算机前20名学校
中国计算机国家重点实验室 中国科学院软件研究所:实验室名字就叫做"计算机科学国家重点实验室".目前,该实验室是国内唯一一个以从事计算机科学和软件方法与技术的基础研究为主的国家重点实 ...
- 美国计算机专业前20名学校点评
USNEWS 2003 PhD Program Ranking (Computer Science) 1. Carnegie Mellon University (PA) 4.9 1. Massach ...
- SEO中期网站优化进入前20名至第3名之间的阶段
SEO中期网站优化进入前20名至第3名之间的阶段 最近到年底了事情特别的多,公众号也有一段时间没更新,今天稍微有点空,继续给大家分享SEO技术知识,如果感觉文章不错的可以多分享给身边朋友关注我的公众号 ...
- 语言关键字特别注意没有_从零开始写文本编辑器(三十三):前20名编程语言的关键字...
前言 以前没细心学习,其实html, xml 并不是编程语言,它们叫标记语言,即缩写ml的全称markup language. 尽量找了资源,整理了前20名的编程语言的关键字.然后用工厂封装创建.我之 ...
最新文章
- 维基百科联手谷歌翻译,结果“惨不忍睹”!
- 多线程还是多进程的区别
- 记Booking.com iOS开发岗位线上笔试
- MongoDB 基础浅谈
- vue路由传参的三种基本方式
- 飞鸽传书内部护眼神功
- 安装RHEL 7.5 Server版本(RedHat 7.5 Server) 图文教程
- 机器学习教程 一-不懂这些线性代数知识 别说你是搞机器学习的
- 做消息推送 8 年的极光,为何做物联网 JIoT 平台?
- 联合 5 位大佬送 210 本实体书,包邮到家!
- 鼠标宏设置到鼠标左键,重置回去!
- 照片审核处理工具_2020中级会计考试报名今天开始,照片上传要求相关说明
- 【Windows7】win7启动 报错 AutoIt错误,不能打开脚本文件
- 去除测序reads中的接头:adaptor
- Latex去除正文中的章节编号但同时在目标中保留索引
- 黑客攻击欧洲港口石油设施致油价飙升、上海首份《企业数据合规指引》出台、微软计划收购网络安全公司|网络安全周报
- FFT快速傅里叶变换C语言实现信号处理 对振动信号进行实现时域到频域的转换
- SpringCloud系列【security oauth2】
- centos7使用dnsmasq搭建dns服务器
- java堆栈、gc、dump文件在线分析
热门文章
- 拓扑排序 by zyz on 2021/4/11
- 好文分享 努力从何时开始都不晚 跟自己比 不断进步
- Spring中RedisTemplate方法中,redis相关操作笔记。[redis生成指定长度自增批次号,删除、设置过期时间等]
- 教你获取Microsoft Office 365E5账号
- 平板电脑 中柏4s pro 重装win10 系统
- Flutter网络请求
- 【ASP.NET】家乡网站设计作业「历史」「人文」「自然」「美食」「高中」
- 网络操作系统和应用服务器考点,网络操作系统与应用服务器配置
- Hive数据仓库实战
- [益智]:3个女儿的年龄