中文词频统计与词云生成
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822
中文词频统计
1. 下载一长篇中文小说。
2. 从文件读取待分析文本。
3. 安装并使用jieba进行中文分词。
pip install jieba
import jieba
jieba.lcut(text)
4. 更新词库,加入所分析对象的专业词汇。
jieba.add_word('天罡北斗阵') #逐个添加
jieba.load_userdict(word_dict) #词库文本文件
参考词库下载地址:https://pinyin.sogou.com/dict/
转换代码:scel_to_text
5. 生成词频统计
6. 排序
7. 排除语法型词汇,代词、冠词、连词等停用词。
stops
tokens=[token for token in wordsls if token not in stops]
8. 输出词频最大TOP20,把结果存放到文件里
9. 生成词云。
一、核心代码:
import jieba import pandas as pd from wordcloud import WordCloud import matplotlib.pyplot as pltf = open('novel.txt', 'r', encoding='utf-8') #读取小说内容 nov = f.read() f.close()f1 = open('stops_chinese.txt', 'r', encoding='utf-8') #读取无用中文关键词 waste = f1.read() f1.close()for i in [' ','\n']:nov = nov.replace(i, '') #jieba添加词典与关键词 jieba.add_word("赵璇") jieba.load_userdict('紫薇学园字典.txt') novel=jieba.lcut(nov) #用jieba切割nov#token过滤无用关键词 waste=waste.split('\n') tokens = [token for token in novel if token not in waste]Set = set(tokens)#把tokens转换为集合方便字典统计 Dict = {} # 创建一个字典统计词频 for i in Set:Dict[i] = tokens.count(i) TopList = list(Dict.items()) # 转换成列表进行排序 TopList.sort(key = lambda x: x[1], reverse=True) # 按照词频降序排列for i in range(20): #输出前20print(TopList[i])pd.DataFrame(data=TopList[0:20]).to_csv('top20.csv', encoding='utf-8')#生成词云图,进行字体变量配置后用空格分割内容 wl_split=' '.join(tokens) mywc=WordCloud().generate(wl_split) plt.imshow(mywc) plt.axis("off") plt.show()
二、生成的TOP20.CSV:
三、运行截图+词云图
转载于:https://www.cnblogs.com/lqscmz/p/10590637.html
中文词频统计与词云生成相关推荐
- 统计csv词频_中文词频统计与词云生成
一.中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieba jieba.lcut ...
- +中文词频统计及词云制作9-25
1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波. 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码 使用jieba库,进行中文词频统 ...
- 中文词频统计及词云制作
1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 希望老师能讲讲更多关于python的知识,并且讲讲大数据的的另一些方向 2.中文分词 a.下载一中文长 ...
- python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制
本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...
- 【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战
词频统计.词云+实战 一.词频统计: 1.基本概念及原理 2.词频统计方法 二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...
- 爱奇艺评论爬虫、词频统计、词云、PaddleHub内容审核
需求 第一步:爱奇艺<青春有你2>评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7 ...
- 利用jieba库和wordcloud库,进行中文词频统计并利用词云图进行数据可视化
目录 利用jieba库和wordcloud库,进行中文词频统计并利用词云图进行数据可视化 安装jieba库 安装wordcloud 打开pycharm 编写代码 利用jieba库和wordcloud库 ...
- python中文分词器-jieba分词器详解及wordcloud词云生成
jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...
- 基于python的词云生成-中文词云(指定词云形状)
基于python的词云生成(二) 1.简介 本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果. jie ...
最新文章
- EL之AdaBoost:集成学习之AdaBoost算法的简介、应用、经典案例之详细攻略
- 基于 esp32 + lvgl8.0 的小电视
- OpenCV中反向投影
- 基于JAVA+SpringMVC+Mybatis+MYSQL的教学管理平台
- 马云卸任阿里巴巴董事局主席;苹果承认违法中国劳动法;IntelliJ IDEA 2019.2.2 发布​ | 极客头条...
- linearLayout和二级菜单联动
- C基础——fopen() 的 mode参数
- 2021 年软件开发趋势方向
- SSD5_ Exam 2分析
- 方差分析软件_Minitab统计软件入门(一)
- python 3d游戏 源码_毕设3D游戏《天鹰教》源码
- 京东-黑客马拉松大赛复盘
- Liunx文件常用命令总结
- 幼儿园数学区如何用计算机作用,实用帖——幼儿园数学区域玩教具
- 如何将ppt改为无法修改的pdf
- 浙江高考python 学生采访_实录|我采访了12个在校大学生,高考前100天他们这样过...
- SQL CREATE DATABASE
- wamp环境手工搭建详细教程(windows+apache+mysql+php+phpmyad...
- iCloud 照片无法同步的解决方法
- 西门子S7通信协议中TSAP的确认