中文词频统计与词云生成

本次作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

中文词频统计

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新词库，加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵') #逐个添加

jieba.load_userdict(word_dict) #词库文本文件

参考词库下载地址：https://pinyin.sogou.com/dict/

转换代码：scel_to_text

5. 生成词频统计

6. 排序

7. 排除语法型词汇，代词、冠词、连词等停用词。

stops

tokens=[token for token in wordsls if token not in stops]

8. 输出词频最大TOP20，把结果存放到文件里

9. 生成词云。

一、核心代码:

import jieba
import pandas as pd
from wordcloud import WordCloud
import matplotlib.pyplot as pltf = open('novel.txt', 'r', encoding='utf-8') #读取小说内容
nov = f.read()
f.close()f1 =  open('stops_chinese.txt', 'r', encoding='utf-8')  #读取无用中文关键词
waste = f1.read()
f1.close()for i in [' ','\n']:nov = nov.replace(i, '')
#jieba添加词典与关键词
jieba.add_word("赵璇")
jieba.load_userdict('紫薇学园字典.txt')
novel=jieba.lcut(nov)  #用jieba切割nov#token过滤无用关键词
waste=waste.split('\n')
tokens = [token for token in novel if token not in waste]Set = set(tokens)#把tokens转换为集合方便字典统计
Dict = {}  # 创建一个字典统计词频
for i in Set:Dict[i] = tokens.count(i)
TopList = list(Dict.items())  # 转换成列表进行排序
TopList.sort(key = lambda x: x[1], reverse=True)  # 按照词频降序排列for i in range(20): #输出前20print(TopList[i])pd.DataFrame(data=TopList[0:20]).to_csv('top20.csv', encoding='utf-8')#生成词云图,进行字体变量配置后用空格分割内容
wl_split=' '.join(tokens)
mywc=WordCloud().generate(wl_split)
plt.imshow(mywc)
plt.axis("off")
plt.show()

二、生成的TOP20.CSV:

三、运行截图+词云图

转载于:https://www.cnblogs.com/lqscmz/p/10590637.html

中文词频统计与词云生成相关推荐

统计csv词频_中文词频统计与词云生成
一.中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieba jieba.lcut ...
+中文词频统计及词云制作9-25
1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波. 2.中文分词下载一中文长篇小说,并转换成UTF-8编码使用jieba库,进行中文词频统 ...
中文词频统计及词云制作
1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 希望老师能讲讲更多关于python的知识,并且讲讲大数据的的另一些方向 2.中文分词 a.下载一中文长 ...
python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制
本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...
【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战
词频统计.词云+实战一.词频统计: 1.基本概念及原理 2.词频统计方法二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...
爱奇艺评论爬虫、词频统计、词云、PaddleHub内容审核
需求第一步:爱奇艺<青春有你2>评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7 ...
利用jieba库和wordcloud库，进行中文词频统计并利用词云图进行数据可视化
目录利用jieba库和wordcloud库,进行中文词频统计并利用词云图进行数据可视化安装jieba库安装wordcloud 打开pycharm 编写代码利用jieba库和wordcloud库 ...
python中文分词器－jieba分词器详解及wordcloud词云生成
jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义搜索引擎模式,在精确模 ...
基于python的词云生成-中文词云（指定词云形状）
基于python的词云生成(二) 1.简介本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果. jie ...

中文词频统计与词云生成

中文词频统计与词云生成相关推荐

最新文章

热门文章