本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822

中文词频统计

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新词库,加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵')  #逐个添加

jieba.load_userdict(word_dict)  #词库文本文件

参考词库下载地址:https://pinyin.sogou.com/dict/

转换代码:scel_to_text

5. 生成词频统计

6. 排序

7. 排除语法型词汇,代词、冠词、连词等停用词。

stops

tokens=[token for token in wordsls if token not in stops]

8. 输出词频最大TOP20,把结果存放到文件里

9. 生成词云。


一、核心代码:

import jieba
import pandas as pd
from wordcloud import WordCloud
import matplotlib.pyplot as pltf = open('novel.txt', 'r', encoding='utf-8') #读取小说内容
nov = f.read()
f.close()f1 =  open('stops_chinese.txt', 'r', encoding='utf-8')  #读取无用中文关键词
waste = f1.read()
f1.close()for i in [' ','\n']:nov = nov.replace(i, '')
#jieba添加词典与关键词
jieba.add_word("赵璇")
jieba.load_userdict('紫薇学园字典.txt')
novel=jieba.lcut(nov)  #用jieba切割nov#token过滤无用关键词
waste=waste.split('\n')
tokens = [token for token in novel if token not in waste]Set = set(tokens)#把tokens转换为集合方便字典统计
Dict = {}  # 创建一个字典统计词频
for i in Set:Dict[i] = tokens.count(i)
TopList = list(Dict.items())  # 转换成列表进行排序
TopList.sort(key = lambda x: x[1], reverse=True)  # 按照词频降序排列for i in range(20): #输出前20print(TopList[i])pd.DataFrame(data=TopList[0:20]).to_csv('top20.csv', encoding='utf-8')#生成词云图,进行字体变量配置后用空格分割内容
wl_split=' '.join(tokens)
mywc=WordCloud().generate(wl_split)
plt.imshow(mywc)
plt.axis("off")
plt.show()

二、生成的TOP20.CSV:

三、运行截图+词云图

转载于:https://www.cnblogs.com/lqscmz/p/10590637.html

中文词频统计与词云生成相关推荐

  1. 统计csv词频_中文词频统计与词云生成

    一.中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieba jieba.lcut ...

  2. +中文词频统计及词云制作9-25

    1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波. 2.中文分词 下载一中文长篇小说,并转换成UTF-8编码 使用jieba库,进行中文词频统 ...

  3. 中文词频统计及词云制作

    1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答) 希望老师能讲讲更多关于python的知识,并且讲讲大数据的的另一些方向 2.中文分词 a.下载一中文长 ...

  4. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

  5. 【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

    词频统计.词云+实战 一.词频统计: 1.基本概念及原理 2.词频统计方法 二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...

  6. 爱奇艺评论爬虫、词频统计、词云、PaddleHub内容审核

    需求 第一步:爱奇艺<青春有你2>评论数据爬取(参考链接:https://www.iqiyi.com/v_19ryfkiv8w.html#curid=15068699100_9f9bab7 ...

  7. 利用jieba库和wordcloud库,进行中文词频统计并利用词云图进行数据可视化

    目录 利用jieba库和wordcloud库,进行中文词频统计并利用词云图进行数据可视化 安装jieba库 安装wordcloud 打开pycharm 编写代码 利用jieba库和wordcloud库 ...

  8. python中文分词器-jieba分词器详解及wordcloud词云生成

    jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...

  9. 基于python的词云生成-中文词云(指定词云形状)

    基于python的词云生成(二) 1.简介    本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果.    jie ...

最新文章

  1. EL之AdaBoost:集成学习之AdaBoost算法的简介、应用、经典案例之详细攻略
  2. 基于 esp32 + lvgl8.0 的小电视
  3. OpenCV中反向投影
  4. 基于JAVA+SpringMVC+Mybatis+MYSQL的教学管理平台
  5. 马云卸任阿里巴巴董事局主席;苹果承认违法中国劳动法;IntelliJ IDEA 2019.2.2 发布​ | 极客头条...
  6. linearLayout和二级菜单联动
  7. C基础——fopen() 的 mode参数
  8. 2021 年软件开发趋势方向
  9. SSD5_ Exam 2分析
  10. 方差分析软件_Minitab统计软件入门(一)
  11. python 3d游戏 源码_毕设3D游戏《天鹰教》源码
  12. 京东-黑客马拉松大赛复盘
  13. Liunx文件常用命令总结
  14. 幼儿园数学区如何用计算机作用,实用帖——幼儿园数学区域玩教具
  15. 如何将ppt改为无法修改的pdf
  16. 浙江高考python 学生采访_实录|我采访了12个在校大学生,高考前100天他们这样过...
  17. SQL CREATE DATABASE
  18. wamp环境手工搭建详细教程(windows+apache+mysql+php+phpmyad...
  19. iCloud 照片无法同步的解决方法
  20. 西门子S7通信协议中TSAP的确认

热门文章

  1. 将amr格式音频转成mp3格式
  2. XDS100V3-DIY
  3. sybase启动关闭
  4. CAD画图软件测试自学,小白自学CAD教程:706集全网最新CAD学习教程,一学就会
  5. 网站建设安全:HTTPS协议的重要性及与HTTP的区别
  6. 【引用】雨林木风Ghost XP SP3系统
  7. 提交辞职但领导不批准怎么处理
  8. 如何在M1 Apple Silicon Mac上安装Rosetta
  9. 关于OpenCV for Python入门-自带人脸检测算法比较
  10. 股票市场什么叫除权,股票除权会有什么影响