词云_jieba分词
词云_jieba分词
本篇是对词云的代码展示,详细的见如下描述:
# -*- coding: utf-8 -*-
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
import re
combine_dict={}
stopwords=[]#过滤停用词
def stopwordslist(stopWord):#stopwords = [line.strip() for line in open(stopWord, encoding='UTF-8').readlines()]return stopwords#同义词字典,以\t分割
def synonymwordslist(synonymWord):#for line in open(synonymWord, "r", encoding='UTF-8'):seperate_word = line.strip().split("\t")num = len(seperate_word)for i in range(1, num):combine_dict[seperate_word[i]] = seperate_word[0]# refer https://blog.csdn.net/jlulxg/article/details/84650683
# https://www.cnblogs.com/crawer-1/p/8341762.html
# http://lzw.me/pages/unicode/
def cleanChinese():s = r"\n\r\t@#$%^&*这样一本书大卖,hello,,12。!《。有点意外,据说已经印了四五十万,排行榜仅次于《希拉里自传》。大概是大众抛弃了一位表演过火的“文化大师”后,。\n\s\r\t"#t = re.findall('[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]', s)t = re.findall('[\u4e00-\u9fa5]', s) #仅保留汉字部分print(''.join(t))## 读取文本文件+停用词
def wordClould(inputText,splitText,outPic):fRead = open(inputText,'r',encoding='UTF-8')fWrite= open(splitText,'w',encoding='UTF-8')def replace_all_blank(value):"""去除value中的所有非字母内容,包括标点符号、空格、换行、下划线等"""result = re.sub('[a-zA-Z0-9’!"#$%&\'()()。;,:“”()、?《》*+,-./:;<=>?@,。?★、…【】《》?“”‘’![\\]^_`{|}~\s]+', "", value)result = re.sub('[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+','', result)return resultdef seg_depart(sentence):sentence_depart = jieba.cut(sentence)#stopwords = stopwordslist('../input/stopWords.txt')outstr = ''for word in sentence_depart:if word not in stopwords:if word in combine_dict: #同义词替换word = combine_dict[word]outstr += replace_all_blank(word)outstr += " "return outstr#汇总成完整的文本cut_text=''for line in fRead:cut_text = cut_text + seg_depart(line)fWrite.write(cut_text)fRead.close()fWrite.close()wordcloud = WordCloud(#设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的font_path="C:/Windows/Fonts/彩虹粗仿宋.TTF",background_color="white",width=2000,height=1760,max_words=2000).generate(cut_text)plt.imshow(wordcloud, interpolation="bilinear")plt.axis("off")##plt.show()wordcloud.to_file(outPic)if __name__ == '__main__':###cleanChinese()jieba.load_userdict('../input/nlp/userDic.txt')synonymwordslist(r'..\input\nlp\synonymWord.txt')stopwords = stopwordslist(r'../input/nlp/stopWords.txt')wordClould(r'D:\bidingDemo.txt',r'D:\splitSingle.txt',r'D:\bidingDemo.png')
需要文件以及结果截图见下:
词云_jieba分词相关推荐
- 用python做词云 包含:处理词云形状+分词+绘制词云
用python制作词云 包含:处理词云形状+分词+绘制词云 以下代码不超过100行 1.处理词云形状 你可能想把词云做成不同的形状,例如方形.圆形,甚至更复杂的,例如一个人体形状. 首先选一张背景为纯 ...
- 用R进行文本挖掘与分析:分词、画词云
数据分析入门与实战 公众号: weic2c 要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率.频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词语提取后, ...
- Python 任意中文文本生成词云 最终版本
前叙 利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...
- 【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战
词频统计.词云+实战 一.词频统计: 1.基本概念及原理 2.词频统计方法 二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...
- python英文词云代码_Python 词云 【中/英】小白简单入门教程
1. 分析 构建词云需要具备: 原料即文章等内容 将内容进行分词 将分词后的内容利用构建词云的工具进行构建 保存成图片 2. 需要的主要模块 jieba 中文分词 wordcloud 构建词云 3. ...
- Re0谁是真女主?让词云来告诉你
文章目录 1.前言 2.最简单的词云 3. 分词后的词云 4.将词云变成艾米莉亚的形状 5.给词云染上艾米莉亚的颜色 6.用雷姆蓝给词云上色 7.用频率说话 PS *参考资料:* 1.前言 关于Re0 ...
- python爬虫+词云生成小说简介
我每个月都要读一本书写一个书评,平时写书评用的插图都是在网上找的图,前段时间觉得这样不够炫酷要做一点炫酷的东西.最开始的想法是提取小说中的高频词做成词云,实践下来发现效果并不理想,主要是有吸引力的词 ...
- 大江大河2弹幕数据之词云分析、情感极性分析、主题分析、共现网络分析
最近,自己在疯狂追<大江大河2>这部剧,作为当下最热门的电视剧之一,这部电视剧深受观众的喜爱,自从播出以后就好评不断 它主要讲述了改革开放三十年,一代人奋斗向阳的故事,看完之后深受启发,特 ...
- Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党
Rstudio 爬虫 文本分词个性化词云设计 目录 1.环境准备,加载依赖 2.rvest 爬虫,数据爬取 3.jiebaR用于分词,词频统计 4.wordcloud2 结果可视化 ========= ...
最新文章
- ORU-10027: buffer overflow, limit of 10000 bytes
- 一个帖子学会Android开发四大组件
- cd返回上一 git_git统计代码量脚本
- Java1.7之后Arrays.sort对数组排序DualPivotQuicksort.sort
- Django模板系统 运算
- 20.Java集合框架(四)
- 开启MySQL的binlog日志
- netty 图解_Netty工作原理架构图
- “Null 是价值十亿美元的错误!”
- SQL最全基础教程(保证你看了绝对点赞收藏)
- STM32笔记之 SWJ(JTAG-DP和 SW-DP)
- IM 即时通讯实现原理
- 【计算机网络】第一章--计算机网络概述
- Flutter 全能型选手GetX —— 简介
- java实现doc内容对比_Java平台Word格式处理控件Spire.Doc8月新功能代码演示:比较两个 Word 文档的内容...
- 安装GitHub代码所需包
- 微信小程序 - 一键复制功能
- 中国专利整篇专利PDF格式下载
- [转]《给年轻工程师的十大忠告》
- 电子书下载:人一生要看的60部电影
热门文章
- wxWidgets:wxContextHelp类用法
- boost::type_erasure相关的测试程序
- boost::spirit模块实现在正确引用的情况下打印任何字符序列的测试程序
- boost::mpl::negate相关的测试程序
- boost::process::extend相关的测试程序
- boost::fibers::buffered_channel的测试程序
- GDCM:gdcm::Parser的测试程序
- Boost:点质心的测试程序
- Boost:验证atomic <>不对函数指针提供算术运算
- Boost:boost::bimaps::unordered_multiset_of的测试程序