词云_jieba分词

本篇是对词云的代码展示，详细的见如下描述：

# -*- coding: utf-8 -*-
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
import re
combine_dict={}
stopwords=[]#过滤停用词
def stopwordslist(stopWord):#stopwords = [line.strip() for line in open(stopWord, encoding='UTF-8').readlines()]return stopwords#同义词字典，以\t分割
def synonymwordslist(synonymWord):#for line in open(synonymWord, "r", encoding='UTF-8'):seperate_word = line.strip().split("\t")num = len(seperate_word)for i in range(1, num):combine_dict[seperate_word[i]] = seperate_word[0]# refer https://blog.csdn.net/jlulxg/article/details/84650683
# https://www.cnblogs.com/crawer-1/p/8341762.html
# http://lzw.me/pages/unicode/
def cleanChinese():s = r"\n\r\t@#$%^&*这样一本书大卖，hello,,12。！《。有点意外，据说已经印了四五十万，排行榜仅次于《希拉里自传》。大概是大众抛弃了一位表演过火的“文化大师”后，。\n\s\r\t"#t = re.findall('[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]', s)t = re.findall('[\u4e00-\u9fa5]', s) #仅保留汉字部分print(''.join(t))## 读取文本文件+停用词
def wordClould(inputText,splitText,outPic):fRead = open(inputText,'r',encoding='UTF-8')fWrite= open(splitText,'w',encoding='UTF-8')def replace_all_blank(value):"""去除value中的所有非字母内容，包括标点符号、空格、换行、下划线等"""result = re.sub('[a-zA-Z0-9’!"#$%&\'()（）。；，：“”（）、？《》*+,-./:;<=>?@，。?★、…【】《》？“”‘’！[\\]^_`{|}~\s]+', "", value)result = re.sub('[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+','', result)return resultdef seg_depart(sentence):sentence_depart = jieba.cut(sentence)#stopwords = stopwordslist('../input/stopWords.txt')outstr = ''for word in sentence_depart:if word not in stopwords:if word in combine_dict: #同义词替换word = combine_dict[word]outstr += replace_all_blank(word)outstr += " "return outstr#汇总成完整的文本cut_text=''for line in fRead:cut_text = cut_text + seg_depart(line)fWrite.write(cut_text)fRead.close()fWrite.close()wordcloud = WordCloud(#设置字体，不然会出现口字乱码，文字的路径是电脑的字体一般路径，可以换成别的font_path="C:/Windows/Fonts/彩虹粗仿宋.TTF",background_color="white",width=2000,height=1760,max_words=2000).generate(cut_text)plt.imshow(wordcloud, interpolation="bilinear")plt.axis("off")##plt.show()wordcloud.to_file(outPic)if __name__ == '__main__':###cleanChinese()jieba.load_userdict('../input/nlp/userDic.txt')synonymwordslist(r'..\input\nlp\synonymWord.txt')stopwords = stopwordslist(r'../input/nlp/stopWords.txt')wordClould(r'D:\bidingDemo.txt',r'D:\splitSingle.txt',r'D:\bidingDemo.png')

需要文件以及结果截图见下:

词云_jieba分词相关推荐

用python做词云包含：处理词云形状+分词+绘制词云
用python制作词云包含:处理词云形状+分词+绘制词云以下代码不超过100行 1.处理词云形状你可能想把词云做成不同的形状,例如方形.圆形,甚至更复杂的,例如一个人体形状. 首先选一张背景为纯 ...
用R进行文本挖掘与分析：分词、画词云
数据分析入门与实战公众号: weic2c 要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率.频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词语提取后, ...
Python 任意中文文本生成词云最终版本
前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...
【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战
词频统计.词云+实战一.词频统计: 1.基本概念及原理 2.词频统计方法二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...
python英文词云代码_Python 词云【中/英】小白简单入门教程
1. 分析构建词云需要具备: 原料即文章等内容将内容进行分词将分词后的内容利用构建词云的工具进行构建保存成图片 2. 需要的主要模块 jieba 中文分词 wordcloud 构建词云 3. ...
Re0谁是真女主？让词云来告诉你
文章目录 1.前言 2.最简单的词云 3. 分词后的词云 4.将词云变成艾米莉亚的形状 5.给词云染上艾米莉亚的颜色 6.用雷姆蓝给词云上色 7.用频率说话 PS *参考资料:* 1.前言关于Re0 ...
python爬虫+词云生成小说简介
我每个月都要读一本书写一个书评,平时写书评用的插图都是在网上找的图,前段时间觉得这样不够炫酷要做一点炫酷的东西.最开始的想法是提取小说中的高频词做成词云,实践下来发现效果并不理想,主要是有吸引力的词 ...
大江大河2弹幕数据之词云分析、情感极性分析、主题分析、共现网络分析
最近,自己在疯狂追<大江大河2>这部剧,作为当下最热门的电视剧之一,这部电视剧深受观众的喜爱,自从播出以后就好评不断它主要讲述了改革开放三十年,一代人奋斗向阳的故事,看完之后深受启发,特 ...
Rstudio 实现爬虫文本分词个性化词云设计--我爱中国我爱党
Rstudio 爬虫文本分词个性化词云设计目录 1.环境准备,加载依赖 2.rvest 爬虫,数据爬取 3.jiebaR用于分词,词频统计 4.wordcloud2 结果可视化 ========= ...

词云_jieba分词

词云_jieba分词

词云_jieba分词相关推荐

最新文章

热门文章