词云_jieba分词

本篇是对词云的代码展示,详细的见如下描述:

# -*- coding: utf-8 -*-
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
import re
combine_dict={}
stopwords=[]#过滤停用词
def stopwordslist(stopWord):#stopwords = [line.strip() for line in open(stopWord, encoding='UTF-8').readlines()]return stopwords#同义词字典,以\t分割
def synonymwordslist(synonymWord):#for line in open(synonymWord, "r", encoding='UTF-8'):seperate_word = line.strip().split("\t")num = len(seperate_word)for i in range(1, num):combine_dict[seperate_word[i]] = seperate_word[0]# refer https://blog.csdn.net/jlulxg/article/details/84650683
# https://www.cnblogs.com/crawer-1/p/8341762.html
# http://lzw.me/pages/unicode/
def cleanChinese():s = r"\n\r\t@#$%^&*这样一本书大卖,hello,,12。!《。有点意外,据说已经印了四五十万,排行榜仅次于《希拉里自传》。大概是大众抛弃了一位表演过火的“文化大师”后,。\n\s\r\t"#t = re.findall('[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b\u4e00-\u9fa5]', s)t = re.findall('[\u4e00-\u9fa5]', s) #仅保留汉字部分print(''.join(t))## 读取文本文件+停用词
def wordClould(inputText,splitText,outPic):fRead = open(inputText,'r',encoding='UTF-8')fWrite= open(splitText,'w',encoding='UTF-8')def replace_all_blank(value):"""去除value中的所有非字母内容,包括标点符号、空格、换行、下划线等"""result = re.sub('[a-zA-Z0-9’!"#$%&\'()()。;,:“”()、?《》*+,-./:;<=>?@,。?★、…【】《》?“”‘’![\\]^_`{|}~\s]+', "", value)result = re.sub('[\001\002\003\004\005\006\007\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a]+','', result)return resultdef seg_depart(sentence):sentence_depart = jieba.cut(sentence)#stopwords = stopwordslist('../input/stopWords.txt')outstr = ''for word in sentence_depart:if word not in stopwords:if word in combine_dict: #同义词替换word = combine_dict[word]outstr += replace_all_blank(word)outstr += " "return outstr#汇总成完整的文本cut_text=''for line in fRead:cut_text = cut_text + seg_depart(line)fWrite.write(cut_text)fRead.close()fWrite.close()wordcloud = WordCloud(#设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的font_path="C:/Windows/Fonts/彩虹粗仿宋.TTF",background_color="white",width=2000,height=1760,max_words=2000).generate(cut_text)plt.imshow(wordcloud, interpolation="bilinear")plt.axis("off")##plt.show()wordcloud.to_file(outPic)if __name__ == '__main__':###cleanChinese()jieba.load_userdict('../input/nlp/userDic.txt')synonymwordslist(r'..\input\nlp\synonymWord.txt')stopwords = stopwordslist(r'../input/nlp/stopWords.txt')wordClould(r'D:\bidingDemo.txt',r'D:\splitSingle.txt',r'D:\bidingDemo.png')

需要文件以及结果截图见下:

词云_jieba分词相关推荐

  1. 用python做词云 包含:处理词云形状+分词+绘制词云

    用python制作词云 包含:处理词云形状+分词+绘制词云 以下代码不超过100行 1.处理词云形状 你可能想把词云做成不同的形状,例如方形.圆形,甚至更复杂的,例如一个人体形状. 首先选一张背景为纯 ...

  2. 用R进行文本挖掘与分析:分词、画词云

    数据分析入门与实战  公众号: weic2c 要分析文本内容,最常见的分析方法是提取文本中的词语,并统计频率.频率能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词语提取后, ...

  3. Python 任意中文文本生成词云 最终版本

    前叙 利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也 ...

  4. 【文本挖掘】——词频统计、词云绘制与美化+[微微一笑很倾城]实战

    词频统计.词云+实战 一.词频统计: 1.基本概念及原理 2.词频统计方法 二.词云 1.词云绘制工具: 2.python词云绘制--Wordcloud 三.基于分词频数绘制词云 1.利用词频绘制词云 ...

  5. python英文词云代码_Python 词云 【中/英】小白简单入门教程

    1. 分析 构建词云需要具备: 原料即文章等内容 将内容进行分词 将分词后的内容利用构建词云的工具进行构建 保存成图片 2. 需要的主要模块 jieba 中文分词 wordcloud 构建词云 3. ...

  6. Re0谁是真女主?让词云来告诉你

    文章目录 1.前言 2.最简单的词云 3. 分词后的词云 4.将词云变成艾米莉亚的形状 5.给词云染上艾米莉亚的颜色 6.用雷姆蓝给词云上色 7.用频率说话 PS *参考资料:* 1.前言 关于Re0 ...

  7. python爬虫+词云生成小说简介

     我每个月都要读一本书写一个书评,平时写书评用的插图都是在网上找的图,前段时间觉得这样不够炫酷要做一点炫酷的东西.最开始的想法是提取小说中的高频词做成词云,实践下来发现效果并不理想,主要是有吸引力的词 ...

  8. 大江大河2弹幕数据之词云分析、情感极性分析、主题分析、共现网络分析

    最近,自己在疯狂追<大江大河2>这部剧,作为当下最热门的电视剧之一,这部电视剧深受观众的喜爱,自从播出以后就好评不断 它主要讲述了改革开放三十年,一代人奋斗向阳的故事,看完之后深受启发,特 ...

  9. Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党

    Rstudio 爬虫 文本分词个性化词云设计 目录 1.环境准备,加载依赖 2.rvest 爬虫,数据爬取 3.jiebaR用于分词,词频统计 4.wordcloud2 结果可视化 ========= ...

最新文章

  1. ORU-10027: buffer overflow, limit of 10000 bytes
  2. 一个帖子学会Android开发四大组件
  3. cd返回上一 git_git统计代码量脚本
  4. Java1.7之后Arrays.sort对数组排序DualPivotQuicksort.sort
  5. Django模板系统 运算
  6. 20.Java集合框架(四)
  7. 开启MySQL的binlog日志
  8. netty 图解_Netty工作原理架构图
  9. “Null 是价值十亿美元的错误!”
  10. SQL最全基础教程(保证你看了绝对点赞收藏)
  11. STM32笔记之 SWJ(JTAG-DP和 SW-DP)
  12. IM 即时通讯实现原理
  13. 【计算机网络】第一章--计算机网络概述
  14. Flutter 全能型选手GetX —— 简介
  15. java实现doc内容对比_Java平台Word格式处理控件Spire.Doc8月新功能代码演示:比较两个 Word 文档的内容...
  16. 安装GitHub代码所需包
  17. 微信小程序 - 一键复制功能
  18. 中国专利整篇专利PDF格式下载
  19. [转]《给年轻工程师的十大忠告》
  20. 电子书下载:人一生要看的60部电影

热门文章

  1. wxWidgets:wxContextHelp类用法
  2. boost::type_erasure相关的测试程序
  3. boost::spirit模块实现在正确引用的情况下打印任何字符序列的测试程序
  4. boost::mpl::negate相关的测试程序
  5. boost::process::extend相关的测试程序
  6. boost::fibers::buffered_channel的测试程序
  7. GDCM:gdcm::Parser的测试程序
  8. Boost:点质心的测试程序
  9. Boost:验证atomic <>不对函数指针提供算术运算
  10. Boost:boost::bimaps::unordered_multiset_of的测试程序