C#中使用jieba.NET、WordCloudSharp制作词云图
词云简介
“词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用,是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的“关键词”的视觉上的突出。
网上大部分文章介绍的是使用Python的jieba、wordcloud的库生成词云图,本文则介绍在C#中如何使用jieba.NET、WordCloudSharp库生成词云图,后者是前者的.NET实现。
准备工作
创建一个C#的控制台项目,通过NuGet添加引用对jieba.NET、WordCloudSharp的引用,使用方法可以参考以下链接:
jieba.NET:https://github.com/anderscui/jieba.NET
WordCloudSharp:https://github.com/AmmRage/WordCloudSharp
安装之后,在packages\jieba.NET目录下找到Resources目录,将整个Resources目录拷贝到程序集所在目录,这里面是jieba.NET运行所需的词典及其它数据文件。
基本算法
算法主要步骤如下:
提取关键词:基于TF-IDF算法、TextRank算法提取文本的关键词,按权重大小选取部分关键词。
统计关键词词频:先将文本分词,统计每个词的词频,再筛选出关键词的词频。
生成词云图:根据关键词及其词频信息在蒙版图片的基础上生成词图。
注:本文采用TF-IDF算法提取关键词,蒙版图目前只支持黑白图片。
TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
算法实现
使用JiebaNet.Analyser.TfidfExtractor.ExtractTagsWithWeight(string text, int count = 20, IEnumerable allowPos = null)从指定文本中抽取关键词的同时得到其权重,代码如下:
/// <summary>
/// 从指定文本中抽取关键词的同时得到其权重
/// </summary>
/// <param name="text"></param>
/// <returns></returns>
static WordWeightPair[] ExtractTagsWithWeight(string text)
{var extractor = new TfidfExtractor();var wordWeight = extractor.ExtractTagsWithWeight(text, 50);StringBuilder sbr = new StringBuilder();sbr.Append("词语");sbr.Append(",");sbr.Append("权重");sbr.AppendLine(",");foreach (var item in wordWeight){sbr.Append(item.Word);sbr.Append(",");sbr.Append(item.Weight);sbr.AppendLine(",");}string filename = "关键词权重统计.csv";File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);Console.WriteLine("关键词提取完成:" + filename);return wordWeight.ToArray();
}
使用JiebaNet.Segmenter.Common下的Counter类统计词频,其实现来自Python标准库的Counter类(具体接口和实现细节略有不同),代码如下:
/// <summary>
/// 分词并统计词频:默认为精确模式,同时也使用HMM模型
/// </summary>
/// <param name="text"></param>
/// <param name="wordWeightAry"></param>
/// <returns></returns>
static KeyValuePair<string, int>[] Counter(string text, WordWeightPair[] wordWeightAry)
{var segmenter = new JiebaSegmenter();var segments = segmenter.Cut(text);var freqs = new Counter<string>(segments);KeyValuePair<string, int>[] countAry = new KeyValuePair<string, int>[wordWeightAry.Length];for (int i = 0; i < wordWeightAry.Length; i++){string key = wordWeightAry[i].Word;countAry[i] = new KeyValuePair<string, int>(key, freqs[key]);}StringBuilder sbr = new StringBuilder();sbr.Append("词语");sbr.Append(",");sbr.Append("词频");sbr.AppendLine(",");foreach (var pair in countAry){sbr.Append(pair.Key);sbr.Append(",");sbr.Append(pair.Value);sbr.AppendLine(",");}string filename = "词频统计结果.csv";File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);Console.WriteLine("词频统计完成:" + filename);return countAry;
}
使用WordCloudSharp生成词云图,蒙版图必须使用黑白图片,记得手动引用System.Drawing,代码如下:
/// <summary>
/// 创建词云图
/// </summary>
/// <param name="countAry"></param>
static void CreateWordCloud(KeyValuePair<string, int>[] countAry)
{ string markPath = "mask.jpg";string resultPath = "result.jpg";Console.WriteLine("开始生成图片,读取蒙版:" + markPath);Image mask = Image.FromFile(markPath);//使用蒙版图片var wordCloud = new WordCloud(mask.Width, mask.Height, mask: mask, allowVerical: true, fontname: "YouYuan");//不使用蒙版图片//var wordCloud = new WordCloud(1000, 1000,false, null,-1,1,null, false);var result = wordCloud.Draw(countAry.Select(it => it.Key).ToList(), countAry.Select(it => it.Value).ToList());result.Save(resultPath);Console.WriteLine("图片生成完成,保存图片:" + resultPath);
}
运行测试
以本文为分析文本生成词云图,代码如下:
static void Main(string[] args)
{string text = File.ReadAllText("待处理数据.txt");var wordWeight = ExtractTagsWithWeight(text);var wordFreqs = Counter(text, wordWeight);CreateWordCloud(wordFreqs);Console.Read();
}
蒙版图如下:
词云图如下(使用蒙版):
词云图如下(不使用蒙版):
在得到关键词的词频信息后,通过在线工具网站生成词云图片会更加方便一点,如词云文字、图悦等。
参考资料
jieba.NET是jieba中文分词的.NET版本(C#实现)
TF-IDF算法和TextRank算法的分析比较
Python生成词云图
C#中使用jieba.NET、WordCloudSharp制作词云图相关推荐
- jieba以动词+其它词性分词并制作词云图
人类千百年来都是视觉动物 从远古时代的壁画,到现在的表情包 大数据时代的今天,文本和数据更需要颜值 jieba分词我在这里就不多介绍了,很多玩过python的同学相信多多少少都接触到一点,在这里分享一 ...
- python处理数据集并制作词云图
python处理数据集并制作词云图 处理数据 使用自定义词典 去掉停用词 词频统计 绘制词云图+美化 1.处理数据 这里是老师给的新闻数据集,里面有5个类别的新闻数据,我以cars这一类为例. 将cs ...
- 爬取指定网页并制作词云图
利用python中的库和函数设计一个爬取读书网中"软件与程序设计"栏的程序,并对其书名制作词云图,下载其书封面存储到本地文件中. 构建多个函数分别进行网页的请求,html的获取,所 ...
- wordcloud制作词云图
wordcloud制作词云图 wordcloud 中文方框问题 jieba(分词) jieba库分词的三种模式 wordcloud WordCloud(font_path=None, width=40 ...
- pyecharts制作词云图
词云图作为一种分析热度的可视化图,在数据分析占据重要地位,只一眼就可以看出某个事物的重要性.pyecharts和WordCloud都是比较方便的可视化库,当遇上词云图,会有怎样的火花呢?我们来期待一下 ...
- Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import jsonfrom PIL import Image from pyque ...
- 数据可视化之利用Python制作词云图
制作词云图 一.词云图介绍 二.wordcloud方法 二. stylecloud方法 一.词云图介绍 词云图可以看作是文本数据的视觉表示,由词汇组成类似云的彩色图形.相对其它诸多用来显示数值数据的图 ...
- python用selenium爬取b站评论并制作词云图
文章目录 前言 一.爬取b站评论 1.selenium配置 2.代码 二.制作词云图 1.下载停用词 2.代码 3.注意事项 三.制作成品 1.初期成品 2.成品 前言 b站视频下的评论是下拉加载的. ...
- python爬取豆瓣小组_Python 爬虫实例+爬取豆瓣小组 + wordcloud 制作词云图
目标 利用PYTHON爬取如下图中所有回答的内容,并且制作词云图. 用到的库 import requests # import json from PIL import Image from pyqu ...
最新文章
- HTTP中Get与Post的区别
- 1.5 卷积步长-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
- 从sqlserver中数据写入mysql_[SQL Server]SQL Server数据库中如何返回INSERT INTO语句插入/写入数据后的记录值(比如ID等)?...
- PIC单片机精通_ADC左对齐与右对齐的数据读取问题
- html 树状折叠,折叠树状页.html
- Elasticsearch搜索引擎之缓存:Request Cache、Query Cache、Fielddata Cache
- CABAC之手把手教你编码
- 天池 在线编程 三等分(模拟)
- 在Ubuntu 8.04 LTS(hardy)下安装配置nginx和fastcgi方式的php
- linux ubuntu软件中心,安装Lubuntu 软件中心
- 用单片机测量流体流速的_旋进旋涡流量计的测量原理及优点
- 虚拟机Linux(Centos)上用户密码忘记了怎么办?
- PHP中常用的定义数组的函数是,php中常用数组函数有哪些?
- 鸡你太美,用大数据扒一扒蔡徐坤的真假流量粉
- 四川计算机专业高职高考,四川职高计算机专业分数线
- NameSilo域名解析管理工具
- 虚拟机去虚拟化教程,过游戏检测,不全你打我
- 解决CCS闪退问题(亲测有效)
- 万能素材库_2016万能高考作文素材大全
- 002_wz_kaggle泰坦尼克号深度学习实现