基于java实现的分词以及词频统计,准备制作词云数据
需求是统计一篇文章、一段话中各种词汇出现的次数,比如有一篇文章如下:为维护人民健康提供有力保障,希望统计文章中的高频词,如下结果
难点在于分词,例如这段换:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
,如果分的不好,那会十分的尴尬!!!
找了很多工具,在网上发现一个比较合适的分词算法,且是用java实现的,经过简单改动,实现了功能,代码放在gitee上,地址:https://gitee.com/langhu/jieba-analysis-mend
导下项目后长这个样子:
直接运行com.qianxinyao.analysis.jieba.keyword
包下的main
方法即可
问题:在这个工具中,通过训练过的算法,给出了很多词汇切割的标准,但发现有些新词汇,特别是专有词汇它并不能很好的识别,比如文中的新冠肺炎,它就拆成了新冠和肺炎,这个怎么处理呢?
1、要么你去训练算法,如果你牛。
2 直接改分词规则(可能会破坏算法的合理性),我不牛,所以我改
怎么改,肯定不能瞎改,找到dict.txt,找一个和你要统计的词汇,在拼音顺序上差不多的词,直接按照它的格式来,如下:我想加一个新冠肺炎
,于是找到了它的邻居新官
,没的说,复制新官
改成新冠肺炎
,再试一下截图如下:
基于java实现的分词以及词频统计,准备制作词云数据相关推荐
- 对京东商品评论进行词频统计并制作词云
上一篇我们利用requests对京东商品的评论进行采集,今天我们对采集结果进行词频统计,并制作词云图片. 一.安装依赖 首先安装jieba,wordcloud第三方库,并将其导入. 二.分词 利用ji ...
- java爬取网易云热评并制作词云。
IT小白终于脱离hello world,实现用java爬取网易云热评并制作词云,激动激动激动. 一.自我介绍 二.上代码 1.封装各个model类 2.实现各项功能的service类 3.设计一个制作 ...
- python分词和词频统计
Python大数据:jieba分词,词频统计 黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...
- python字频统计软件_python结巴分词以及词频统计实例
python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...
- python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制
本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...
- python软件和rost软件哪个更好_ROST-CM软件分词和词频统计用法体验
ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中"分词"功能也是广为使用的.我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是 ...
- Python中文分词及词频统计
Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
- 超级详细使用jieba分词用wordcloud制作词云并进行词频统计实例
最近学习机器学习课程,学到文本分类就研究了下词云如何处理,写下代码和文件以便帮助更多的人,个人变成基础极其薄弱,如有问题请自行修改相关代码. 准备工作 使用命令安装jieba 分词,这里已经帮大家写好 ...
- 统计QQ聊天记录进阶版(分词+统计关键字出现的次数+根据词频制作词云)
继上个博客统计关键字次数的进阶,将关键词的次数制作成词云保存到图片.之前说过的部分现在就不说了,这里主要讲根据词频制作词云. 1.安装wordcloud(这里要注意坑) 这个安装的过程比jieba复杂 ...
最新文章
- JAVA IDEA集成geotools gt-mif gdal读取.MIF
- 以前写的一点东西,放上来吧。否则就扔掉了
- 《剑指Offer》 滑动窗口的最大值
- 判断Json字符串返回类型 对象 或者 数组
- Vsftp在Ubuntu的安装与配置
- iOS5 UIKit新特性
- C++ std::enable_shared_from_this
- win10笔记本电脑双系统 安装黑苹果系统macOS 小白黑苹果乐园下载资源简便安装黑苹果方式,非常详细,还有资源!
- matlab中的状态空间模型,状态空间模型matlab
- 行业分析常用到的21个网站
- IDEA利用wsdl文件生成WebService调用接口的方法
- Java中IO流详细整合(含案例)
- 理解Liang-Barsky裁剪算法的算法原理
- 北京春运更智能:自助验票、微信查询
- 【Python】Python学到什么程度可以面试工作?------持续更新 ...
- AIS(ACL,IJCAI,SIGIR)(2019)论文报告会,感受大佬的气息...
- 台式计算机找不到无线连接,我的win7台式机找不到无线网卡解决方法介绍
- An exceptionCaught event was fired,and it ched at the tail of the pipeline,it usually means the last
- Single Variable Calculus 总结
- Android GreenDao3数据库升级,数据迁移