需求是统计一篇文章、一段话中各种词汇出现的次数,比如有一篇文章如下:为维护人民健康提供有力保障,希望统计文章中的高频词,如下结果

难点在于分词,例如这段换:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作,如果分的不好,那会十分的尴尬!!!

找了很多工具,在网上发现一个比较合适的分词算法,且是用java实现的,经过简单改动,实现了功能,代码放在gitee上,地址:https://gitee.com/langhu/jieba-analysis-mend

导下项目后长这个样子:

直接运行com.qianxinyao.analysis.jieba.keyword包下的main方法即可

问题:在这个工具中,通过训练过的算法,给出了很多词汇切割的标准,但发现有些新词汇,特别是专有词汇它并不能很好的识别,比如文中的新冠肺炎,它就拆成了新冠肺炎,这个怎么处理呢?

1、要么你去训练算法,如果你牛。

2 直接改分词规则(可能会破坏算法的合理性),我不牛,所以我改

怎么改,肯定不能瞎改,找到dict.txt,找一个和你要统计的词汇,在拼音顺序上差不多的词,直接按照它的格式来,如下:我想加一个新冠肺炎,于是找到了它的邻居新官,没的说,复制新官改成新冠肺炎,再试一下截图如下:

基于java实现的分词以及词频统计,准备制作词云数据相关推荐

  1. 对京东商品评论进行词频统计并制作词云

    上一篇我们利用requests对京东商品的评论进行采集,今天我们对采集结果进行词频统计,并制作词云图片. 一.安装依赖 首先安装jieba,wordcloud第三方库,并将其导入. 二.分词 利用ji ...

  2. java爬取网易云热评并制作词云。

    IT小白终于脱离hello world,实现用java爬取网易云热评并制作词云,激动激动激动. 一.自我介绍 二.上代码 1.封装各个model类 2.实现各项功能的service类 3.设计一个制作 ...

  3. python分词和词频统计

    Python大数据:jieba分词,词频统计  黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...

  4. python字频统计软件_python结巴分词以及词频统计实例

    python结巴分词以及词频统计实例 发布时间:2018-03-20 14:52, 浏览次数:773 , 标签: python # coding=utf-8 ''' Created on 2018年3 ...

  5. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

  6. python软件和rost软件哪个更好_ROST-CM软件分词和词频统计用法体验

    ROST作为一款优秀的内容挖掘工具,在自然语言处理上提供一系列能够快速上手使用的功能,其中"分词"功能也是广为使用的.我们在对文本进行分词处理的过程中,由于词库是固定的,所以不管是 ...

  7. Python中文分词及词频统计

    Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...

  8. 超级详细使用jieba分词用wordcloud制作词云并进行词频统计实例

    最近学习机器学习课程,学到文本分类就研究了下词云如何处理,写下代码和文件以便帮助更多的人,个人变成基础极其薄弱,如有问题请自行修改相关代码. 准备工作 使用命令安装jieba 分词,这里已经帮大家写好 ...

  9. 统计QQ聊天记录进阶版(分词+统计关键字出现的次数+根据词频制作词云)

    继上个博客统计关键字次数的进阶,将关键词的次数制作成词云保存到图片.之前说过的部分现在就不说了,这里主要讲根据词频制作词云. 1.安装wordcloud(这里要注意坑) 这个安装的过程比jieba复杂 ...

最新文章

  1. JAVA IDEA集成geotools gt-mif gdal读取.MIF
  2. 以前写的一点东西,放上来吧。否则就扔掉了
  3. 《剑指Offer》 滑动窗口的最大值
  4. 判断Json字符串返回类型 对象 或者 数组
  5. Vsftp在Ubuntu的安装与配置
  6. iOS5 UIKit新特性
  7. C++ std::enable_shared_from_this
  8. win10笔记本电脑双系统 安装黑苹果系统macOS 小白黑苹果乐园下载资源简便安装黑苹果方式,非常详细,还有资源!
  9. matlab中的状态空间模型,状态空间模型matlab
  10. 行业分析常用到的21个网站
  11. IDEA利用wsdl文件生成WebService调用接口的方法
  12. Java中IO流详细整合(含案例)
  13. 理解Liang-Barsky裁剪算法的算法原理
  14. 北京春运更智能:自助验票、微信查询
  15. 【Python】Python学到什么程度可以面试工作?------持续更新 ...
  16. AIS(ACL,IJCAI,SIGIR)(2019)论文报告会,感受大佬的气息...
  17. 台式计算机找不到无线连接,我的win7台式机找不到无线网卡解决方法介绍
  18. An exceptionCaught event was fired,and it ched at the tail of the pipeline,it usually means the last
  19. Single Variable Calculus 总结
  20. Android GreenDao3数据库升级,数据迁移

热门文章

  1. 关于置信度和置信区间的解释
  2. android 选项卡的实现
  3. micro:bit 了解
  4. 微信小程序 - 如何利用百度飞桨实现图像分类识别
  5. SIGSEGV (Segmentation fault)
  6. 传奇称号添加教程,传奇称号系统
  7. 如何确定Z检验的值(查正态分布表时要注意中间的数字都是面积,最左边一列和最上面一行都是Z值)...
  8. window的onload()的使用
  9. 咖啡豆是怎么生产出来的
  10. Chapter~3 Python基础