java 分词词频_利用word分词来对文本进行词频统计
标签:
命令行脚本的调用方法如下:
将需要统计词频的文本写入文件:text.txt
chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt
程序运行结束后打开文件statistics-result.txt查看词频统计结果
在程序中的调用方法如下:
//词频统计设置
WordFrequencyStatistics wordFrequencyStatistics = new WordFrequencyStatistics();
wordFrequencyStatistics.setRemoveStopWord(false);
wordFrequencyStatistics.setResultPath("word-frequency-statistics.txt");
wordFrequencyStatistics.setSegmentationAlgorithm(SegmentationAlgorithm.MaxNgramScore);
//开始分词
wordFrequencyStatistics.seg("明天下雨,结合成分子,明天有关于分子和原子的课程,下雨了也要去听课");
//输出词频统计结果
wordFrequencyStatistics.dump();
//准备文件
Files.write(Paths.get("text-to-seg.txt"), Arrays.asList("word分词是一个Java实现的分布式中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。"));
//清除之前的统计结果
wordFrequencyStatistics.reset();
//对文件进行分词
wordFrequencyStatistics.seg(new File("text-to-seg.txt"), new File("text-seg-result.txt"));
//输出词频统计结果
wordFrequencyStatistics.dump("file-seg-statistics-result.txt");
第一句话的词频统计结果:
1、下雨 2
2、明天 2
3、分子 2
4、课程 1
5、听课 1
6、结合 1
7、原子 1
8、去 1
9、成 1
10、关于 1
11、和 1
12、也要 1
13、有 1
14、的 1
15、了 1
第二句话的词频统计结果:
1、分词 2
2、的 2
3、基于 1
4、word 1
5、组件 1
6、词典 1
7、ngram 1
8、多种 1
9、实现 1
10、并 1
11、利用 1
12、消除歧义 1
13、中文分词 1
14、算法 1
15、是 1
16、分布式 1
17、了 1
18、提供 1
19、模型 1
20、来 1
21、一个 1
22、Java 1
标签:
java 分词词频_利用word分词来对文本进行词频统计相关推荐
- mysql 中文分词搜索_利用中文分词打造数据库全文检索
传统的 LIKE 模糊查询(前置百分号)无法利用索引,特别是多个关键词 OR,或在多个字段中 LIKE,更是效率低下.本文研究对文章进行分词以提高检索的准确度和查询效率. 根据自己的编程语言选择一款合 ...
- python分词统计词频_基于结巴分词做的全文分词统计词频小脚本
受朋友之托,写一个小脚本,断断续续做了两天,写一下两天的收获. 起因 有个朋友说专业文档很枯燥难懂,需要一个能把全文的关键词找出来并排序的东西,找不到现成的,问我能不能做一个.我前些天也听车神说有关分 ...
- 利用word分词来计算文本相似度
word分词提供了多种文本相似度计算方式: 方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度 实现类:org.apdplat.word.analysis.CosineTextSimi ...
- 利用word分词通过计算词的语境来获得相关词
我们如何通过计算词的语境来获得相关词呢? 语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成. 相关词的定义是:如果两个词的语境越相似,那么这两个词就越相似,也就越相关. 算法由 ...
- jieba分词错误_如何掌握分词技术,你需要学会这些
1.导语: 本周对自然语言处理的分词技术进行了学习.本文针对分词技术的进行了全视角的概览,目标是掌握什么是分词技术.为什么需要分词技术和如何使用分词技术.后续将分不同篇幅对其中内容进行深挖和讲解.文章 ...
- 用access做考场桌贴_利用Word、Excel、Access进行考务安排及学生成绩分析的有效途径-教育文档...
利用 Word . Excel . Access 进行考务安排及学生成绩 分析的有效途径 一 问题的提出 在新课改教学评价过程中,学生考试评价扮演着重要的角 色. 考试安排的科学性和有效性是评价的基础 ...
- java invoke 泛型_利用Java反射机制和泛型,全自动解析json
有啦这个简直,太爽啦, 利用Java 反射机制,利用Class 就可以得到 类的 变量 Field[] fields=cls.getDeclaredFields(); 还可以通过类中 的方法名字 去 ...
- 脚注交叉引用序号不一样_利用Word的尾注来做参考文献的注释编号--解决编号加方括号,交叉引用,去除尾注上访横线等问题...
利用 Word 的尾注来做参考文献的注释编号 [1] 用 word 尾注和手动添加相比, 可以在你删除或添加注释时, 自动调整序号. 因此做参考文献的编号时较为方便,可以和 Note Express ...
- word刷子刷格式_利用word格式刷如何快速编辑不同格式的文字?
格式刷是一个功能非常强大的格式复制图标,它不仅可以复制文字格式,而且可以复制段落格式.今天小编为大家分享利用word格式刷如何快速编辑不同格式的文字?下面小编就为大家详细介绍一下,大家一起来看看吧! ...
最新文章
- djaogo知识点 python_python Django知识点总结
- Ubuntu 14.04 安装 Sublime Text 3
- 三十八、Vue项目上手 | 用户管理系统(上篇)
- [MEGA DEAL] Ultimate Java开发和认证指南(59%折扣)
- vim 的配置文件 #vim ~/.vimrc
- Apache CXF入门
- HEVC播放器出炉,迅雷看看支持H.265
- T100 ERP 开发说明(一)
- 世界500强和中国500强的视觉设计手册,设计圈都传遍了
- 《鬼谷子》飞箝第五(原文)
- dubbo中文官方文档(新地址)
- Zalando在疫情中成为赢家,甚至超越了亚马逊
- 导入省市区数据到elasticsearch
- 无人机宽带自组网技术(随笔)
- 什么是Session 如何使用Session
- Java并发编程系列18:多线程之生产者和消费者模式_信号灯法(wait/notify通知机制)
- int(4)、int(8)、int(11) 分别占用几个字节 ?
- lisp调用天正命令参数修改_在lisp中模拟运行CAD的command命令函数
- 农行网上在线支付平台接口
- 软件构造学习笔记ATD
热门文章
- 新来的运维这样用HDFS,CIO都懵了···
- 对话机器人70年:科幻与现实的交融
- 在家办公怎么弄?华为云DevCloud宝典一看就懂——项目管理篇
- java oscache 缓存_Java]用OSCache进行缓存对象
- python打印字符金字塔_Python教程第7篇:print打印字符串
- SpringBoot之SpringMVC自动配置
- MacOS中运行第一个PySide6实例
- 高等组合学笔记(十五):容斥原理,错排问题
- 浮动和清浮动,内外边距和margin的坑
- java行转列_Java后端面试标准:如何准备一场后端面试?