标签:

命令行脚本的调用方法如下:

将需要统计词频的文本写入文件:text.txt

chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt

程序运行结束后打开文件statistics-result.txt查看词频统计结果

在程序中的调用方法如下:

//词频统计设置

WordFrequencyStatistics wordFrequencyStatistics = new WordFrequencyStatistics();

wordFrequencyStatistics.setRemoveStopWord(false);

wordFrequencyStatistics.setResultPath("word-frequency-statistics.txt");

wordFrequencyStatistics.setSegmentationAlgorithm(SegmentationAlgorithm.MaxNgramScore);

//开始分词

wordFrequencyStatistics.seg("明天下雨,结合成分子,明天有关于分子和原子的课程,下雨了也要去听课");

//输出词频统计结果

wordFrequencyStatistics.dump();

//准备文件

Files.write(Paths.get("text-to-seg.txt"), Arrays.asList("word分词是一个Java实现的分布式中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。"));

//清除之前的统计结果

wordFrequencyStatistics.reset();

//对文件进行分词

wordFrequencyStatistics.seg(new File("text-to-seg.txt"), new File("text-seg-result.txt"));

//输出词频统计结果

wordFrequencyStatistics.dump("file-seg-statistics-result.txt");

第一句话的词频统计结果:

1、下雨 2

2、明天 2

3、分子 2

4、课程 1

5、听课 1

6、结合 1

7、原子 1

8、去 1

9、成 1

10、关于 1

11、和 1

12、也要 1

13、有 1

14、的 1

15、了 1

第二句话的词频统计结果:

1、分词 2

2、的 2

3、基于 1

4、word 1

5、组件 1

6、词典 1

7、ngram 1

8、多种 1

9、实现 1

10、并 1

11、利用 1

12、消除歧义 1

13、中文分词 1

14、算法 1

15、是 1

16、分布式 1

17、了 1

18、提供 1

19、模型 1

20、来 1

21、一个 1

22、Java 1

标签:

java 分词词频_利用word分词来对文本进行词频统计相关推荐

  1. mysql 中文分词搜索_利用中文分词打造数据库全文检索

    传统的 LIKE 模糊查询(前置百分号)无法利用索引,特别是多个关键词 OR,或在多个字段中 LIKE,更是效率低下.本文研究对文章进行分词以提高检索的准确度和查询效率. 根据自己的编程语言选择一款合 ...

  2. python分词统计词频_基于结巴分词做的全文分词统计词频小脚本

    受朋友之托,写一个小脚本,断断续续做了两天,写一下两天的收获. 起因 有个朋友说专业文档很枯燥难懂,需要一个能把全文的关键词找出来并排序的东西,找不到现成的,问我能不能做一个.我前些天也听车神说有关分 ...

  3. 利用word分词来计算文本相似度

    word分词提供了多种文本相似度计算方式: 方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度 实现类:org.apdplat.word.analysis.CosineTextSimi ...

  4. 利用word分词通过计算词的语境来获得相关词

    我们如何通过计算词的语境来获得相关词呢? 语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成. 相关词的定义是:如果两个词的语境越相似,那么这两个词就越相似,也就越相关. 算法由 ...

  5. jieba分词错误_如何掌握分词技术,你需要学会这些

    1.导语: 本周对自然语言处理的分词技术进行了学习.本文针对分词技术的进行了全视角的概览,目标是掌握什么是分词技术.为什么需要分词技术和如何使用分词技术.后续将分不同篇幅对其中内容进行深挖和讲解.文章 ...

  6. 用access做考场桌贴_利用Word、Excel、Access进行考务安排及学生成绩分析的有效途径-教育文档...

    利用 Word . Excel . Access 进行考务安排及学生成绩 分析的有效途径 一 问题的提出 在新课改教学评价过程中,学生考试评价扮演着重要的角 色. 考试安排的科学性和有效性是评价的基础 ...

  7. java invoke 泛型_利用Java反射机制和泛型,全自动解析json

    有啦这个简直,太爽啦, 利用Java 反射机制,利用Class 就可以得到 类的 变量  Field[] fields=cls.getDeclaredFields(); 还可以通过类中 的方法名字 去 ...

  8. 脚注交叉引用序号不一样_利用Word的尾注来做参考文献的注释编号--解决编号加方括号,交叉引用,去除尾注上访横线等问题...

    利用 Word 的尾注来做参考文献的注释编号 [1] 用 word 尾注和手动添加相比, 可以在你删除或添加注释时, 自动调整序号. 因此做参考文献的编号时较为方便,可以和 Note Express ...

  9. word刷子刷格式_利用word格式刷如何快速编辑不同格式的文字?

    格式刷是一个功能非常强大的格式复制图标,它不仅可以复制文字格式,而且可以复制段落格式.今天小编为大家分享利用word格式刷如何快速编辑不同格式的文字?下面小编就为大家详细介绍一下,大家一起来看看吧! ...

最新文章

  1. djaogo知识点 python_python Django知识点总结
  2. Ubuntu 14.04 安装 Sublime Text 3
  3. 三十八、Vue项目上手 | 用户管理系统(上篇)
  4. [MEGA DEAL] Ultimate Java开发和认证指南(59%折扣)
  5. vim 的配置文件 #vim ~/.vimrc
  6. Apache CXF入门
  7. HEVC播放器出炉,迅雷看看支持H.265
  8. T100 ERP 开发说明(一)
  9. 世界500强和中国500强的视觉设计手册,设计圈都传遍了
  10. 《鬼谷子》飞箝第五(原文)
  11. dubbo中文官方文档(新地址)
  12. Zalando在疫情中成为赢家,甚至超越了亚马逊
  13. 导入省市区数据到elasticsearch
  14. 无人机宽带自组网技术(随笔)
  15. 什么是Session 如何使用Session
  16. Java并发编程系列18:多线程之生产者和消费者模式_信号灯法(wait/notify通知机制)
  17. int(4)、int(8)、int(11) 分别占用几个字节 ?
  18. lisp调用天正命令参数修改_在lisp中模拟运行CAD的command命令函数
  19. 农行网上在线支付平台接口
  20. 软件构造学习笔记ATD

热门文章

  1. 新来的运维这样用HDFS,CIO都懵了···
  2. 对话机器人70年:科幻与现实的交融
  3. 在家办公怎么弄?华为云DevCloud宝典一看就懂——项目管理篇
  4. java oscache 缓存_Java]用OSCache进行缓存对象
  5. python打印字符金字塔_Python教程第7篇:print打印字符串
  6. SpringBoot之SpringMVC自动配置
  7. MacOS中运行第一个PySide6实例
  8. 高等组合学笔记(十五):容斥原理,错排问题
  9. 浮动和清浮动,内外边距和margin的坑
  10. java行转列_Java后端面试标准:如何准备一场后端面试?