File f=new File(path);

Mapmap=new HashMap<>();

Version matchVersion = Version.LUCENE_31;

Analyzer analyzer = new StopAnalyzer(matchVersion);

BufferedReader br = new BufferedReader(new FileReader(f));//读取文件

TokenStream ts = analyzer.tokenStream(null, br);//用analyzer分词,得到token流

ts = new PorterStemFilter(ts);//过滤器提取词干

CharTermAttribute ca = ts.addAttribute(CharTermAttribute.class);//ca存储了ts的文本信息

ts.reset();//必须的

while(ts.incrementToken()){

String term = ca.toString();

if(!map.keySet().contains(term)){

map.put(term, 1);

}else

{

map.put(term, map.get(term)+1);

}

}

ts.end();

ts.close();

analyzer.close();

br.close();

StringBuilder sb=new StringBuilder();

File gh=new File(path);

for(String key:map.keySet()){

sb.append(key+" "+map.get(key)+"\r\n");

}

BufferedWriter bw=new BufferedWriter(new FileWriter(gh));

bw.write(sb.toString());

bw.flush();

bw.close();

原文:http://www.cnblogs.com/altlb/p/6856296.html

java 文本词频统计_java实现文本词频统计相关推荐

  1. java显示行号_java开发文本编辑器手记之行号显示

    学java编程一段时间了,想利用java swing开发一个桌面的文本编辑器程序,首先想要实现的便是显示行号的功能,由于要实现一些关键词着色功能,选择了JTextPane,其实还有一个JEditorP ...

  2. java 文本词频统计_Java实现中文词频统计

    昨日有个中文词频统计的需求, 百度一番后, 发现一大堆标题党文章, 讲的与内容严重不符, 这里就简单记录下自己实现的流程吧! 与英文单词的词频统计不同, 中文的难点在于如何分词, 不过好在有许多优秀的 ...

  3. java统计词频算法_Java实现的词频统计——功能改进

    本次改进是在原有功能需求及代码基础上额外做的修改,保证了原有的基础需求之外添加了新需求的功能. 功能: 1. 小文件输入--从控制台由用户输入到文件中,再对文件进行统计: 2.支持命令行输入英文作品的 ...

  4. java实验6 词频统计_Java实现的词频统计——单元测试

    前言:本次测试过程中发现了几个未知字符,这里将其转化为十六进制码对其加以区分. 1)保存统计结果的Result文件中显示如图: 2)将其复制到eclipse环境下的切分方法StringTokenize ...

  5. java并行计算同步返回_Java大文本并行计算实现过程解析

    Java大文本并行计算实现过程解析 简单提高文本读取效率,使用BufferedReader是个不错的选择.速度最快的方法是MappedByteBuffer,但是,相比BufferedReader而言, ...

  6. java文本框输出_java实现文本框和文本区的输入输出

    在GUI中,常用文本框和文本区实现数据的输入和输出.如果采用文本区输入,通常另设一个数据输入完成按钮.当数据输入结束时,点击这个按钮.事件处理程序利用getText()方法从文本区中读取字符串信息.对 ...

  7. java map 元素个数_Java 小模块之--统计字符串中元素个数

    Java 小模块之--统计字符串中元素个数 曾经看过我Stream或者Guava类库等文章的小伙伴应该很明白我这篇博文的意义所在了 一是给读者提供综合的博文入口 二是自己也总结一下思路 ps: 之前没 ...

  8. java查询app下载量统计_java基础增强:统计网上app下载情况,并排序

    一入编程深似海,从此妹子是路人. 案例: 统计网站app下载的情况,后台数据如下: 日期,用户名,app名,下载渠道,所在城市,app版本 2017-08-15,xx老师,陌陌,app store,上 ...

  9. 文本分析 | 年报转换TXT关键词频统计

    前言 上篇文章<[爬虫]30行代码轻松爬取全部A股公司年报>介绍了如何爬取2003-2019年A股全部年报,但是爬取的年报都是PDF格式,不能直接用于文本分析,需要先转换为TXT格式.因此 ...

最新文章

  1. Pokemon Go火了,他却要破产了...
  2. pythonopencv显示图像_OpenCV-Python 读取显示图像 | 五
  3. 奇安信代码安全实验室帮助微软修复多个高危漏洞,获官方致谢
  4. c语言中用于程序化结构设计的三种结构是,c语言中用于结构化程序设计的3种基本结构是...
  5. hdu 变形课 1181 这道题数据真实若爆了
  6. Win Server 2016 安装 IIS 服务详细步骤-图文
  7. 得到app文稿导出_得到APP使用报告
  8. 区块链中国专利申请状况及技术分析
  9. 使用python将pdf文件转化为word文件
  10. 空城计课件软件测试,《空城计》PPT课件
  11. 什么是WIFI 探针?WIFI 探针的用途有哪些?
  12. 如何在纯HTML的静态网页中添加一段统计网页访问量的JAVA Script代码?
  13. windows环境部署django项目(可部署不同版本的django)
  14. op 反馈电阻并联二极管
  15. SpringBoot+JWT+Shiro+MybatisPlus后端脚手架
  16. 卷积神经网络的一般步骤,卷积神经网络采用卷积
  17. js实现左右无缝轮播图
  18. 如何解决您与此网站之间建立的连接不安全,该页面采用不加密的http传输协议?
  19. 串口硬盘与并口硬盘的区别
  20. group by 分页 mysql_Mysql 单表查询-排序-分页-group by初识

热门文章

  1. 《中国智慧环保产业发展监测与投资前景研究报告(2022版)》
  2. js uniapp开发如何把分钟数转换为多少小时多少分钟
  3. vue php 前后台分离 模板项目
  4. 软件产生的熵变系统分析
  5. oracle房贷还款计划,还款计划表数据查询
  6. 一文解决函数模板和类模板(上)
  7. 408计算机基础一般能考几分,408计算机考研复习经验_(分5大部分_很详细)
  8. 「从零单排canal 04」 启动模块deployer源码解析
  9. python sys.stdin的用法
  10. ps3安装linux的功能,ps3上linux系统安装