java 文本词频统计_java实现文本词频统计
File f=new File(path);
Mapmap=new HashMap<>();
Version matchVersion = Version.LUCENE_31;
Analyzer analyzer = new StopAnalyzer(matchVersion);
BufferedReader br = new BufferedReader(new FileReader(f));//读取文件
TokenStream ts = analyzer.tokenStream(null, br);//用analyzer分词,得到token流
ts = new PorterStemFilter(ts);//过滤器提取词干
CharTermAttribute ca = ts.addAttribute(CharTermAttribute.class);//ca存储了ts的文本信息
ts.reset();//必须的
while(ts.incrementToken()){
String term = ca.toString();
if(!map.keySet().contains(term)){
map.put(term, 1);
}else
{
map.put(term, map.get(term)+1);
}
}
ts.end();
ts.close();
analyzer.close();
br.close();
StringBuilder sb=new StringBuilder();
File gh=new File(path);
for(String key:map.keySet()){
sb.append(key+" "+map.get(key)+"\r\n");
}
BufferedWriter bw=new BufferedWriter(new FileWriter(gh));
bw.write(sb.toString());
bw.flush();
bw.close();
原文:http://www.cnblogs.com/altlb/p/6856296.html
java 文本词频统计_java实现文本词频统计相关推荐
- java显示行号_java开发文本编辑器手记之行号显示
学java编程一段时间了,想利用java swing开发一个桌面的文本编辑器程序,首先想要实现的便是显示行号的功能,由于要实现一些关键词着色功能,选择了JTextPane,其实还有一个JEditorP ...
- java 文本词频统计_Java实现中文词频统计
昨日有个中文词频统计的需求, 百度一番后, 发现一大堆标题党文章, 讲的与内容严重不符, 这里就简单记录下自己实现的流程吧! 与英文单词的词频统计不同, 中文的难点在于如何分词, 不过好在有许多优秀的 ...
- java统计词频算法_Java实现的词频统计——功能改进
本次改进是在原有功能需求及代码基础上额外做的修改,保证了原有的基础需求之外添加了新需求的功能. 功能: 1. 小文件输入--从控制台由用户输入到文件中,再对文件进行统计: 2.支持命令行输入英文作品的 ...
- java实验6 词频统计_Java实现的词频统计——单元测试
前言:本次测试过程中发现了几个未知字符,这里将其转化为十六进制码对其加以区分. 1)保存统计结果的Result文件中显示如图: 2)将其复制到eclipse环境下的切分方法StringTokenize ...
- java并行计算同步返回_Java大文本并行计算实现过程解析
Java大文本并行计算实现过程解析 简单提高文本读取效率,使用BufferedReader是个不错的选择.速度最快的方法是MappedByteBuffer,但是,相比BufferedReader而言, ...
- java文本框输出_java实现文本框和文本区的输入输出
在GUI中,常用文本框和文本区实现数据的输入和输出.如果采用文本区输入,通常另设一个数据输入完成按钮.当数据输入结束时,点击这个按钮.事件处理程序利用getText()方法从文本区中读取字符串信息.对 ...
- java map 元素个数_Java 小模块之--统计字符串中元素个数
Java 小模块之--统计字符串中元素个数 曾经看过我Stream或者Guava类库等文章的小伙伴应该很明白我这篇博文的意义所在了 一是给读者提供综合的博文入口 二是自己也总结一下思路 ps: 之前没 ...
- java查询app下载量统计_java基础增强:统计网上app下载情况,并排序
一入编程深似海,从此妹子是路人. 案例: 统计网站app下载的情况,后台数据如下: 日期,用户名,app名,下载渠道,所在城市,app版本 2017-08-15,xx老师,陌陌,app store,上 ...
- 文本分析 | 年报转换TXT关键词频统计
前言 上篇文章<[爬虫]30行代码轻松爬取全部A股公司年报>介绍了如何爬取2003-2019年A股全部年报,但是爬取的年报都是PDF格式,不能直接用于文本分析,需要先转换为TXT格式.因此 ...
最新文章
- Pokemon Go火了,他却要破产了...
- pythonopencv显示图像_OpenCV-Python 读取显示图像 | 五
- 奇安信代码安全实验室帮助微软修复多个高危漏洞,获官方致谢
- c语言中用于程序化结构设计的三种结构是,c语言中用于结构化程序设计的3种基本结构是...
- hdu 变形课 1181 这道题数据真实若爆了
- Win Server 2016 安装 IIS 服务详细步骤-图文
- 得到app文稿导出_得到APP使用报告
- 区块链中国专利申请状况及技术分析
- 使用python将pdf文件转化为word文件
- 空城计课件软件测试,《空城计》PPT课件
- 什么是WIFI 探针?WIFI 探针的用途有哪些?
- 如何在纯HTML的静态网页中添加一段统计网页访问量的JAVA Script代码?
- windows环境部署django项目(可部署不同版本的django)
- op 反馈电阻并联二极管
- SpringBoot+JWT+Shiro+MybatisPlus后端脚手架
- 卷积神经网络的一般步骤,卷积神经网络采用卷积
- js实现左右无缝轮播图
- 如何解决您与此网站之间建立的连接不安全,该页面采用不加密的http传输协议?
- 串口硬盘与并口硬盘的区别
- group by 分页 mysql_Mysql 单表查询-排序-分页-group by初识