中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list
需要在项目中引入:
IKAnalyzer.cfg.xml
IKAnalyzer2012.jar
lucene-core-3.6.0.jar
stopword.dic
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer; public class Test2 {public static void main(String[] args) throws Exception {// TODO Auto-generated method stubString text="2016新时尚高端整皮超厚真狐狸毛皮草外套中长款马甲背心显瘦进口"; //创建分词对象 Analyzer anal=new IKAnalyzer(true); StringReader reader=new StringReader(text); //分词 TokenStream ts=anal.tokenStream("", reader); CharTermAttribute term=ts.getAttribute(CharTermAttribute.class); ts.reset();//遍历分词数据 while(ts.incrementToken()){ System.out.print(term.toString()+"|"); } ts.close();reader.close(); System.out.println(); }}
运行后结果:
基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|
使用(lucene)实现:
package com.haha.test; import java.io.IOException;
import java.io.StringReader; import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme; public class Test3 { public static void main(String[] args) throws IOException { String text="基于java语言开发的轻量级的中文分词工具包"; StringReader sr=new StringReader(text); IKSegmenter ik=new IKSegmenter(sr, true); Lexeme lex=null; while((lex=ik.next())!=null){ System.out.print(lex.getLexemeText()+"|"); } } }
中文分词之Java实现使用IK Analyzer实现相关推荐
- ikanalyer java_中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架 需要在项目中引入: IKAnalyzer2012FF_u1.jar --- FF 代表for lucene 4.0(four) lucene ...
- elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词
在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字.而IK分词器对中文的支持比较好,主要有两种模式"ik_smart"和"ik_max_w ...
- 30彻底掌握IK中文分词_上机动手实战IK中文分词器的安装和使用
之前大家会发现,字段全部是用英文 其实我们用来进行搜索的,绝大多数,都是中文应用,很少做英文的 默认分词器standard:没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中 ...
- 科大讯飞语音转文字以及中文分词的Java测试代码
我录了一段音存储在这个test.m4a文件里,语音内容为"测试一下Netweaver对于并发请求的响应性能". 使用如下Java代码进行测试: package com.iflyte ...
- IK Analyzer 中文分词器
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...
- 分享Lucene中文分词组件IK Analyzer V3.2.8
IK Analyzer 3.X介绍 IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本 ...
- Lucene6.5.0 下中文分词IKAnalyzer编译和使用
前言 lucene本省对中文分词有支持,不过支持的不好,其分词方式是机械的将中文词一个分成一个进行存储,例如:成都信息工程大学,最终分成为::成|都|信|息|工|程|大|学,显然这种分词方式是低效且浪 ...
- 搜索引擎学习(四)中文分词器
一.简介 分词原理 Reader读取数据流 数据经过第一个分词器将大写转换小写 数据经过第二个分词器根据空格分割成一个一个的单词 数据经过第三个分词器把标点符号,介词等剔除 经过三次过滤,生成若干语汇 ...
- 【Elasticsearch】Elasticsearch analyzer 中文 分词器
1.概述 转载: https://blog.csdn.net/tzs_1041218129/article/details/77887767 分词器首先看文章:[Elasticsearch]Elast ...
最新文章
- dellr320故障_dell r320服务器,idrac问题
- 3、编写一个prod()函数,可以接受一个list并利用reduce()求积
- 冻结拆分_还不会固定表头?速来围观Excel冻结窗格实战教程
- [spfa][差分约束] 洛谷 P3084 照片Photo
- ubuntu连接有线局域网后无法使用无线网卡上网
- nosuchelementexception 是什么异常_有甲状腺结节的人为什么越来越多?
- mysql native数据同步_记一次MySQL(5.7版本)数据库的主从同步和备份
- windows基于vs2017的opencv安装
- 软件著作权统计源程序量,统计php代码行数
- 未来世界的幸存者-阮一峰
- AutoIT:界面与自动化操作结合来简化日常劳动: .Net Reactor验证License,设置License,创建License,截图AutoIt自动化实现。(七)...
- 基于二元语义的中文语序分析
- 自大型人格分析,如何改变自大型性格?
- 内容赛道进入集团作战时代,巨头呈现“一超多强”竞争格局
- Windows下安装Nexus私服及更新索引
- Android 9.0以上联网报错:CLEARTEXT communication to xxx.xxx.xxx.xx not permitted by network security policy
- Java 方式实现词云显示
- 方程:方程(equation)是指含有未知数的等式
- python3编译安装_编译安装Python 3
- 02 数学软件与建模---MATLAB入门