中文分词之Java实现使用IK Analyzer实现

IK Analyzer是基于lucene实现的分词开源框架，下载路径:http://code.google.com/p/ik-analyzer/downloads/list

需要在项目中引入：

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer; public class Test2 {public static void main(String[] args) throws Exception {// TODO Auto-generated method stubString text="2016新时尚高端整皮超厚真狐狸毛皮草外套中长款马甲背心显瘦进口";  //创建分词对象  Analyzer anal=new IKAnalyzer(true);       StringReader reader=new StringReader(text);  //分词  TokenStream ts=anal.tokenStream("", reader);  CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);  ts.reset();//遍历分词数据  while(ts.incrementToken()){  System.out.print(term.toString()+"|");  }  ts.close();reader.close();  System.out.println();  }}

运行后结果:

基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|

使用(lucene)实现:

package com.haha.test;  import java.io.IOException;
import java.io.StringReader;  import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;  public class Test3 {  public static void main(String[] args) throws IOException {  String text="基于java语言开发的轻量级的中文分词工具包";  StringReader sr=new StringReader(text);  IKSegmenter ik=new IKSegmenter(sr, true);  Lexeme lex=null;  while((lex=ik.next())!=null){  System.out.print(lex.getLexemeText()+"|");  }  }  }

中文分词之Java实现使用IK Analyzer实现相关推荐

ikanalyer java_中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架需要在项目中引入: IKAnalyzer2012FF_u1.jar --- FF 代表for lucene 4.0(four) lucene ...
elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词
在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字.而IK分词器对中文的支持比较好,主要有两种模式"ik_smart"和"ik_max_w ...
30彻底掌握IK中文分词_上机动手实战IK中文分词器的安装和使用
之前大家会发现,字段全部是用英文其实我们用来进行搜索的,绝大多数,都是中文应用,很少做英文的默认分词器standard:没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中 ...
科大讯飞语音转文字以及中文分词的Java测试代码
我录了一段音存储在这个test.m4a文件里,语音内容为"测试一下Netweaver对于并发请求的响应性能". 使用如下Java代码进行测试: package com.iflyte ...
IK Analyzer 中文分词器
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...
分享Lucene中文分词组件IK Analyzer V3.2.8
IK Analyzer 3.X介绍 IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本 ...
Lucene6.5.0 下中文分词IKAnalyzer编译和使用
前言 lucene本省对中文分词有支持,不过支持的不好,其分词方式是机械的将中文词一个分成一个进行存储,例如:成都信息工程大学,最终分成为::成|都|信|息|工|程|大|学,显然这种分词方式是低效且浪 ...
搜索引擎学习（四）中文分词器
一.简介分词原理 Reader读取数据流数据经过第一个分词器将大写转换小写数据经过第二个分词器根据空格分割成一个一个的单词数据经过第三个分词器把标点符号,介词等剔除经过三次过滤,生成若干语汇 ...
【Elasticsearch】Elasticsearch analyzer 中文分词器
1.概述转载: https://blog.csdn.net/tzs_1041218129/article/details/77887767 分词器首先看文章:[Elasticsearch]Elast ...

中文分词之Java实现使用IK Analyzer实现

中文分词之Java实现使用IK Analyzer实现相关推荐

最新文章

热门文章