IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list

需要在项目中引入:

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer; public class Test2 {public static void main(String[] args) throws Exception {// TODO Auto-generated method stubString text="2016新时尚高端整皮超厚真狐狸毛皮草外套中长款马甲背心显瘦进口";  //创建分词对象  Analyzer anal=new IKAnalyzer(true);       StringReader reader=new StringReader(text);  //分词  TokenStream ts=anal.tokenStream("", reader);  CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);  ts.reset();//遍历分词数据  while(ts.incrementToken()){  System.out.print(term.toString()+"|");  }  ts.close();reader.close();  System.out.println();  }}

运行后结果:

基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|

使用(lucene)实现:

package com.haha.test;  import java.io.IOException;
import java.io.StringReader;  import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;  public class Test3 {  public static void main(String[] args) throws IOException {  String text="基于java语言开发的轻量级的中文分词工具包";  StringReader sr=new StringReader(text);  IKSegmenter ik=new IKSegmenter(sr, true);  Lexeme lex=null;  while((lex=ik.next())!=null){  System.out.print(lex.getLexemeText()+"|");  }  }  } 

中文分词之Java实现使用IK Analyzer实现相关推荐

  1. ikanalyer java_中文分词之Java实现使用IK Analyzer实现

    IK Analyzer是基于lucene实现的分词开源框架 需要在项目中引入: IKAnalyzer2012FF_u1.jar --- FF 代表for lucene 4.0(four) lucene ...

  2. elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词

    在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字.而IK分词器对中文的支持比较好,主要有两种模式"ik_smart"和"ik_max_w ...

  3. 30彻底掌握IK中文分词_上机动手实战IK中文分词器的安装和使用

    之前大家会发现,字段全部是用英文 其实我们用来进行搜索的,绝大多数,都是中文应用,很少做英文的 默认分词器standard:没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中 ...

  4. 科大讯飞语音转文字以及中文分词的Java测试代码

    我录了一段音存储在这个test.m4a文件里,语音内容为"测试一下Netweaver对于并发请求的响应性能". 使用如下Java代码进行测试: package com.iflyte ...

  5. IK Analyzer 中文分词器

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...

  6. 分享Lucene中文分词组件IK Analyzer V3.2.8

    IK Analyzer 3.X介绍   IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本 ...

  7. Lucene6.5.0 下中文分词IKAnalyzer编译和使用

    前言 lucene本省对中文分词有支持,不过支持的不好,其分词方式是机械的将中文词一个分成一个进行存储,例如:成都信息工程大学,最终分成为::成|都|信|息|工|程|大|学,显然这种分词方式是低效且浪 ...

  8. 搜索引擎学习(四)中文分词器

    一.简介 分词原理 Reader读取数据流 数据经过第一个分词器将大写转换小写 数据经过第二个分词器根据空格分割成一个一个的单词 数据经过第三个分词器把标点符号,介词等剔除 经过三次过滤,生成若干语汇 ...

  9. 【Elasticsearch】Elasticsearch analyzer 中文 分词器

    1.概述 转载: https://blog.csdn.net/tzs_1041218129/article/details/77887767 分词器首先看文章:[Elasticsearch]Elast ...

最新文章

  1. dellr320故障_dell r320服务器,idrac问题
  2. 3、编写一个prod()函数,可以接受一个list并利用reduce()求积
  3. 冻结拆分_还不会固定表头?速来围观Excel冻结窗格实战教程
  4. [spfa][差分约束] 洛谷 P3084 照片Photo
  5. ubuntu连接有线局域网后无法使用无线网卡上网
  6. nosuchelementexception 是什么异常_有甲状腺结节的人为什么越来越多?
  7. mysql native数据同步_记一次MySQL(5.7版本)数据库的主从同步和备份
  8. windows基于vs2017的opencv安装
  9. 软件著作权统计源程序量,统计php代码行数
  10. 未来世界的幸存者-阮一峰
  11. AutoIT:界面与自动化操作结合来简化日常劳动: .Net Reactor验证License,设置License,创建License,截图AutoIt自动化实现。(七)...
  12. 基于二元语义的中文语序分析
  13. 自大型人格分析,如何改变自大型性格?
  14. 内容赛道进入集团作战时代,巨头呈现“一超多强”竞争格局
  15. Windows下安装Nexus私服及更新索引
  16. Android 9.0以上联网报错:CLEARTEXT communication to xxx.xxx.xxx.xx not permitted by network security policy
  17. Java 方式实现词云显示
  18. 方程:方程(equation)是指含有未知数的等式
  19. python3编译安装_编译安装Python 3
  20. 02 数学软件与建模---MATLAB入门

热门文章

  1. 对CAN signal 的一点理解
  2. VS Code作为Unity脚本编辑器设置
  3. 如何一次性地把WORD所有二级标题全部改为三级标题?
  4. 苹果计算机重装系统步骤,如何重装苹果电脑系统|苹果电脑系统重装教程
  5. 新唐NUC972 Linux(一):USB烧写linux出厂镜像
  6. 解读Android官方MVP项目单元测试
  7. 南京理工大学紫金学院计算机网络试卷,0信息技术试题a卷答案
  8. win10开机蓝屏_电脑用户遇到蓝屏ACPIBIOSError应该如何解决?
  9. 下拉列表框标记p24
  10. 多种可以反手“调戏”面试官的方案