IK Analyzer是基于lucene实现的分词开源框架

需要在项目中引入:

IKAnalyzer2012FF_u1.jar --- FF 代表for lucene 4.0(four)

lucene-core-4.0.0.jar

示例代码如下(使用IK Analyzer):

package com.haha.test;

import java.io.IOException;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class Test2 {

public static void main(String[] args) throws IOException {

String text="基于java语言开发的轻量级的中文分词工具包";

//创建分词对象

Analyzer anal=new IKAnalyzer(true);

StringReader reader=new StringReader(text);

//分词

TokenStream ts=anal.tokenStream("", reader);

CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);

//遍历分词数据

while(ts.incrementToken()){

System.out.print(term.toString()+"|");

}

reader.close();

System.out.println();

}

}

运行后结果:

基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|

ikanalyer java_中文分词之Java实现使用IK Analyzer实现相关推荐

  1. 中文分词之Java实现使用IK Analyzer实现

    IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list 需要在项目中引入: IKA ...

  2. elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词

    在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字.而IK分词器对中文的支持比较好,主要有两种模式"ik_smart"和"ik_max_w ...

  3. 30彻底掌握IK中文分词_上机动手实战IK中文分词器的安装和使用

    之前大家会发现,字段全部是用英文 其实我们用来进行搜索的,绝大多数,都是中文应用,很少做英文的 默认分词器standard:没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中 ...

  4. 科大讯飞语音转文字以及中文分词的Java测试代码

    我录了一段音存储在这个test.m4a文件里,语音内容为"测试一下Netweaver对于并发请求的响应性能". 使用如下Java代码进行测试: package com.iflyte ...

  5. paoding java_中文分词器-PaodingAnalyzer

    在pom.xml中添加依赖: com.thihy elasticsearch-analysis-paoding 1.4.2.1 org.elasticsearch elasticsearch 1.5. ...

  6. Lucene6.5.0 下中文分词IKAnalyzer编译和使用

    前言 lucene本省对中文分词有支持,不过支持的不好,其分词方式是机械的将中文词一个分成一个进行存储,例如:成都信息工程大学,最终分成为::成|都|信|息|工|程|大|学,显然这种分词方式是低效且浪 ...

  7. IK Analyzer 中文分词器

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...

  8. 分享Lucene中文分词组件IK Analyzer V3.2.8

    IK Analyzer 3.X介绍   IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本 ...

  9. 搜索引擎学习(四)中文分词器

    一.简介 分词原理 Reader读取数据流 数据经过第一个分词器将大写转换小写 数据经过第二个分词器根据空格分割成一个一个的单词 数据经过第三个分词器把标点符号,介词等剔除 经过三次过滤,生成若干语汇 ...

最新文章

  1. BusinessObject Port 配置
  2. CMake编译Widget UI Qt程序
  3. java填写xls模板_Java 新建excle文件并填充模版内容
  4. 《Improving Langugage Understanding by Generative Pre-Tranining》 —— GPT
  5. 如何进行cad地理配准_【教程】自带高度建筑轮廓如何制作分色图
  6. Spring Boot与Kotlin使用Spring Data Rest创建HAL风格Restful接口
  7. Java中用split函数进行分割字符串。
  8. ValueError: I/O operation on closed file 解决办法
  9. linux 跟踪程序读写,Linux中pthread行为的跟踪和可视化工具
  10. 管网平差c语言编程,哈工大给水管网平差软件
  11. html网页图片下方空隙太大,网页制作中图片上下间为什么会有空隙?解决办法...
  12. 斑马打印机驱动安装(ZT410)
  13. Cygwin下安装包管理器apt-cyg
  14. CCleaner如何列出已安装的程序
  15. 教你如何将360全景图免费下载到本地,并生成全景漫游
  16. 2020-12-12
  17. Cisco IP Phone 7960/7940 SCCP firmware 转换成SIP firmware过程
  18. 命令行删除 node_modules 文件
  19. 产品经理:销售、协作和产品
  20. python网站迁移_在Python中利用Into包整洁地进行数据迁移的教程

热门文章

  1. 绩效考核培训教程PPT模板
  2. 《塞尔达——黄昏公主》通关纪念
  3. 部署卡巴斯基网络版6.0:客户端推拉测试
  4. (DDD)领域驱动设计的边界划分
  5. Python操作AST解JS混淆
  6. 高手项目经理和PMO都是这样写项目总结的
  7. 一本阿里开发手册,很简单,却让我如此沉迷
  8. 客户端访问https时应无浏览器(含终端)安全警告信息;_可防范勒索病毒,互联网隔离安全技术的5个技能包...
  9. 人脸检测和识别 源代码 下载-opencv3+python3.6完整实战项目源代码 识别视频《欢乐颂》中人物
  10. 天境生物将在美国圣迭戈建立全新的研发中心 ;泛生子与复星医药签订Seq-MRD独家商业化合作协议 | 医药健闻...