中文分词器ikanalyzer 简单使用
依赖
<!--中文分词器ikanalyzer--><dependency><groupId>com.janeluo</groupId><artifactId>ikanalyzer</artifactId><version>2012_u6</version></dependency>
测试:
/*** 测试ikanalyzer中文分词器*/
public class IKTest {@Testpublic void wctest() throws Exception{String string="李天一,现名李冠丰。著名歌唱家李双江和知名歌唱家梦鸽之子。" +"根据司法机关公布资料显示,李天一出生于1996年4月。曾就读北京海淀区中关村第三小学、人民大学附中、" +"美国Shattuck-St. Mary's School(沙特克圣玛丽学院)冰球学校。2011年9月6日,因与人斗殴被拘留教养1年。2012年9月19日," +"李天一被解除教养。2013年2月22日,因涉嫌轮奸案被刑事拘留,后因可查资料显示未成年,移交少管所。3月7日,中央电视台新闻中心" +"官方微博发布了一条消息,称李天一因涉嫌强奸罪,已被检察机关批捕。2013年9月,李双江一篇旧文证实李天一成年。" ;StringReader reader = new StringReader(string);IKSegmenter ik = new IKSegmenter(reader, true);// 当为true时,分词器进行最大词长切分Lexeme lexeme = null;while ((lexeme = ik.next()) != null){System.out.print(lexeme.getLexemeText()+"|");}}
}
结果:
李|天一|现名|李|冠|丰|著名|歌唱家|李|双江|和|知名|歌唱家|梦|鸽|之子|根据|司法机关|公布|资料|显示|李|天一|出生于|1996年|4月|曾|就读|北京|海淀区|中关村|第三|小学|人民大学|附中|美国|shattuck-st.|mary|s|school|沙特|克|圣玛丽|学院|冰球|学校|2011年|9月|6日|因|与人|斗殴|被|拘留|教养|1年|2012年|9月|19日|李|天|一被|解除|教养|2013年|2月|22日|因涉嫌|轮奸案|被|刑事拘留|后|因|可查|资料|显示|未成年|移交|少管所|3月|7日|中央电视台|新闻中心|官方|微|博|发布|了|一条|消息|称|李|天一|因涉嫌|强奸罪|已被|检察机关|批捕|2013年|9月|李|双江|一篇|旧|文|证实|李|天一|成年|
中文分词器ikanalyzer 简单使用相关推荐
- java lucene 中文分词_Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的. 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好. 国人林良益写的IK Ana ...
- java lucene 分词器_中文分词器—IKAnalyzer
对于lucene自带分词器,没有一个能很好的处理中文的分词,因此,我们使用的分词的时候,往往会使用国人开发的一个分词器IKAnalyzer,使用非常简单,只需要将jar包拷入即可. 如果需要扩展词库或 ...
- elasticsearch中文分词器ik-analyzer安装
前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了, ...
- IK分词器 IKAnalyzer 简单demo
所用IKAnalyzer:IK-Analyzer-2012FF 百度云:http://pan.baidu.com/s/1bne9UKf 实例代码: 1 package com.test.ik.an ...
- solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 "冬天到了天气冷了小明不想上学去了",点击右边的按钮,发现 ...
- Lucene 中文分词器 Ik-Analyzer 使用教程
参考: https://blog.csdn.net/wangmx1993328/article/details/82258785
- Lucene 中文分词器概述 与 Ik-Analyzer 使用教程
目录 中文分词器简述 Ik-Analyzer 概述与特性 Ik-Analyzer 下载与使用 创建索引 查询索引 Ik-Analyzer 官方示例源码 中文分词器简述 1.Apache Lucene ...
- elasticsearch教程--中文分词器作用和使用
概述 本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小 ...
- Lucene全文检索_分词_复杂搜索_中文分词器
1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search) 1.1.1 定义 全文检索就是先分词创建索引,再执行搜索的过 ...
最新文章
- 使用Microsoft Visual Studio International Pack获得中文字符串的所有拼音组合(处理多音字)...
- 禁止linux使用密码ssh,linux centos7服务器使用密钥登录ssh同时禁止root密码登录
- 高通全系列手机处理器深度解析 (升级选手机必备)附参数对比表
- G++编译Note Pad++
- linux gpio信号量,执行完? OSIntExit(); 后,再进行任务调度,可是那两个任务都是在等待信号量啊,难道执行完中断函数后会释放一个信号量吗?...
- iyiw oracle_Oracle 单行函数
- vertica--an hp company
- Linux 中断总结
- 打印机服务器启用后自动关闭,共享打印机点击打印就自动关闭该怎么办?
- CRM软件成功案例解析
- 2022年~全网最真实的软件测试面试题合集
- python绘制线段_绘制线条点图
- 肿瘤患者,要牢记这四大饮食原则
- Android 源码分析
- 非常不错的编程技术教程
- mkdir,rmdir详解
- H5游戏调试技巧归类总结
- 腾讯T2大牛亲自讲解!mysql服务安装命令
- 为什么null的typeof 是object呢
- Nanopore测序在基因组 de novo中的应用