ikanalyer java_中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架
需要在项目中引入:
IKAnalyzer2012FF_u1.jar --- FF 代表for lucene 4.0(four)
lucene-core-4.0.0.jar
示例代码如下(使用IK Analyzer):
package com.haha.test;
import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;
public class Test2 {
public static void main(String[] args) throws IOException {
String text="基于java语言开发的轻量级的中文分词工具包";
//创建分词对象
Analyzer anal=new IKAnalyzer(true);
StringReader reader=new StringReader(text);
//分词
TokenStream ts=anal.tokenStream("", reader);
CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
//遍历分词数据
while(ts.incrementToken()){
System.out.print(term.toString()+"|");
}
reader.close();
System.out.println();
}
}
运行后结果:
基于|java|语言|开发|的|轻量级|的|中文|分词|工具包|
ikanalyer java_中文分词之Java实现使用IK Analyzer实现相关推荐
- 中文分词之Java实现使用IK Analyzer实现
IK Analyzer是基于lucene实现的分词开源框架,下载路径:http://code.google.com/p/ik-analyzer/downloads/list 需要在项目中引入: IKA ...
- elasticsearch-analysis-ik中文分词插件安装及配置Ik自定义词典+拼音分词
在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字.而IK分词器对中文的支持比较好,主要有两种模式"ik_smart"和"ik_max_w ...
- 30彻底掌握IK中文分词_上机动手实战IK中文分词器的安装和使用
之前大家会发现,字段全部是用英文 其实我们用来进行搜索的,绝大多数,都是中文应用,很少做英文的 默认分词器standard:没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中 ...
- 科大讯飞语音转文字以及中文分词的Java测试代码
我录了一段音存储在这个test.m4a文件里,语音内容为"测试一下Netweaver对于并发请求的响应性能". 使用如下Java代码进行测试: package com.iflyte ...
- paoding java_中文分词器-PaodingAnalyzer
在pom.xml中添加依赖: com.thihy elasticsearch-analysis-paoding 1.4.2.1 org.elasticsearch elasticsearch 1.5. ...
- Lucene6.5.0 下中文分词IKAnalyzer编译和使用
前言 lucene本省对中文分词有支持,不过支持的不好,其分词方式是机械的将中文词一个分成一个进行存储,例如:成都信息工程大学,最终分成为::成|都|信|息|工|程|大|学,显然这种分词方式是低效且浪 ...
- IK Analyzer 中文分词器
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...
- 分享Lucene中文分词组件IK Analyzer V3.2.8
IK Analyzer 3.X介绍 IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本 ...
- 搜索引擎学习(四)中文分词器
一.简介 分词原理 Reader读取数据流 数据经过第一个分词器将大写转换小写 数据经过第二个分词器根据空格分割成一个一个的单词 数据经过第三个分词器把标点符号,介词等剔除 经过三次过滤,生成若干语汇 ...
最新文章
- BusinessObject Port 配置
- CMake编译Widget UI Qt程序
- java填写xls模板_Java 新建excle文件并填充模版内容
- 《Improving Langugage Understanding by Generative Pre-Tranining》 —— GPT
- 如何进行cad地理配准_【教程】自带高度建筑轮廓如何制作分色图
- Spring Boot与Kotlin使用Spring Data Rest创建HAL风格Restful接口
- Java中用split函数进行分割字符串。
- ValueError: I/O operation on closed file 解决办法
- linux 跟踪程序读写,Linux中pthread行为的跟踪和可视化工具
- 管网平差c语言编程,哈工大给水管网平差软件
- html网页图片下方空隙太大,网页制作中图片上下间为什么会有空隙?解决办法...
- 斑马打印机驱动安装(ZT410)
- Cygwin下安装包管理器apt-cyg
- CCleaner如何列出已安装的程序
- 教你如何将360全景图免费下载到本地,并生成全景漫游
- 2020-12-12
- Cisco IP Phone 7960/7940 SCCP firmware 转换成SIP firmware过程
- 命令行删除 node_modules 文件
- 产品经理:销售、协作和产品
- python网站迁移_在Python中利用Into包整洁地进行数据迁移的教程
热门文章
- 绩效考核培训教程PPT模板
- 《塞尔达——黄昏公主》通关纪念
- 部署卡巴斯基网络版6.0:客户端推拉测试
- (DDD)领域驱动设计的边界划分
- Python操作AST解JS混淆
- 高手项目经理和PMO都是这样写项目总结的
- 一本阿里开发手册,很简单,却让我如此沉迷
- 客户端访问https时应无浏览器(含终端)安全警告信息;_可防范勒索病毒,互联网隔离安全技术的5个技能包...
- 人脸检测和识别 源代码 下载-opencv3+python3.6完整实战项目源代码 识别视频《欢乐颂》中人物
- 天境生物将在美国圣迭戈建立全新的研发中心 ;泛生子与复星医药签订Seq-MRD独家商业化合作协议 | 医药健闻...