Lucene下分词工具的学习探讨(二)
今天又找到一种分词器IKanalyzer,对Lucene的支持挺好,不过我没有找到它的人名,地名识别功能在哪里!
这个分词器的文档做得还挺好,挺细致,挺全面的!基本的功能看文档就都能学会了!
好了,闲话不多说,还是把项目的源代码贴出来,免得下次又到处去找
- /**
- * IK 中文分词 版本 5.0
- * IK Analyzer release 5.0
- *
- * Licensed to the Apache Software Foundation (ASF) under one or more
- * contributor license agreements. See the NOTICE file distributed with
- * this work for additional information regarding copyright ownership.
- * The ASF licenses this file to You under the Apache License, Version 2.0
- * (the "License"); you may not use this file except in compliance with
- * the License. You may obtain a copy of the License at
- *
- * http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing, software
- * distributed under the License is distributed on an "AS IS" BASIS,
- * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
- * See the License for the specific language governing permissions and
- * limitations under the License.
- *
- * 源代码由林良益(linliangyi2005@gmail.com)提供
- * 版权声明 2012,乌龙茶工作室
- * provided by Linliangyi and copyright 2012 by Oolong studio
- *
- *
- */
- package sample;
- import java.awt.List;
- import java.io.IOException;
- import java.io.Reader;
- import java.io.StringReader;
- import java.util.ArrayList;
- import org.apache.lucene.analysis.Token;
- import org.apache.lucene.analysis.TokenStream;
- import org.wltea.analyzer.core.IKSegmenter;
- import org.wltea.analyzer.core.Lexeme;
- import org.wltea.analyzer.lucene.IKAnalyzer;
- /**
- * IKAnalyzer 示例
- * 2012-3-2
- *
- *
- */
- public class IKAnalyzerDemo {
- public static void main(String[] args)
- {
- IKSegmenter seg=null;
- ArrayList<String> list=new ArrayList<String>();
- list.add("苏轼不是圣人,他最可贵的地方是在痛苦彷徨挣扎中," +
- "总能把自己的心灵置于更广阔的天地中,如同《赤壁后赋》中横飞而去的老鹤," +
- "戛戛于星空夜月,长河大江之上,澄明清澈,皎然不滓。" +
- "苏轼是一个善于苦中找乐的人,这种乐观与真趣帮他度过了不少难关。" +
- "画家陈丹青说鲁迅是一个有趣的人,我想,拿来说苏东坡一样也行。");
- list.add("李宇春《再不疯狂我们就老了》MV首播】李宇春新专辑同名第二主打《再不疯狂我们就老了》MV今日正式发布。这首歌与《似火年华》,以“疯狂”为概念的对话曲目,采用一曲双词的方式。李宇春与韩寒,同时在一首歌里,讲述了两种截然相反,却本质同归的态度");
- list.add("上个月在天津术语学会上见到冯老,言谈中感觉到冯老对机器翻译的深厚感情和殷切希望。是啊,机器翻译事业还年轻,我辈细流,心驰沧海,愿倾尽绵薄之力,浇灌此常青之树。");
- list.add("发表了博文 《多语言信息网络时代的语言学家:冯志伟》 - 冯志伟与老伴郑初阳 多语言信息网络时代的语言学家:冯志伟 桂清扬 冯志伟,教育部语言文字应用研究所研究员,博士生导师,所学术委员会");
- list.add("Facebook CEO 马克·扎克伯格亮相了周二 TechCrunch Disrupt 大会,并针对公司不断下挫的股价、移动战略、广告业务等方面发表了讲话。自 5 月公司 IPO 后,扎克伯格极少公开露面,这也是他首次在重要场合公开接受采访");
- list.add("@新华社中国网事:#聚焦钓鱼岛#外交部长杨洁篪10日在外交部紧急召见日本驻华大使丹羽宇一郎,就日本政府非法“购买”钓鱼岛提出严正交涉和强烈抗议。当日,中国驻日本大使程永华也向日本外务省负责人提出严正交涉并递交了抗议照会。");
- list.add("阿米尔汗,8岁时出演一部轰动印度的电影,是公认的童星,长大后却一心打网球并获得过网球冠军。21岁爱上邻居家女孩,由于宗教原因两人决定私奔,现在过着幸福美满的生活。81届奥斯卡最佳影片《贫民窟的百万富翁》,他担任制片。2009年一部《三个白痴》震惊全球,他47岁");
- list.add("老郭动粗 师徒揭相声虚假繁荣");
- list.add("Facebook CEO 扎克伯格极少公开露面");
- list.add("徐德有说这是个错误!");
- list.add("而如今Facebook的CEO马克·扎克伯格表示,押在HTML5上是Facebook最大的错误。由于HTML5应用性能差到不能忍受");
- list.add("本报讯(记者胡笑红)已经过期的牛奶被销售经理修改日期,照样投放市场销售,记者昨天从蒙牛公司得到证实,蒙牛驻义乌经理王孙富和同伙赵宝峰因涉嫌生产销售伪劣产品罪已被当地批捕。");
- list.add("白玉萍是一个好人");
- list.add("张三同李四是好朋友");
- list.add("钟子期的名字能够被认出来么");
- list.add("綦玉冰");
- list.add("汤姆克鲁斯的英文名字很苦");
- list.add("曼城第23分钟遭遇打击,孔帕尼中线丢球,莫里森中路直塞,沙恩-朗拿球成单刀之势,米尔纳背后将其铲倒,主裁判克拉滕伯格认为米尔纳是最后一名防守球员,直接掏出红牌!曼奇尼在场边向第四官员抗议,认为莱斯科特已经补防到位。多兰斯主罚任意球打在人墙上高出。");
- list.add("中新网10月20日电 据日本共同社报道,日本民主党代理干事长安住淳20日表示,首相野田佳彦将履行“近期”解散众院举行大选的承诺,预计在“公债发行特例法案”获得通过等条件具备时解散众院。");
- for (String string : list) {
- StringReader reader=new StringReader(string);
- seg=new IKSegmenter(reader,true);
- Lexeme lex=new Lexeme(0, 0, 0, 0);
- try {
- while((lex=seg.next())!=null)
- {
- System.out.print(lex.getLexemeText() + "|");
- }
- } catch (IOException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- System.out.println();
- }
- }
- }
可是这个结果对人名识别不怎么理想啊!
还是把整个项目的代码上传到我的51cto空间吧!
整个Project的下载地址http://down.51cto.com/data/599592
Lucene下分词工具的学习探讨(二)相关推荐
- Telerik移动应用开发工具AppBuilder学习笔记(二)--IDEs
Telerik移动应用开发工具AppBuilder学习笔记 之 IDEs Telerik AppBuilder的IDE有四种: 1,在线IDE,地址:https://platform.telerik. ...
- commons-lang3工具类学习(二)
三.BooleanUtils 布尔工具类 and(boolean... array) 逻辑与 BooleanUtils.and(true, true) = true BooleanUtils.and( ...
- java 编写小工具 尝试 学习(二)
1. 新建一个窗口 ,代码 如下 ,截图 如下 package jFrameDemo;import javax.swing.JFrame; import javax.swing.WindowCons ...
- 盘古分词工具学习笔记
下载了盘古分词工具,学习工具使用的同时学习中文分词基础. 1. 一元分词/二元分词/多元分词/精确分词 一元分词是按字拆分的,比如一句话"梦想很丰满",在盘古分词中使用一元分词拆 ...
- 中文分词工具探析(一):ICTCLAS (NLPIR)
[开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):T ...
- python windows编程_在Windows下配置Python编程学习环境
一.需求: 之前是在Linux环境下进行Python的学习,每次开虚拟机觉得有点麻烦,希望可以直接在Windows的dos命令行下进行Python编程学习. 二.安装软件 直接从官网下载这两个软件安装 ...
- 自然语言处理学习笔记2:分词工具及分词原理
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词.分词就是将连续的字序列按照一定的规范重新组合成词序列的过程.我们知道,在英文的行文中,单词之 ...
- 工具的学习使用(二):快捷键、工具、批处理
快捷键 Ctrl + Shift + A 核心快捷键 : 查看 Phpstorm 的 action,所谓 action 便是 Phpstorm 的一个原子操作,只要记住这些操作的关键字,进行搜索便可以 ...
- Lucene.Net 2.3.1开发介绍 —— 二、分词(一)
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(一) Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来.目前Lucene.Net的分词库很不完善,实际应用价值不高.唯 ...
最新文章
- 大幅涨点!孙剑团队提出新激活层ACON和轻量级网络TFNet
- RabbitMQ之比较好的资料
- #用construct2做游戏
- 【Linux】一步一步学Linux——mv命令(30)
- 智伴机器人课文跟读哪里有_仁爱版英语九年级上册Unit4 Topic1单词课文朗读/翻译+知识汇总...
- 【洛谷P1108】低价购买【dp练习】
- Android 应用更新和在服务器下载android应用
- Windows Server入门系列之十 注册表的基本使用
- 计算机组装与维护报告论文,计算机组装与维护实习报告范文
- 如何通过直接复制frm文件以实现恢复/复制innodb数据表?
- crypto 乱码_base64编码加密解密程序,输出有乱码,为什么?
- HTML5 定位 —— Geolocation API的正确使用
- python的drop duplicates,Python的pandas中,drop_duplicates函数怎么根据索引来去重
- 思科网络技术学院教程计算机组装,思科网络技术学院教程CCNA1.网络基础.pdf
- 泛微oa系统什么框架_泛微OA系统表结构说明文档
- wincap支持VC6.0的版本下载
- mac如何使用命令行删除文件
- 替代DRV8825的打印机/扫描仪驱动芯片TMI8420
- 你好,我们可以认识一下吗?
- Google Protocol Buffers三两事【知识笔记】
热门文章
- Evernote 3.1 便携离线版
- 宝德服务器 raid制作,宝德服务器RAID操作手册EX16650用户手册.doc
- Android11谷歌安装器,谷歌Pixel5安卓11安装面具ROOT方案【赠送5G模块】
- Vue笔记(五)—— Vue render渲染/组件嵌套之iView官网案例改写Table表格组件及Modal弹窗/对话框/模态框组件内容自定义详解
- 实现一个模拟工控软件
- xxx小学四年级(上) 学期
- 记ERP系统在摩托罗拉公司的实施
- PMP是什么?有等级之分吗?
- CAT调用链系统设计
- 前端基础 JavaScript