最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。

关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。

下载解压之后主要使用和依赖以下文件:

IKAnalyzer2012_u6.jar   — IKAnalyzer核心jar包

IKAnalyzer.cfg.xml    — 配置文件,可以在这里配置停词表和扩展词库

stopword.dic    — 停词表

lucene-core-3.6.0.jar  — lucene jar包,注意:只能使用这个3.6版本,高版本有问题

IKAnalyzer中文分词器V2012_U5使用手册.pdf  — 使用手册

新建Java项目,将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path,将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。

看一下IKAnalyzer.cfg.xml的内容:

<?xml version=”1.0″ encoding=”UTF-8″?>
<!DOCTYPE properties SYSTEM “http://java.sun.com/dtd/properties.dtd”>
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!–用户可以在这里配置自己的扩展字典 –>
<entry key=”ext_dict”></entry>

<!–用户可以在这里配置自己的扩展停止词字典–>
<entry key=”ext_stopwords”>stopword.dic;</entry>
</properties>

使用示例代码:

 
  1. package com.lxw1234.wordsplit;
  2. import java.io.StringReader;
  3. import org.apache.lucene.analysis.Analyzer;
  4. import org.apache.lucene.analysis.TokenStream;
  5. import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
  6. import org.wltea.analyzer.lucene.IKAnalyzer;
  7. /**
  8. *
  9. * @author lxw的大数据田地 -- lxw1234.com
  10. *
  11. */
  12. public class Test {
  13. public static void main(String[] args) throws Exception {
  14. String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。 北京优衣库";
  15. Analyzer analyzer = new IKAnalyzer(false);
  16. StringReader reader = new StringReader(text);
  17. TokenStream ts = analyzer.tokenStream("", reader);
  18. CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
  19. while(ts.incrementToken()){
  20. System.out.print(term.toString()+"|");
  21. }
  22. analyzer.close();
  23. reader.close();
  24. }
  25. }

执行结果为:

lxw|的|大数|数据|田地|lxw1234.com|lxw|1234|com|专注|hadoop|spark|hive|等|大数|数据|技术|博客|北京|优|衣|库|

分词分的很细。

看这个构造函数:Analyzer analyzer = new IKAnalyzer(false);

IKAnalyzer支持两种分词模式:最细粒度和智能分词模式,如果构造函数参数为false,那么使用最细粒度分词。

改成智能分词模式之后的结果:

Analyzer analyzer = new IKAnalyzer(true);

lxw|的|大|数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大|数据|技术|博客|北京|优|衣|库|

结果还是不太理想,“大数据”和“优衣库”都被分开了,原因是IKAnalyzer自带的词库里面没有这两个词。

需要配置扩展词库。

在项目根目录新建文件MyDic.dic,里面内容为:

大数据

优衣库

每行一个词,特别注意:MyDic.dic的文件编码必须为UTF-8。

编辑IKAnalyzer.cfg.xml配置文件,添加扩展词库:

<!–用户可以在这里配置自己的扩展字典 –>
<entry key=”ext_dict”>MyDic.dic;</entry>

再运行:

lxw|的|大数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大数据|技术|博客|北京|优衣库|

这下基本是我们想要的结果了。

下载地址:https://code.google.com/p/ik-analyzer/downloads/list

这个地址估计大家不方便,上传了一份到网盘:

http://pan.baidu.com/s/1i3eXhAH

密:34w6

原文地址:http://lxw1234.com/archives/2015/07/422.htm

中文分词工具-IKAnalyzer下载及使用相关推荐

  1. Java实现敏感词过滤 - IKAnalyzer中文分词工具

    IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...

  2. 常用的开源中文分词工具

    转载自:  http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...

  3. 各种中文分词工具的使用方法

    诸神缄默不语-个人CSDN博文目录 本文将介绍jieba.HanLP.LAC.THULAC.NLPIR.spacy.stanfordcorenlp.pkuseg等多种中文分词工具的简单使用方法. 对于 ...

  4. 中文分词工具jieba分词器的使用

    1.常见的中文分词工具 中科院计算所的NLPIR 哈工大LTP 清华大学THULAC 斯坦福分词器 Hanlp分词器 jieba分词 IKAnalyzer 2.jieba分词算法主要有以下三种: 1. ...

  5. jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  6. 中文分词工具的初步使用图解

    看一下中文分词工具的使用: 并看看分词后能否减轻技术文章的阅读难度:会不会有帮助: 拷贝一段技术文章分了看下: 一 在线分词 http://www.cncorpus.org/CpsParser.asp ...

  7. ik分词和jieba分词哪个好_Pubseg:一种单双字串的BiLSTM中文分词工具

    中文分词是中文自然语言处理中的重要的步骤,有一个更高精度的中文分词模型会显著提升文档分类.情感预测.社交媒体处理等任务的效果[1]. Pubseg是基于BiLSTM中文分词工具,基于ICWS2005P ...

  8. jieba textrank关键词提取 python_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg,THULAC, HanLP...

    最近玩公众号会话停不下来:玩转腾讯词向量:Game of Words(词语的加减游戏),准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公众号 ...

  9. 资源 | Python中文分词工具大合集

    跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...

最新文章

  1. 对于sync.Mutex使用注意事项
  2. JavaScript 页面跳转的几种方式
  3. RPM包管理命令rpm
  4. 华为漫画 | 什么是DSP?
  5. [转载] 湖北:星空团队——海燕计划
  6. python jsonpath-rw_Python使用jsonpath-rw模块处理Json对象操作示例
  7. 一张报表节约几十万能耗,新华扬解密精益生产的精髓
  8. 怎样利用JDBC启动Oracle 自己主动追踪(auto trace)
  9. php使用memcache处理缓存数据
  10. 京东搜索排序在线学习的 Flink 优化实践
  11. Idea插件 Sonar
  12. 音视频学习(三)——sip协议
  13. alsa设置默认声卡
  14. 【剖析 | SOFARPC 框架】系列之 SOFARPC 序列化比较
  15. 二分法查找--Dichotomy search
  16. 求一个十六进制数的各二进制位_C语言实现
  17. 抖音小程序基础之 TTSS 样式是什么
  18. 关于android 电池的一些实用性探讨
  19. Python爬虫之爬取酷狗音乐歌曲
  20. mysql 查询最接近某时间的数据

热门文章

  1. 「C++ MFC」 “多媒体定时器实例”讲解
  2. MSP432蓝牙遥控小车
  3. 什么是GAN(生成对抗网络)?
  4. mt6582 pwm
  5. Table边框使用总结 ,只显示你要显示的边框
  6. linux环境下tomcat扩大内存
  7. java jsf_JSF简单入门
  8. Eclipse BIRT使用之BIRT Designer篇(转)
  9. 制作U盘启动盘安装Win11系统
  10. 如何把项目部署到腾讯云服务器(附带常见错误)