修改Imdict做自己的分词器
Imdict的官方网址
http://code.google.com/p/imdict-chinese-analyzer/
做项目开始,我才发现读源码是一件很能提升自己编码水平的一件事情
在别人的源码里,你会发现好多编码思想,还有一些很实用的方法,他们都写出来了
在巨人的肩膀上 这话说的真不错
该分词器不能添加自己定义的词库,如果你懂java(读了源码你自己也可以加进去)
网上有个人早对他做了修改
http://insolr.com/forum.php?mod=viewthread&tid=1057&extra=page%3D1
在这里我曾经发过
添加自己词库我就不介绍了,onedear 介绍的很清楚了
我只在这里写写他字典的生成原理代码入下:
private void getMydict() {wordDict = WordDictionary.getInstance();char[][][] wordItem_charArrayTable = wordDict.getWordItem_charArrayTable();int[][] wordItem_frequencyTable= wordDict.getWordItem_frequencyTable();short[] wordIndexTable =wordDict.getWordIndexTable();char[] charIndexTable =wordDict.getCharIndexTable();try {FileOutputStream fos = new FileOutputStream("ciku.txt"); //这里就是你的词库ObjectOutputStream oos = new ObjectOutputStream(fos);oos.writeObject(wordIndexTable);oos.writeObject(charIndexTable);oos.writeObject(wordItem_charArrayTable);oos.writeObject(wordItem_frequencyTable);oos.close();} catch (Exception e) {e.printStackTrace();}}
这样你就得到和他格式一样的一个名为ciku.txt 的文件了,他和他自己带的.men 格式就是同一类型了,你用你的ciku.txt 替换他的.men 就可以了
转载于:https://www.cnblogs.com/tomcattd/archive/2012/12/27/2835951.html
修改Imdict做自己的分词器相关推荐
- 搜索引擎——反向索引原理揭秘及手写ik分词器
原创不易,转载请标明地址,或者直接附上我的博客首页https://georgedage.blog.csdn.net/ 上篇博客我们说到,数据库为什么不适合搜索引擎的底层存储?,那么什么适合呢? ela ...
- Elasticsearch配置ik中文分词器自定义词库
1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...
- elasticsearch 添加或修改分词器
1 索引的分析 索引分析: 就是把输入的文本块按照一定的策略进行分解, 并建立倒排索引的过程. 在Lucene的架构中, 这个过程由分析器(analyzer)完成. 1.1 分析器的组成 ① 字符过滤 ...
- 31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库
31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boo ...
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- Elasticsearch介绍Kibana分词器增删改操作
Elasticsearch Elasticsearch介绍和安装 简介 Elastic Elastic官网:https://www.elastic.co/cn/ Elastic有一条完整的产品线及解决 ...
- solr mysql 分词_solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)...
基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面 ...
- 当前几个主要的Lucene中文分词器的比较
http://blog.fulin.org/2009/08/lucene_chinese_analyzer_compare.html 1. 基本介绍: paoding :Lucene中文分词" ...
- ElasticSearch教程——自定义分词器(转学习使用)
一.分词器 Elasticsearch中,内置了很多分词器(analyzers),例如standard(标准分词器).english(英文分词)和chinese(中文分词),默认是standard. ...
- 常用的lucene分词器-笔记
1. StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能. 2. StandardAnalyzer StandardAnalyzer根据空格和符 ...
最新文章
- spring-aop入门
- 架构设计的真谛:系统与子系统、模块与组件、框架与架构
- 智邦国际怎么样?企业管理软件好不好?
- 在linux操作系统中启动oracle数据库程序,Linux系统下Oracle数据库的安装和启动关闭操作教程...
- silverlight 3D 游戏开发
- 带列表写入文件出错先 json.dumps
- python 列表推导
- dtree树形结构异步传输
- 商城网站前台html模板,网上购物商城前台模板HTML源码
- Julia 下载 安装 juno 开发环境搭建
- 论文:OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework
- 国外 计算机专业 网站,国外计算机类核心期刊及其网站
- 目标客户画像_分析目标人群画像的5个步骤
- 鸿蒙系统如何设置字体,图解鸿蒙OS独特的字体系统!
- 简单解决SVN cleanup failed to process the following paths错误
- 南华大学计算机考研真题,2021南华大学考研历年真题复习资料
- mSystems:土壤化学计量特性影响土壤C、N和P循环微生物丰度及其对全球变化的抵抗力(一作解读)...
- 【081】Remove-无需注册的在线免费抠图工具
- Android 项目集成有米 SDK 添加广告
- mpi_barrier