Imdict的官方网址

http://code.google.com/p/imdict-chinese-analyzer/

做项目开始,我才发现读源码是一件很能提升自己编码水平的一件事情

在别人的源码里,你会发现好多编码思想,还有一些很实用的方法,他们都写出来了

在巨人的肩膀上 这话说的真不错

该分词器不能添加自己定义的词库,如果你懂java(读了源码你自己也可以加进去)

网上有个人早对他做了修改

http://insolr.com/forum.php?mod=viewthread&tid=1057&extra=page%3D1

在这里我曾经发过

添加自己词库我就不介绍了,onedear  介绍的很清楚了

我只在这里写写他字典的生成原理代码入下:

private void getMydict() {wordDict = WordDictionary.getInstance();char[][][] wordItem_charArrayTable = wordDict.getWordItem_charArrayTable();int[][] wordItem_frequencyTable= wordDict.getWordItem_frequencyTable();short[] wordIndexTable =wordDict.getWordIndexTable();char[] charIndexTable =wordDict.getCharIndexTable();try {FileOutputStream fos = new FileOutputStream("ciku.txt");  //这里就是你的词库ObjectOutputStream oos = new ObjectOutputStream(fos);oos.writeObject(wordIndexTable);oos.writeObject(charIndexTable);oos.writeObject(wordItem_charArrayTable);oos.writeObject(wordItem_frequencyTable);oos.close();} catch (Exception e) {e.printStackTrace();}}

  这样你就得到和他格式一样的一个名为ciku.txt 的文件了,他和他自己带的.men 格式就是同一类型了,你用你的ciku.txt 替换他的.men 就可以了

转载于:https://www.cnblogs.com/tomcattd/archive/2012/12/27/2835951.html

修改Imdict做自己的分词器相关推荐

  1. 搜索引擎——反向索引原理揭秘及手写ik分词器

    原创不易,转载请标明地址,或者直接附上我的博客首页https://georgedage.blog.csdn.net/ 上篇博客我们说到,数据库为什么不适合搜索引擎的底层存储?,那么什么适合呢? ela ...

  2. Elasticsearch配置ik中文分词器自定义词库

    1.IK配置文件 在config目录下: IKAnalyzer.cfg.xml:配置自定义词库 main.dic:分词器自带的词库,索引会按照里面的词创建 quantifier.dic:存放计量单位词 ...

  3. elasticsearch 添加或修改分词器

    1 索引的分析 索引分析: 就是把输入的文本块按照一定的策略进行分解, 并建立倒排索引的过程. 在Lucene的架构中, 这个过程由分析器(analyzer)完成. 1.1 分析器的组成 ① 字符过滤 ...

  4. 31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库

    31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库 更多干货 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boo ...

  5. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  6. Elasticsearch介绍Kibana分词器增删改操作

    Elasticsearch Elasticsearch介绍和安装 简介 Elastic Elastic官网:https://www.elastic.co/cn/ Elastic有一条完整的产品线及解决 ...

  7. solr mysql 分词_solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)...

    基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面 ...

  8. 当前几个主要的Lucene中文分词器的比较

    http://blog.fulin.org/2009/08/lucene_chinese_analyzer_compare.html 1. 基本介绍: paoding :Lucene中文分词" ...

  9. ElasticSearch教程——自定义分词器(转学习使用)

    一.分词器 Elasticsearch中,内置了很多分词器(analyzers),例如standard(标准分词器).english(英文分词)和chinese(中文分词),默认是standard. ...

  10. 常用的lucene分词器-笔记

    1. StopAnalyzer StopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能. 2. StandardAnalyzer StandardAnalyzer根据空格和符 ...

最新文章

  1. spring-aop入门
  2. 架构设计的真谛:系统与子系统、模块与组件、框架与架构
  3. 智邦国际怎么样?企业管理软件好不好?
  4. 在linux操作系统中启动oracle数据库程序,Linux系统下Oracle数据库的安装和启动关闭操作教程...
  5. silverlight 3D 游戏开发
  6. 带列表写入文件出错先 json.dumps
  7. python 列表推导
  8. dtree树形结构异步传输
  9. 商城网站前台html模板,网上购物商城前台模板HTML源码
  10. Julia 下载 安装 juno 开发环境搭建
  11. 论文:OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework
  12. 国外 计算机专业 网站,国外计算机类核心期刊及其网站
  13. 目标客户画像_分析目标人群画像的5个步骤
  14. 鸿蒙系统如何设置字体,图解鸿蒙OS独特的字体系统!
  15. 简单解决SVN cleanup failed to process the following paths错误
  16. 南华大学计算机考研真题,2021南华大学考研历年真题复习资料
  17. mSystems:土壤化学计量特性影响土壤C、N和P循环微生物丰度及其对全球变化的抵抗力(一作解读)...
  18. 【081】Remove-无需注册的在线免费抠图工具
  19. Android 项目集成有米 SDK 添加广告
  20. mpi_barrier

热门文章

  1. kafka生产者API操作
  2. CMake构建_增加编译选项(debugrelease)
  3. Windows核心编程_PE文件格式详细介绍
  4. Linux-mysql备份
  5. 2017年上半年软件设计师试题-04
  6. 便于理解mysql内幕的各种逻辑图组
  7. CISCO ASA防火墙配置实验
  8. FZU_2019_Mountain Number题解
  9. BW作为源系统连接时,激活DSO或其他模型时提示8*数据源不存在,无法激活
  10. laravel composer 安装指定版本以及基本的配置