目录

前 言

复制 jar 包

设置扩展/停用词典

修改 schema. xml

分词测试


前 言

1、了解完《Solr 4.10.3 schema.xml 域类型详解》之后,现在来配置 IK-Analyzer 中文分词器

2、Solr 集成 IKAnalyzer 中文分析器步骤如下:

第一步:把 IKAnalyzer2012FF_u1.jar 添加到 solr/WEB-INF/lib 目录下。

第二步:复制 IKAnalyzer 的配置文件和自定义词典和停用词词典到 solr 的 classpath 下。

第三步:在 schema.xml 中添加一个自定义的 fieldType,使用中文分析器。

第四步:定义 field,指定 field 的 type 属性为 text_ik

复制 jar 包

1、将 IKAnalyzer2012FF_u1.jar 开发包添加到 Tomcat 服务器下的 webapps/solr/WEB-INF/lib 目录下。

2、关于 IK-Analyzer 不熟悉,或者没有开发包的,可以参考《 Lucene 中文分词器 Ik-Analyzer 使用教程》

设置扩展/停用词典

1、复制 IKAnalyzer 的配置文件和自定义词典和停用词词典到 Tomcat 下的 solr 应用的 classpath 下。

2、如果不使用扩展词典、停用词典,不做这一步操作也是没有问题的,对于扩展词典、停用词典不熟的可以参考《可以参考《 Lucene 中文分词器 Ik-Analyzer 使用教程》》

修改 schema. xml

1、在 schema.xml 中添加一个自定义的 fieldType,使用中文分析器。

2、自定义定义 Field,指定 Field 的 type 属性为 自定义的 FieldType。

3、如下所示,新加 FieldType 与 Field 到 schema.xml 文件的末尾。

  <!--<similarity class="com.example.solr.CustomSimilarityFactory"><str name="paramkey">param value</str></similarity>--><!-- IKAnalyzer--><fieldType name="text_ik" class="solr.TextField"><analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/></fieldType><!--IKAnalyzer Field--><field name="title_ik" type="text_ik" indexed="true" stored="true" multiValued="true"/><field name="content_ik" type="text_ik" indexed="true" stored="true" multiValued="true"/><field name="name_ik" type="text_ik" indexed="true" stored="true"/>
</schema>

分词测试

1、启动安装了 Solr 的 Tomcat 服务器,然后访问 Solr

2、输入测试的中文语句,然后选择新增的 IK-Analyzer 的 FieldType 或者 Field ,进行索引或者查询测试,结果如下,效果良好。

3、实际项目中数据仍然建议放入数据库中,如果需要使用大量的 “ like ” 进行模糊查询,应用数据量又大的话,这个时候可以使用“ 全文搜索引擎 ”进行优化,因为 模糊查询 数据库中使用的是全表扫描算法,效率太低。

4、如果上面设置了“扩展和停用词典”,则使用 Ik-Analyzer 的时候,就加载并使用它们,如下所示:

Solr 4.10.3 集成 IK Analyzer 2012FF 中文分词器相关推荐

  1. java Analyzer_Java实现使用IK Analyzer实现中文分词

    lucene-core-3.6.0.jar 什么都不用改 示例代码如下(使用IK Analyzer): [java] view plaincopy package com.haha.test; imp ...

  2. solr集成IKAnalyzer中文分词器

    如果想要知道如何安装solr,集成IKAnalyzer中文分词器,批量导入数据库数据,java使用参照以下本博主博文: 安装solr https://blog.csdn.net/u013294097/ ...

  3. 给solr配置中文分词器

    Solr的中文分词器 中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器. 目前可用的分词器有smartcn,IK,Jeasy,庖丁.其实主要是两种,一种是基于中科院ICTCLAS ...

  4. solr mysql 分词_solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)...

    基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面 ...

  5. IK Analyzer 中文分词器

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...

  6. 【全】在 Docker 的Solr容器中安装 IK 中文分词器

    [原创文章,转载请标明出处] 这些坑我已经帮你踩过了: 现在大家能够在网上(需要禾斗学上网)下载的IK分词器版本已经非常老了,而Solr更新还是非常快的,所以会出现版本不兼容的问题,不然即使成功装上了 ...

  7. 采访IK Analyzer 中文分词器开源项目作者林良益(十三)

    转自: http://www.iteye.com/magazines/43-ik-analyzer 众所周知,全文搜索几乎已经成为每个网站的必须提供的基本功能之一,用Lucene构造一个"索 ...

  8. ES集成中文分词器: IK 3.0

    1.集成分词器 IKAnalyzer是一个开源的,基于Java语言开发的轻量级中文分词器工具包,独立于Lucene项目, 同事提供了对Lucene的默认优化实现. IK分词器3.0有下面几个特性: 采 ...

  9. 单机版Solr的中文分词器solr IK下载和配置、拓展词典、停用词典

    下载ik分词器 solr IK中文分词器下载地址 github地址下载(最新版本): https://github.com/magese/ik-analyzer-solr solr7版本的ik分词器: ...

  10. Elasticsearch7.15.2 集成ik中文分词器 适用于单机和集群

    文章目录 一.下载部署 1. 版本对应 2. 下载ik 3. 目录权限 4. 切换es用户 5. 启动es 6. 验证es 7. 切换kibana 用户 8. 启动kibana 9. 验证kibana ...

最新文章

  1. 从敲入 URL 到浏览器渲染完成、对HTTP协议的理解
  2. salad--8||9
  3. 02-css的选择器
  4. mysql web备份软件_GitHub - toolzone/mysql_web_backup: mysql数据库自动备份,web网站自动备份shell脚本...
  5. html 小于号 乱码,shell重定向(大于号,小于号,左右,21,)
  6. 浙大计算机考研录取名单2021,2021浙大考研拟录取名单公布,初试倒数第一竟然成功逆袭!...
  7. 图解 MongoDB 地理位置索引的实现原理
  8. 敏捷个人新体系学习 - 1.实践的艺术
  9. tensorflow只用CPU运行的方法
  10. 基于小米球(Ngrok)实现外网访问
  11. java wsdl 服务端代码_wsdl2java 生成 webservice服务端代码:
  12. 【金猿技术展】PLC电力载波通信技术——电力系统特有通信方式
  13. 简单的使用Python处理Excel数据文件
  14. 音频开发之——pulseaudio
  15. Android 小宝宝买装备案列创建
  16. 苹果每部iPhone4S可赚3917元 开售首日收入39亿元
  17. python绘制特洛伊小行星群
  18. VUE:vue通过cookie获取用户登录信息
  19. Couldn’t load custom C++ ops.
  20. C++ map / multimap容器

热门文章

  1. 拓端tecdat|R语言有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请、支出数据
  2. 【大数据部落】IBM SPSS Modeler通过数据挖掘我们能从股市数据得到什么
  3. 如何让php支持mysql的,怎么让php支持MySql
  4. LeetCode4 寻找两个正序数组的中位数
  5. 遥感高光谱分类文献阅读:Exploring Hierarchical Convolutional Features for Hyperspectral Image Classification
  6. 传智播客视频python视频爬虫
  7. leetcode——给定一个字符串,求不重复字符的最长子字符串的长度
  8. Python实现 N*N 乘法表
  9. python日期转化利器arrow实践
  10. 编译链接错误:对‘vtable for xxxx’未定义的引用