Solr 4.10.3 集成 IK Analyzer 2012FF 中文分词器
目录
前 言
复制 jar 包
设置扩展/停用词典
修改 schema. xml
分词测试
前 言
1、了解完《Solr 4.10.3 schema.xml 域类型详解》之后,现在来配置 IK-Analyzer 中文分词器
2、Solr 集成 IKAnalyzer 中文分析器步骤如下:
第一步:把 IKAnalyzer2012FF_u1.jar 添加到 solr/WEB-INF/lib 目录下。 第二步:复制 IKAnalyzer 的配置文件和自定义词典和停用词词典到 solr 的 classpath 下。 第三步:在 schema.xml 中添加一个自定义的 fieldType,使用中文分析器。 第四步:定义 field,指定 field 的 type 属性为 text_ik |
复制 jar 包
1、将 IKAnalyzer2012FF_u1.jar 开发包添加到 Tomcat 服务器下的 webapps/solr/WEB-INF/lib 目录下。
2、关于 IK-Analyzer 不熟悉,或者没有开发包的,可以参考《 Lucene 中文分词器 Ik-Analyzer 使用教程》
设置扩展/停用词典
1、复制 IKAnalyzer 的配置文件和自定义词典和停用词词典到 Tomcat 下的 solr 应用的 classpath 下。
2、如果不使用扩展词典、停用词典,不做这一步操作也是没有问题的,对于扩展词典、停用词典不熟的可以参考《可以参考《 Lucene 中文分词器 Ik-Analyzer 使用教程》》
修改 schema. xml
1、在 schema.xml 中添加一个自定义的 fieldType,使用中文分析器。
2、自定义定义 Field,指定 Field 的 type 属性为 自定义的 FieldType。
3、如下所示,新加 FieldType 与 Field 到 schema.xml 文件的末尾。
<!--<similarity class="com.example.solr.CustomSimilarityFactory"><str name="paramkey">param value</str></similarity>--><!-- IKAnalyzer--><fieldType name="text_ik" class="solr.TextField"><analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/></fieldType><!--IKAnalyzer Field--><field name="title_ik" type="text_ik" indexed="true" stored="true" multiValued="true"/><field name="content_ik" type="text_ik" indexed="true" stored="true" multiValued="true"/><field name="name_ik" type="text_ik" indexed="true" stored="true"/>
</schema>
分词测试
1、启动安装了 Solr 的 Tomcat 服务器,然后访问 Solr
2、输入测试的中文语句,然后选择新增的 IK-Analyzer 的 FieldType 或者 Field ,进行索引或者查询测试,结果如下,效果良好。
3、实际项目中数据仍然建议放入数据库中,如果需要使用大量的 “ like ” 进行模糊查询,应用数据量又大的话,这个时候可以使用“ 全文搜索引擎 ”进行优化,因为 模糊查询 数据库中使用的是全表扫描算法,效率太低。
4、如果上面设置了“扩展和停用词典”,则使用 Ik-Analyzer 的时候,就加载并使用它们,如下所示:
Solr 4.10.3 集成 IK Analyzer 2012FF 中文分词器相关推荐
- java Analyzer_Java实现使用IK Analyzer实现中文分词
lucene-core-3.6.0.jar 什么都不用改 示例代码如下(使用IK Analyzer): [java] view plaincopy package com.haha.test; imp ...
- solr集成IKAnalyzer中文分词器
如果想要知道如何安装solr,集成IKAnalyzer中文分词器,批量导入数据库数据,java使用参照以下本博主博文: 安装solr https://blog.csdn.net/u013294097/ ...
- 给solr配置中文分词器
Solr的中文分词器 中文分词在solr里面是没有默认开启的,需要我们自己配置一个中文分词器. 目前可用的分词器有smartcn,IK,Jeasy,庖丁.其实主要是两种,一种是基于中科院ICTCLAS ...
- solr mysql 分词_solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)...
基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面 ...
- IK Analyzer 中文分词器
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用 ...
- 【全】在 Docker 的Solr容器中安装 IK 中文分词器
[原创文章,转载请标明出处] 这些坑我已经帮你踩过了: 现在大家能够在网上(需要禾斗学上网)下载的IK分词器版本已经非常老了,而Solr更新还是非常快的,所以会出现版本不兼容的问题,不然即使成功装上了 ...
- 采访IK Analyzer 中文分词器开源项目作者林良益(十三)
转自: http://www.iteye.com/magazines/43-ik-analyzer 众所周知,全文搜索几乎已经成为每个网站的必须提供的基本功能之一,用Lucene构造一个"索 ...
- ES集成中文分词器: IK 3.0
1.集成分词器 IKAnalyzer是一个开源的,基于Java语言开发的轻量级中文分词器工具包,独立于Lucene项目, 同事提供了对Lucene的默认优化实现. IK分词器3.0有下面几个特性: 采 ...
- 单机版Solr的中文分词器solr IK下载和配置、拓展词典、停用词典
下载ik分词器 solr IK中文分词器下载地址 github地址下载(最新版本): https://github.com/magese/ik-analyzer-solr solr7版本的ik分词器: ...
- Elasticsearch7.15.2 集成ik中文分词器 适用于单机和集群
文章目录 一.下载部署 1. 版本对应 2. 下载ik 3. 目录权限 4. 切换es用户 5. 启动es 6. 验证es 7. 切换kibana 用户 8. 启动kibana 9. 验证kibana ...
最新文章
- 从敲入 URL 到浏览器渲染完成、对HTTP协议的理解
- salad--8||9
- 02-css的选择器
- mysql web备份软件_GitHub - toolzone/mysql_web_backup: mysql数据库自动备份,web网站自动备份shell脚本...
- html 小于号 乱码,shell重定向(大于号,小于号,左右,21,)
- 浙大计算机考研录取名单2021,2021浙大考研拟录取名单公布,初试倒数第一竟然成功逆袭!...
- 图解 MongoDB 地理位置索引的实现原理
- 敏捷个人新体系学习 - 1.实践的艺术
- tensorflow只用CPU运行的方法
- 基于小米球(Ngrok)实现外网访问
- java wsdl 服务端代码_wsdl2java 生成 webservice服务端代码:
- 【金猿技术展】PLC电力载波通信技术——电力系统特有通信方式
- 简单的使用Python处理Excel数据文件
- 音频开发之——pulseaudio
- Android 小宝宝买装备案列创建
- 苹果每部iPhone4S可赚3917元 开售首日收入39亿元
- python绘制特洛伊小行星群
- VUE:vue通过cookie获取用户登录信息
- Couldn’t load custom C++ ops.
- C++ map / multimap容器
热门文章
- 拓端tecdat|R语言有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请、支出数据
- 【大数据部落】IBM SPSS Modeler通过数据挖掘我们能从股市数据得到什么
- 如何让php支持mysql的,怎么让php支持MySql
- LeetCode4 寻找两个正序数组的中位数
- 遥感高光谱分类文献阅读:Exploring Hierarchical Convolutional Features for Hyperspectral Image Classification
- 传智播客视频python视频爬虫
- leetcode——给定一个字符串,求不重复字符的最长子字符串的长度
- Python实现 N*N 乘法表
- python日期转化利器arrow实践
- 编译链接错误:对‘vtable for xxxx’未定义的引用