简介

IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。

作用: 有中文语义分析的效果, 对中文分词效果好.

配置

一、把IKAnalyzer2012FF_u1.jar 添加到 solr 工程的 lib 目录下,根据自己的安装目录来操作

①进入IKAnalyzer文件目录下:cd /usr/local/solr/IKAnalyzer/

②复制文件:cp IKAnalyzer2012FF_u1.jar /usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/

二、创建WEB-INF/classes文件夹

①进入Tomca的WEB-INF文件夹下:cd /usr/local/solr/tomcat/webapps/solr/WEB-INF/

②创建classes文件夹:mkdir classes

三、把扩展词典、停用词词典、配置文件放到 solr 工程的 WEB-INF/classes 目录下

①进入IKAnalyzer文件目录下:cd /usr/local/solr/IKAnalyzer/

②复制配置文件:cp IKAnalyzer.cfg.xml /usr/local/solr/tomcat/webapps/solr/WEB-INF/classes

③复制停用词典:cp ext_stopword.dic /usr/local/solr/tomcat/webapps/solr/WEB-INF/classes

④修改停用词典名字:mv ext_stopword.dic stopword.dic

四、修改IKAnalyzer.cfg.xml配置文件,stopword.dic已经有了,而ext.dic还没有

①创建ext.dic:touch ext.dic

②修改扩展词字典和停止词字典:vim IKAnalyzer.cfg.xml

五、解释停止词典和扩展词典

stopword.dic - 停止词典:切分词的时候, 凡是出现在停止词典中的词都会被过滤掉

ext.dic - 扩展词典:凡是专有名词都会放到这里, 如果自然语义中不是一个词, 放到这里后solr切分词的时候就会切分成一个词

六、配置分词器

1.修改 Solrhome 的 schema.xml 文件

①进入到conf文件夹下:cd /usr/local/solr/solrhome/collection1/conf

②修改 schema.xml ,在文件最后添加(注:需在</schema>标签内)

<fieldType name="text_ik" class="solr.TextField"><analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

③自定义域名使用自己创建的分词器

<field name="content_ik" type="text_ik" indexed="true" stored="true"/>

2.关闭和重启Tomcat

cd /usr/local/solr/tomcat/bin/

./shutdown.sh

./startup.sh

3.测试

Solr - 中文分词器IK Analyzer的简介及配置相关推荐

  1. Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展

    一.ik中文分词器 上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我 ...

  2. 如何在Elasticsearch中安装中文分词器(IK+pinyin)

    如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当 ...

  3. 本地elasticsearch中文分词器 ik分词器安装及使用

    ElasticSearch 内置了分词器,如标准分词器.简单分词器.空白词器等.但这些分词器对我们最常使用的中文并不友好,不能按我们的语言习惯进行分词. ik分词器就是一个标准的中文分词器.它可以根据 ...

  4. elasticsearch6.2.2安装中文分词插件IK analyzer

    elasticsearch6.2.2安装中文分词插件IK analyzer 哎,装了一下午的ik终于装上了,发现自己真的是非常笨了,并且es重启过程中遇到了很多的问题,下面我将手把手教大家如何安装ik ...

  5. solrcloud配置中文分词器ik

    无论是solr还是luncene,都对中文分词不太好,所以我们一般索引中文的话需要使用ik中文分词器. 三台机器(192.168.1.236,192.168.1.237,192.168.1.238)已 ...

  6. ELK系列(十)、ES中文分词器IK插件安装和配置远程词库热加载

    简介 IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包: 最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件:从 3.0 版本开始 ...

  7. ElasticSearch中文分词器-IK分词器的使用

    IK分词器的使用 首先我们通过Postman发送GET请求查询分词效果 GET http://localhost:9200/_analyze {"text":"农业银行& ...

  8. ElasticSearch 中文分词器ik的安装、测试、使用、自定义词库、热更新词库

    文章目录 # 实验环境 # ik分词器的下载.安装.测试 ## 安装方法一:使用elasticsearch-plugin 安装 ## 安装方法二:下载编译好的包进行安装 1.下载 2.安装 3.重启` ...

  9. 分享Lucene中文分词组件IK Analyzer V3.2.8

    IK Analyzer 3.X介绍   IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本 ...

最新文章

  1. Google公开其JavaScript工具:Closure Compiler
  2. HTML5中类jQuery选择器querySelector的使用
  3. 机器人 蓝buff 钩_机器人要在S赛登场了?Ming韩服练起来了,这是RNG黑科技?
  4. java连本地mysql注意事项_java数据库连接及注意事项
  5. python登录验证程序_Python模拟用户登录验证
  6. Json字符串转对象和转List集合操作(alibabab版本)
  7. 验证二叉搜索树的golang实现
  8. 算法59----打家劫舍【动态规划】
  9. c#中用声音提示报警
  10. 基础才是重中之重~对象的生与死
  11. 《MySQL技术内幕 InnoDB存储引擎》.pdf
  12. 曾宪武《物联网通信技术》课后答案(一)
  13. 显示农历天气时钟小部件下载_软媒时间-时间栏的效率小软件
  14. 移动端旅游电商靠什么吸引了金主?
  15. AUV运动控制仿真(PID控制)
  16. 2020华为软件精英挑战赛历程总结——复赛篇
  17. 【问题解决】samba添加用户和密码时报错 Failed to add entry for user
  18. JavaScript中Set的使用
  19. JAVA的Map怎么判断为空_检查Java中的HashMap是否为空
  20. Beam search 算法的通俗理解

热门文章

  1. python实现成语接龙,调戏QQ小冰
  2. 对照组,的名字如何取,control和vehicle
  3. 领跑最后一公里 青藤云安全自适应架构了解一下?
  4. 【2021年最新版】安装虚拟机 VMware Workstation + 安装Linux操作系统 + 输出“Hello World”
  5. Nginx配置WebService、MySQL、SQL Server、ORACLE等代理
  6. swift kingfisher原理使用
  7. Ubuntu修改时区为UTC/CST时间
  8. 单片机毕业设计 stm32指纹识别考勤系统 - 嵌入式 物联网
  9. ubuntu20.04安装haroopad
  10. 加布丽尔的10条生活哲学