solr学习笔记-增加mmesg4J中文分词
solr版本6.1、centos6.7、mmesg4j版本2.30
solr安装目录:/usr/local/solr-6.1.0
1、下载mmesg4j包:
地址:https://github.com/chenlb/mmseg4j-solr
2、解压/复制mmseg4j-core-1.10.0.jar、mmseg4j-solr-2.3.0.jar 到/usr/local/solr-6.1.0/dist目录下
3、编辑solrconfig.xml文件增加如下代码并保存
<lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-core-1.10.0.jar" /><lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-solr-2.3.0.jar" />
4、编辑managed-schema文件底部增加如下代码并保存
<fieldtype name="mmseg4jComplex" class="solr.TextField" positionIncrementGap="100"><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/usr/local/solr-6.1.0/dict" /></analyzer></fieldtype><fieldtype name="mmseg4jMaxWord" class="solr.TextField" positionIncrementGap="100"><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/usr/local/solr-6.1.0/dict" /></analyzer></fieldtype><fieldtype name="mmseg4jSimple" class="solr.TextField" positionIncrementGap="100"><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/usr/local/solr-6.1.0/dict" /></analyzer></fieldtype>
5、修改相应索引字段为以上fieldtype,例如
<field name="goods_name" type="<span style="color:#ff0000;">mmseg4jMaxWord</span>" indexed="true" stored="true" required="true" multiValued="false" />
6、重启服务
/usr/local/solr-6.1.0/bin/solr restart
7、查看分词效果
转载于:https://www.cnblogs.com/liuensong/p/10140341.html
solr学习笔记-增加mmesg4J中文分词相关推荐
- 中文词性标注学习笔记(二)---分词
词性标注(二) 分词 词的概念 分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注.句法分析.词向量以及文本分析的质量.英文语句使用空格将单词进行分隔,除了某些特定词,如how many,N ...
- 【Unity学习笔记】[Unity中文课堂教程] C#中级编程代码
[Unity学习笔记][Unity中文课堂教程] C#中级编程代码 最近想补一补C#基础,Unity官方的C#中级编程教程质量很高,于是开个帖子把跟着敲+记录了部分价讲解和我自己的理解的代码存在这 原 ...
- NLP学习(二)中文分词技术
运行平台: Windows Python版本: Python3.x IDE: PyCharm 一. 前言 这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位.分词技术是词性标注.命名实体识别.关 ...
- NLP学习(二)—中文分词技术
本次代码的环境: 运行平台: Windows Python版本: Python3.x IDE: PyCharm 一. 前言 这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位.分词技术是词 ...
- 【全】在 Docker 的Solr容器中安装 IK 中文分词器
[原创文章,转载请标明出处] 这些坑我已经帮你踩过了: 现在大家能够在网上(需要禾斗学上网)下载的IK分词器版本已经非常老了,而Solr更新还是非常快的,所以会出现版本不兼容的问题,不然即使成功装上了 ...
- Go语学习笔记 - 增加时间工具 | Web框架Gin(五)
学习笔记,写到哪是哪. 接着上一篇的文章:Go语学习笔记 - 跨域配置.全局异常捕获 | Web框架Gin(四)_剑客阿良_ALiang的博客-CSDN博客_gin全局异常捕获 在上一篇中已经将一些基 ...
- 搜索引擎学习(四)中文分词器
一.简介 分词原理 Reader读取数据流 数据经过第一个分词器将大写转换小写 数据经过第二个分词器根据空格分割成一个一个的单词 数据经过第三个分词器把标点符号,介词等剔除 经过三次过滤,生成若干语汇 ...
- (转)全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程: 从一个 ...
- 【相机标准】我的cameralink协议学习笔记(个人中文翻译,以及理解)
创作时间:2020-11-17 根据附件的原英文版cameralink协议,总结学习. 目录: 第一章 简介 第二章 信号需求 .第三章 端口分配 第四章 bit分配 第五章 连接器 附录A 芯片组标 ...
最新文章
- redis-rdb-tool 工具介绍
- getResources()方法
- 如何使得WIN7下用VS2010做出的MFC程序具有XP风格(摆脱传统界面的效果)
- 聊聊JVM(九)理解进入safepoint时如何让Java线程全部阻塞
- antlr idea 入门_ANTLR:入门
- 工作290:重置新增的mode
- IdentityServer4
- javascript document cookie
- java 表达式写法_java内置核心4大函数式接口写法和lambda表达式
- leetcode python3 简单题13. Roman to Integer
- Lumia 800 7.10.8783.12
- java中限制多人登录的_Spring Boot + Spring Security 防止用户在多处同时登录(一个用户同时只能登录一次)及源码分析...
- 【渝粤教育】电大中专Office办公软件 (3)作业 题库
- 浅谈集群、分布式、微服务的异同
- java JSONObject JSONArray对象使用小记
- 数论入门符号_大o符号快速入门
- java调用打印机打印
- codesmith mysql 模板_CodeSmith for MySQL template
- Android 隐藏虚拟按键
- Python还在原地踏步?今天女友程序员教你函数的定义与使用
热门文章
- java jxl读取xlsx_Java添加、读取Excel公式
- 学术诚信的重要性_关于学术诚信
- wince系统_汽车操作系统分类
- mybatis mysql 中文乱码_Mybatis + Mysql 插入数据时中文乱码问题
- Canvas绘图基本用法
- python绘制音频频谱_Python 读取wav画频谱
- php数组书写形式,php数组(array)输出的三种形式讲解
- linux java maven_Linux安装java环境和maven
- ddr4服务器内存和普通内存_国产DDR4内存上架,价格动心!
- 20190910:(leetcode习题)FizzBuzz