solr版本6.1、centos6.7、mmesg4j版本2.30

solr安装目录:/usr/local/solr-6.1.0

1、下载mmesg4j包:

地址:https://github.com/chenlb/mmseg4j-solr

2、解压/复制mmseg4j-core-1.10.0.jar、mmseg4j-solr-2.3.0.jar 到/usr/local/solr-6.1.0/dist目录下

3、编辑solrconfig.xml文件增加如下代码并保存

<lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-core-1.10.0.jar" /><lib dir="${solr.install.dir:../../../..}/dist/" regex="mmseg4j-solr-2.3.0.jar" />

4、编辑managed-schema文件底部增加如下代码并保存

<fieldtype name="mmseg4jComplex" class="solr.TextField" positionIncrementGap="100"><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex"  dicPath="/usr/local/solr-6.1.0/dict" /></analyzer></fieldtype><fieldtype name="mmseg4jMaxWord" class="solr.TextField" positionIncrementGap="100"><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"  dicPath="/usr/local/solr-6.1.0/dict"  /></analyzer></fieldtype><fieldtype name="mmseg4jSimple" class="solr.TextField" positionIncrementGap="100"><analyzer><tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple"  dicPath="/usr/local/solr-6.1.0/dict" /></analyzer></fieldtype>

5、修改相应索引字段为以上fieldtype,例如

<field name="goods_name" type="<span style="color:#ff0000;">mmseg4jMaxWord</span>" indexed="true" stored="true" required="true" multiValued="false" />

6、重启服务

/usr/local/solr-6.1.0/bin/solr restart

7、查看分词效果

转载于:https://www.cnblogs.com/liuensong/p/10140341.html

solr学习笔记-增加mmesg4J中文分词相关推荐

  1. 中文词性标注学习笔记(二)---分词

    词性标注(二) 分词 词的概念 分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注.句法分析.词向量以及文本分析的质量.英文语句使用空格将单词进行分隔,除了某些特定词,如how many,N ...

  2. 【Unity学习笔记】[Unity中文课堂教程] C#中级编程代码

    [Unity学习笔记][Unity中文课堂教程] C#中级编程代码 最近想补一补C#基础,Unity官方的C#中级编程教程质量很高,于是开个帖子把跟着敲+记录了部分价讲解和我自己的理解的代码存在这 原 ...

  3. NLP学习(二)中文分词技术

    运行平台: Windows Python版本: Python3.x IDE: PyCharm 一. 前言 这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位.分词技术是词性标注.命名实体识别.关 ...

  4. NLP学习(二)—中文分词技术

    本次代码的环境: 运行平台: Windows Python版本: Python3.x IDE: PyCharm 一.    前言 这篇内容主要是讲解的中文分词,词是一个完整语义的最小单位.分词技术是词 ...

  5. 【全】在 Docker 的Solr容器中安装 IK 中文分词器

    [原创文章,转载请标明出处] 这些坑我已经帮你踩过了: 现在大家能够在网上(需要禾斗学上网)下载的IK分词器版本已经非常老了,而Solr更新还是非常快的,所以会出现版本不兼容的问题,不然即使成功装上了 ...

  6. Go语学习笔记 - 增加时间工具 | Web框架Gin(五)

    学习笔记,写到哪是哪. 接着上一篇的文章:Go语学习笔记 - 跨域配置.全局异常捕获 | Web框架Gin(四)_剑客阿良_ALiang的博客-CSDN博客_gin全局异常捕获 在上一篇中已经将一些基 ...

  7. 搜索引擎学习(四)中文分词器

    一.简介 分词原理 Reader读取数据流 数据经过第一个分词器将大写转换小写 数据经过第二个分词器根据空格分割成一个一个的单词 数据经过第三个分词器把标点符号,介词等剔除 经过三次过滤,生成若干语汇 ...

  8. (转)全文检索技术学习(三)——Lucene支持中文分词

    http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程 如下图是语汇单元的生成过程:    从一个 ...

  9. 【相机标准】我的cameralink协议学习笔记(个人中文翻译,以及理解)

    创作时间:2020-11-17 根据附件的原英文版cameralink协议,总结学习. 目录: 第一章 简介 第二章 信号需求 .第三章 端口分配 第四章 bit分配 第五章 连接器 附录A 芯片组标 ...

最新文章

  1. redis-rdb-tool 工具介绍
  2. getResources()方法
  3. 如何使得WIN7下用VS2010做出的MFC程序具有XP风格(摆脱传统界面的效果)
  4. 聊聊JVM(九)理解进入safepoint时如何让Java线程全部阻塞
  5. antlr idea 入门_ANTLR:入门
  6. 工作290:重置新增的mode
  7. IdentityServer4
  8. javascript document cookie
  9. java 表达式写法_java内置核心4大函数式接口写法和lambda表达式
  10. leetcode python3 简单题13. Roman to Integer
  11. Lumia 800 7.10.8783.12
  12. java中限制多人登录的_Spring Boot + Spring Security 防止用户在多处同时登录(一个用户同时只能登录一次)及源码分析...
  13. 【渝粤教育】电大中专Office办公软件 (3)作业 题库
  14. 浅谈集群、分布式、微服务的异同
  15. java JSONObject JSONArray对象使用小记
  16. 数论入门符号_大o符号快速入门
  17. java调用打印机打印
  18. codesmith mysql 模板_CodeSmith for MySQL template
  19. Android 隐藏虚拟按键
  20. Python还在原地踏步?今天女友程序员教你函数的定义与使用

热门文章

  1. java jxl读取xlsx_Java添加、读取Excel公式
  2. 学术诚信的重要性_关于学术诚信
  3. wince系统_汽车操作系统分类
  4. mybatis mysql 中文乱码_Mybatis + Mysql 插入数据时中文乱码问题
  5. Canvas绘图基本用法
  6. python绘制音频频谱_Python 读取wav画频谱
  7. php数组书写形式,php数组(array)输出的三种形式讲解
  8. linux java maven_Linux安装java环境和maven
  9. ddr4服务器内存和普通内存_国产DDR4内存上架,价格动心!
  10. 20190910:(leetcode习题)FizzBuzz