首先介绍一下solr:

Apache Solr (读音: SOLer) 是一个开源、高性能、采用Java开发、基于Lucene的全文搜索服务器,文档通过Http利用XML加到一个搜索集合中,查询该集合也是通过 http收到一个XML/JSON响应来实现。Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成,每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性,默认情况下这个属性的名字是 id,在 Schema 配置文件(schema.xml)中使用:<uniqueKey>id</uniqueKey>进行描述。solr有两个核心文件,solrconfig.xml和schema.xml。solrconfig.xml是solr的基础文件,里面配置了各种web请求处理器、请求响应处理器、日志、缓存等;schema.xml配置映射了各种数据类型的索引方案,分词器的配置、索引文档中包含的字段也在此配置。

工作中主要用来分词和搜索,简单的工作原理是:利用分词器对数据源进行分词处理,然后根据分词结果建立索引库;查询的时候,利用分词器对查询语句进行分词,根据查询语句分词的结果在索引库中进行匹配,最后返回结果。

废话少说,下面开始solr之旅吧:

一.安装JDK和Tomcat

(1):安装jdk 下载jdk安装包,解压到jdk-1.x目录

(2):安装tomcat,下载tomcat安装包,解压到apache-tomcat目录下

修改tomcat安装目录下的conf目录的server.xml

找到<Connector port="8080" .../>,加入URIEncoding="UTF-8",为了支持中文。

设置Java和tomcat环境变量

上面两步比较简单,这里就只简单描述一下,不明白的可以网上查资料。

二. 安装solr

下载solr包,http://labs.renren.com/apache-mirror/lucene/solr/3.5.0/apache-solr-3.5.0.zip

解压缩到apache-solr目录,把apache-solr/dist目录下的apache-solr-3.5.0.war 复制到$TOMCAT_HOME/webapps目录下,重命名为solr.war

复制apache-solr/example/solr到tomcat根目录下(如果你想配置多core(实例),就复制apache-solr /example/multicore到tomcat根目录下,不用复制solr了),作为solr/home,以后也可以往该目录添加 core,每个core下面都可以有自己的配置文件。

在apache-tomcat/conf/Catalina/localhost/下创建solr.xml(跟webapps下的solr项目同名),指定solr.war和solr/home的位置,让tomcat启动时就自动加载该应用。

solr.xml内容如下:

<?xml version="1.0" encoding="UTF-8"?>

<Context docBase="/home/zhoujh/java/apache-tomcat7/webapps/solr.war" debug="0" crossContext="true" >

<Environment name="solr/home" type="java.lang.String" value="/home/zhoujh/java/apache-tomcat7/solr" override="true" />

</Context>

然后在tomcat的bin目录下执行./startup.sh,启动tomcat

在地址栏访问http://localhost:8080/solr/

将会出现solr欢迎界面和admin入口

注:如果出现org.apache.solr.common.SolrException: Error loading class 'solr.VelocityResponseWriter' 异常,最简单的解决方法:找到$TOMCAT_HOME/solr/conf/solrconfig.xml,把<queryResponseWriter name="velocity" class="solr.VelocityResponseWriter" enable="${solr.velocity.enabled:true}"/>注释掉或者enable:false即可。如果一切顺利的话,现在可以看到solr的web管理界面了。不过要想实现分词的功能,得安装一个中文分词器,这里推荐IKAnalyzer或mmseg4j。

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力,采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用。支持用户词典扩展定。

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

三. 配置中文分词器

下面分别安装这两个中文分词器,当然选择安装其中一个也是可以的。

(1)安装IKAnalyzer

下载地址:http://code.google.com/p/ik-analyzer/downloads/list

在当前目录下新建IKAnalyzer目录,解压到该目录下:unzip IKAnalyzer2012_u5.zip -d ./IKAnalyzer

把IKAnalyzer目录下的IKAnalyzer2012.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml,编辑$TOMCAT_HOME/solr/conf/schema.xml,在文件中添加下面这个fieldtype

注:下面的代码中多了很多“<span style="font-size: x-small;">”标签,这个是设置字体时iteye编辑器自己生成的。

 1 <span style="font-size: x-small;"><span style="font-size: x-small;"><span style="font-size: small;"><fieldType name="text" class="solr.TextField" positionIncrementGap="100">
 2         <analyzer type="index">
 3             <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" />
 4             <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
 5             <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
 6             <filter class="solr.LowerCaseFilterFactory" />
 7             <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
 8             <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
 9         </analyzer>
10         <analyzer type="query">
11             <tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true" />
12             <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
13             <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
14             <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />
15             <filter class="solr.LowerCaseFilterFactory" />
16             <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
17             <filter class="solr.RemoveDuplicatesTokenFilterFactory" />
18         </analyzer>
19     </fieldType></span></span></span>

添加一个索引字段field,并应用上面配置的fieldtype

1 <field name="game_name" type="text" indexed="true" stored="true" required="true" />

然后找到这一句:<defaultSearchField>text</defaultSearchField>把它改成<defaultSearchField>game_name</defaultSearchField>

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp,就可以进行分词处理了。

IKAnalyzer添加自定义分词词典:词典文件格式为无BOM的UTF-8编码的文本文件,文件扩展名不限,一次可以添加多个词库,每个词库以";"分开。把IKAnalyzer 目录下的IKAnalyzer.cfg.xml和stopword.dic拷贝到$TOMCAT_HOME/webapps/solr/WEB_INF /classes目录下,可以自己新建一个mydic.dic文件,然后在IKAnalyzer.cfg.xml里进行配置。

(2)安装mmseg4j

下载地址:http://code.google.com/p/mmseg4j/downloads/list

在当前目录下新建mmseg4j目录,解压到该目录下:unzip mmseg4j-1.8.5.zip -d ./mmseg4j

把mmseg4j目录下的mmseg4j-all-1.8.5.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml,编辑$TOMCAT_HOME/solr/conf/schema.xml,在文件中添加下面这个fieldtype

 1 <fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
 2         <analyzer>
 3             <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
 4             </tokenizer>
 5         </analyzer>
 6     </fieldtype>
 7     <fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
 8         <analyzer>
 9             <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
10             </tokenizer>
11         </analyzer>
12     </fieldtype>
13     <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
14         <analyzer>
15             <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
16             </tokenizer>
17         </analyzer>
18     </fieldtype>

注意:dicPath的值改成你自己机器上相应的目录。

然后修改之前添加的filed,让其使用mmseg4j分词器

1 <field name="game_name" type="textComplex" indexed="true" stored="true" required="true" />

配置mmseg4j分词词典:MMSEG4J的词库是可以动态加载的,词库的编码必须是UTF-8,mmseg4j 默认从当前目录下的 data 目录读取上面的文件,当然也可以指定别的目录,比如我就放在自定义的dict目录下。自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。如:/data/words-my.dic。

这里直接把mmseg4j/data目录下的所有.dic文件拷贝到$TOMCAT_HOME/solr/dict目录下。共有:4个dic文件,chars.dic、units.dic、 words.dic、 words-my.dic。下面简单解释一下这几个文件的作用。

1、chars.dic,是单个字,和对应的频率,一行一对,字在全面,频率在后面,中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。

2、units.dic,是单位的字,如:分、秒、年。

3、words.dic,是核心的词库文件,一行一条,不需要其它任何数据(如词长)。

4、words-my.dic,是自定义词库文件

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp,就可以看到分词效果了。

现在,这两种分词方法都已配置好了,想用哪种就把查询的filed的type设置成哪种。

转载于:https://www.cnblogs.com/SuperBing/archive/2013/01/30/2882827.html

solr学习笔记-linux下配置solr相关推荐

  1. mac 配置c语言环境,C语言学习笔记————–MAC下配置GTK+环境

    一.GTK+是什么 GTK+(GIMP Toolkit)是一套源码以LGPL许可协议分发.跨平台的图形工具包.最初是为GIMP写的,已成为一个功能强大.设计灵活的一个通用图形库,是GNU/Linux下 ...

  2. 嵌入式linux学习笔记--linux下基于imx6ullpro 的 CP2102 /CH340 驱动 以及简单的测试

    今天再次编译了linux 的内核,想起来之前一直没实现的嵌入式linux 的串口驱动,故想实验一下. 本文章会分别介绍CP2102 以及CH340两者的驱动 以及他们的简单的测试,后续可能会更新一个 ...

  3. 学习笔记----linux下编译samba

    linux下编译samba   一.samba的启动命令:        #cd /usr/local/samba/sbin        #smbd     关闭samba可以杀死smbd进程   ...

  4. Linux学习笔记-Linux下的设备文件

    在Linux下,有一种文件的类型叫设备文件. 在/dev目录下的文件基本上都是设备文件,文件属性以c或b打头(charactor, block) 设备文件用于代表一个物理设备 例如,声卡.显卡.键盘. ...

  5. Linux学习笔记-Linux下读写文件

    在Linux编程需要读写文件时,有两种方式: (1)ANSIC: 使用stdio.h里的函数.fopen, fclose, fwrite, fread (2)Linux API:Linux提供了另外一 ...

  6. git学习笔记——Linux和Windows下git的基本操作

    git学习笔记--Linux和Windows下git的基本操作 github主页:https://github.com/Taot-chen 一.Linux环境 1.安装git sudo apt-get ...

  7. LINUX学习笔记1 网卡配置(网络适配器安装失败问题解决)

    LINUX学习笔记1 网卡配置(网络适配器安装失败问题解决) 概述 每一次选修课总会碰到一堆问题,我真的是幸运得很.这次是LINUX服务器管理这门课,最开始安装虚拟机一切正常(用的是VMware安装u ...

  8. 多路径配置udev_学习笔记:Linux多路径配置 multipath实现设备用户组绑定详细设置...

    天萃荷净 Linux多路径软件配置,通过multipath实现设备用户组绑定详细设置 现在的Linux系统中,很多都会使用系统自带的multipath多路径软件,在以前的版本中,我们一般通过multi ...

  9. openCV2学习笔记---1.环境配置

    openCV2学习笔记-1.环境配置 openCV 是开源的计算机视觉代码库,可以运行在Linux.Windows和Mac OS操作系统上.它轻量级而且高效--由一系列 C 函数和少量 C++ 类构成 ...

  10. 51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程(高俊峰)

    51CTO学习笔记--Linux运维故障排查思路与系统调优技巧视频课程 第一课 Linux运维经验分享与思路 1.一般把主机名,写到hosts下    127.0.0.1    hostname,因为 ...

最新文章

  1. 皮一皮:这才是书法的最高境界...
  2. 【物联网智能网关-03】GPRS模块中文短信收发
  3. MKL学习——数学运算库安装调试
  4. javase 的一些基础常用类
  5. 嵌入式linux sd卡读写,嵌入式Linux之我行——S3C2440上MMC/SD卡驱动实例开发讲解(二)...
  6. curring函数,以及高阶函数
  7. 还是原来的配方和味道!《英雄联盟》手游界面再曝光...
  8. 【报告分享】人才流动与迁徙报告2021:新经济,新选择-脉脉.pdf(附下载链接)...
  9. 外文文献怎么找?5个免费图书馆和网站帮你下载90%的外文文献!
  10. 什么是p12证书?ios p12证书怎么获取?
  11. CSI Report中关于codebook/PMI的理解(2)
  12. 6120c手机使用教程大全!
  13. appium学习总结5 - 操作设备
  14. 关于Autosar中的NM模块的理解
  15. 做网站需要用到哪些开发软件——心得分享
  16. Sun Java System Message Queue - Packet acknowledge failed after failover
  17. Ubuntu18.04新手架设网站全过程
  18. 智慧能源发展方向、应用趋势
  19. tomcat调优之启动参数
  20. 报表数据填报中的合法性校验

热门文章

  1. Hive 使用SQL统计出每个用户的累积访问次数
  2. Hive依据key获取value
  3. nginx负载均衡算法
  4. Linux mkdir 与 mkdir -p 的区别
  5. 什么是服务的熔断降级
  6. 窄带物联网技术有望终结碎片化现状
  7. 第三个Sprint冲刺第十天
  8. 使用Eclipse构建Maven项目 (step-by-step) (转收藏)
  9. httpd2.4.9主配置文件参数详解
  10. with grant option 与with admin option的区别