上一篇文章介绍了Solr的管理界面,使用这个管理界面我们我们可以方便的了解现在Solr的运行情况,也可以查看目前的系统是如何配置的,你甚至可以通过它做一些测试和调试,但是也仅止于此,系统的配置你还必须通过各种各样的配置文件。要使Solr可以处理我们自己的文档,第一步要做的就是配置Schema。

Schema是Solr业务逻辑的核心,一个文档包含哪些字段,字段是否被索引,如何索引,如何被查询都在Schema中定义。我们可以在Solr的conf目录下找到schema.xml这个文件,这个文件中就是Schema的定义。需要注意的是一个Solr的实例只能有一个Schema。Schema的定义很像是数据库中的一张表,你在表里面定义字段,比如text字段,数据类型是nvarchar这样。不同的是,在数据库里面,你只能使用系统预设的字段类型来定义字段,而在Solr的schema中你不但可以定义字段,而且还可以定义自己的字段类型,并且定义字段类型往往是最重要的。

我们可以浏览一下这个schema文件,在<types>节点中的所以内容都是字段定义,这些字段类型一块一块的被定义,在每一块的上边有很详细的定义。对于每行一个定义这样的简单字段类型基本上是Solr的基本数据类型,一般来说你不需要去修改它,这些字段的omitNorms attribute都是true,也就是说他们不会被用来分析,只用来存储数据。如果想要更快的范围查询,请考虑使用t前缀的字段类型。我们来看看下面的一段字段定义的配置:

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">

<analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>

</fieldType>

需要分析的字段类型一般是这样的,name指定了字段类型的名称,就像是数据库的nvarchar这样的名字一样。class指明这个类型对应的是什么的java数据类型,在字段定义中你可以定义分析器,分析器有两种,索引分析器和查询分析器,对于每个字段类型,你只能指定一个查询分析器和一个索引分析器。分析用来对字段的内容进行分词,过滤,转换等等,我们可以看到在分析器的节点内定义了一系列的处理步骤,这些步骤是有序的。从分析器的类型也就可以直观的了解到,索引分析器用于建立索引时,查询索引器用于查询时。如果字段类型仅指定了一个分析器,并且没有指定类型,说明索引和查询都使用这个分析器。

有了字段类型,我们就可以定义需要处理的文档的所具有的字段了。我们可以看到,在schema文件中本身已经定义了很多的字段,它们都位于<fields>节点内。这些字段是为例子数据文档准备的,如果你需要的处理文档足够简单并且本身是英文的,那么你甚至都不需要修改Schema文件,直接利用这些字段就可以了。当然只是偷懒的做法,如果用于练习是足够了,如果用于生产环境,还是把不需要的字段删掉吧。删除的时候注意,不要把dynamicField的内容删掉了,这些dynamicField是又特殊含义的,他们的名字都像name="*_i"一样有个"*_"的前缀。如果你不想在schema中定义这个字段又想存贮这个字段的值,那么在向Solr传地文档内容的时候,把字段名名为"_i"后缀,那么字段的值就会按<dynamicField name="*_i"  type="int"    indexed="true"  stored="true"/>定义的动态字段的属性来存储,同样的道理,查询也是一样的。在字段定义时,你可以指定几个attribute,那么当时是指字段的名字,type指定的是字段的类型,字段的类型当然指的就是前面定义的类型,这个类型决定了该字段的内容如何被索引和查询,indexed是个布尔值,指示该字段是否被索引,stored指示该字段的内容是否被存储,如果你的查询只是返回是否命中,并不返回字段的内容或者高亮内容中的某些部分的,可以将该属性的值设定为false,multiValued指示该字段是否存储多个值。

defaultSearchField用来指定,如果查询时没有指定字段名称时查询哪个字段的索引值。

solrQueryParser 指示如果查询中包含了两个term,并且没有指定逻辑运算符的时候我们默认用什么逻辑运算符,一般来说我们都会默认是OR。

上边就Schema的定义了, 后边我写Solr处理中文文档的时候,会稍微详细的再介绍一下这个部分,如果你处理的只是英文文档的话,类型基本不用修改了,只用定义自己需要的字段就可以了。

使用Solr构建企业级的全文检索(三)---------Schema定义相关推荐

  1. 精讲23种设计模式-基于责任链模式~构建企业级风控系统

    文章目录 一.责任链 1. 责任链基本概念 2. 定义 3. 关键要点 4. 责任链模式优缺点 5. 责任链模式类结构图 6. 网关权限控制责任链模式 二.构建企业级风控系统 2.1. 定义公共抽象任 ...

  2. 基于K8S构建企业级Jenkins CI/CD平台实战(三) 之 带你实战Spring boot/Cloud 项目 CI/CD jenkins自动化构建、部署过程

    需要环境 Git(GitLab) Harbor 私服 kubernetes-plugin 使用 Kubernetes jenkins 通过前面三篇我们已经了解了jenkins和 kubernetes- ...

  3. 【Nutch2.2.1基础教程之2.1】集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行【单机环境】...

    1.下载相关软件,并解压 版本号如下: (1)apache-nutch-2.2.1 (2) hbase-0.90.4 (3)solr-4.9.0 并解压至/usr/search 2.Nutch的配置 ...

  4. 使用solr构建hbase二级索引

    使用solr构建hbase二级索引 @(HBASE)[hbase, solr] 使用solr构建hbase二级索引 一概述 一业务场景描述 二技术方案 1技术方案一 2技术方案二 3关于索引的建议 二 ...

  5. 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】

    1.下载相关软件,并解压 版本号如下: (1)apache-nutch-2.3 (2) hadoop-1.2.1 (3)hbase-0.92.1 (4)solr-4.9.0 并解压至/opt/jedi ...

  6. 【Nutch2.2.1基础教程之2.2】集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析

    请先参见"集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行",搭建测试环境 http://blog.csdn.net/jediael_lu/article/deta ...

  7. 【Nutch2.2.1基础教程之2.1】集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行【单机环境】

    1.下载相关软件,并解压 版本号如下: (1)apache-nutch-2.2.1 (2) hbase-0.90.4 (3)solr-4.9.0 并解压至/usr/search 2.Nutch的配置 ...

  8. Flink X Hologres构建企业级Streaming Warehouse

    摘要:本文整理自阿里云资深技术专家,阿里云Hologres负责人姜伟华,在FFA实时湖仓专场的分享.点击查看>>本篇内容主要分为四个部分: 一.实时数仓分层的技术需求 二.阿里云一站式实时 ...

  9. 【赠书】如何构建企业级的推荐系统?这本书值得一看

    ‍‍ 不知道你有没有发现,我们所使用的APP,很多都比我们更懂自己: 打开新闻APP,会自动展现喜欢看的内容 打开音乐软件,推荐的都是我们想听的歌 打开淘宝,推送的都是想买的东西 这些都是推荐系统的功 ...

最新文章

  1. 数字电视接口(HDMI,DVI)
  2. 我的vim 配置——nerdtree、ack vim、vim sneak
  3. App.Config详解
  4. CVPR 2022|MLP才是无监督学习比监督学习迁移性能好的关键因素
  5. python每天一个小程序_Python 练习册,每天一个小程序----第0000题
  6. 【渝粤教育】电大中专电子商务网站建设与维护 (27)作业 题库
  7. Java解析JSON文件
  8. 残差网络(ResNet)
  9. 云服务器运行gpu程序很卡,请问怎样才使程序在GPU上运行?
  10. 既稳又狂!黑鲨游戏手机2官宣发布时间:3月18日北京见
  11. CSS综合征病例,ChurgStrauss 综合征 (css) 变应性嗜酸性肉芽肿课件
  12. 学习笔记(01):ThreeJS视频教程-了解着色器基础
  13. python 基础-----list查找重复值
  14. 信阳师范学院计算机老师,信阳师范学院计算机与信息技术学院导师教师师资介绍简介-郭华平...
  15. Spring Data 数据库建模最佳实践
  16. linux编译ace tao,ACE_TAO的编译
  17. 公职人员财产公开_知道您的财产:Web设计人员/开发人员的薪资指南[比较]
  18. 常用技巧精选(一)尺取法
  19. vSphere6.7备份工具的比较
  20. 墨者——WebShell文件上传漏洞分析溯源(第2题)

热门文章

  1. 放弃java转战kotlin,我的心路历程
  2. SQL学习之组合查询(UNION)
  3. 关于 AppDelegate 、UIApplication 简单的用法
  4. java 使用正则表达式从网页上提取网站标题
  5. linux Fedora搭建hadoop平台总结
  6. 【撸码师登云梯】google
  7. Fitnesse测试系列--如何设置SetUp文件
  8. 攀枝花市大数据中心落户东区
  9. 可用性追踪是虚拟化网络的关键
  10. .net C# 关于使用npoi导入excel 所遇到的问题PublicKeyToken=0df73ec7942b34e1