Elasticsearch的索引模块（正排索引、倒排索引、索引分析模块Analyzer、索引和搜索、停用词、中文分词器）...

正向索引的结构如下：

“文档1”的ID > 单词1：出现次数，出现位置列表；单词2：出现次数，出现位置列表；…………。

“文档2”的ID > 此文档出现的关键词列表。

　　一般是通过key，去找value。

当用户在主页上搜索关键词“华为手机”时，假设只存在正向索引（forward index），那么就需要扫描索引库中的所有文档，找出所有包含关键词“华为手机”的文档，再根据打分模型进行打分，排出名次后呈现给用户。因为互联网上收录在搜索引擎中的文档的数目是个天文数字，这样的索引结构根本无法满足实时返回排名结果的要求。

所以，搜索引擎会将正向索引重新构建为倒排索引，即把文件ID对应到关键词的映射转换为关键词到文件ID的映射，每个关键词都对应着一系列的文件，这些文件中都出现这个关键词。

得到倒排索引的结构如下：

“关键词1”：“文档1”的ID，“文档2”的ID，…………。

“关键词2”：带有此关键词的文档ID列表。

　　从词的关键字，去找文档。

　　官网

https://www.elastic.co/guide/en/elasticsearch/reference/5.x/analysis.html

　　官网，提供了很多很多。大家自行去看！

索引分析模块Analyzer

　　分解器Tokenizer

　　词元过滤器token filters

　　经过 Tokenizer

　　大家，有兴趣，可以看看，英文停用词

http://www.ranks.nl/stopwords

　　　　大家，有兴趣，可以看看，中文停用词

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/7127495.html，如需转载请自行联系原作者

Elasticsearch的索引模块（正排索引、倒排索引、索引分析模块Analyzer、索引和搜索、停用词、中文分词器）...相关推荐

elasticsearch中文分词器ik-analyzer安装
前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了, ...
ElasticSearch 中的中文分词器以及索引基本操作详解
文章目录 1.ElasticSearch 分词器介绍 1.1 内置分词器 1.2 中文分词器 1.2.1 安装 1.2.2 测试 1.2.3 自定义扩展词库 1.2.3.1 本地自定义 1.2.3.2 ...
elasticsearch倒排索引原理与中文分词器
1. 索引的方式: 1.1 正向索引正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档. 这种组织方法在建立索引的时候结构 ...
ElasticSearch基础2之倒排索引原理和中文分词器es-ik
正向索引与倒排索引正向索引正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档. 这种组织方法 ...
学习 ES 的笔记、全文检索、倒排索引、Lucene、ik中文分词器、Kibana使用Dev Tools
文章目录感悟新接触的单词知识点一:ES是什么? 知识点二:ES基本概念知识点三:1.1 什么是全文检索和Lucene? 知识点四:1.2 什么是倒排索引,Lucene实现全文检索的流程是怎样? ...
ElasticSearch 中的中文分词器该怎么玩？_03
内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es.查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流. 过滤:比如停用词过滤器会从词 ...
Elasticsearch 7.X 中文分词器 ik 使用，及词库的动态扩展
一.ik中文分词器上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我 ...
Elasticsearch：IK 中文分词器
Elasticsearch 内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze {"text": "我爱北京天安门&quo ...
Elasticsearch：hanlp 中文分词器
HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/Ke ...
ElasticSearch 安装中文分词器
1.安装中文分词器IK 下载地址:https://github.com/medcl/elasticsearch-analysis-ik 在线下载安装: elasticsearch-plugin.bat ...

Elasticsearch的索引模块（正排索引、倒排索引、索引分析模块Analyzer、索引和搜索、停用词、中文分词器）...

Elasticsearch的索引模块（正排索引、倒排索引、索引分析模块Analyzer、索引和搜索、停用词、中文分词器）...相关推荐

最新文章

热门文章