正向索引的结构如下:

“文档1”的ID > 单词1:出现次数,出现位置列表;单词2:出现次数,出现位置列表;…………。

“文档2”的ID > 此文档出现的关键词列表。

  一般是通过key,去找value。

 当用户在主页上搜索关键词“华为手机”时,假设只存在正向索引(forward index),那么就需要扫描索引库中的所有文档,找出所有包含关键词“华为手机”的文档,再根据打分模型进行打分,排出名次后呈现给用户。因为互联网上收录在搜索引擎中的文档的数目是个天文数字,这样的索引结构根本无法满足实时返回排名结果的要求。

所以,搜索引擎会将正向索引重新构建为倒排索引,即把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。

得到倒排索引的结构如下:

“关键词1”:“文档1”的ID,“文档2”的ID,…………。

“关键词2”:带有此关键词的文档ID列表。

  从词的关键字,去找文档。

  官网

https://www.elastic.co/guide/en/elasticsearch/reference/5.x/analysis.html

  

  官网,提供了很多很多。大家自行去看!

        

索引分析模块Analyzer

  分解器Tokenizer

  词元过滤器token filters

  经过 Tokenizer

  大家,有兴趣,可以看看,英文停用词

http://www.ranks.nl/stopwords

  

    大家,有兴趣,可以看看,中文停用词

本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/7127495.html,如需转载请自行联系原作者

Elasticsearch的索引模块(正排索引、倒排索引、索引分析模块Analyzer、索引和搜索、停用词、中文分词器)...相关推荐

  1. elasticsearch中文分词器ik-analyzer安装

    前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了, ...

  2. ElasticSearch 中的中文分词器以及索引基本操作详解

    文章目录 1.ElasticSearch 分词器介绍 1.1 内置分词器 1.2 中文分词器 1.2.1 安装 1.2.2 测试 1.2.3 自定义扩展词库 1.2.3.1 本地自定义 1.2.3.2 ...

  3. elasticsearch倒排索引原理与中文分词器

    1. 索引的方式: 1.1 正向索引 正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档. 这种组织方法在建立索引的时候结构 ...

  4. ElasticSearch基础2之倒排索引原理和中文分词器es-ik

    正向索引与倒排索引 正向索引        正排表是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档.        这种组织方法 ...

  5. 学习 ES 的笔记、全文检索、倒排索引、Lucene、ik中文分词器、Kibana使用Dev Tools

    文章目录 感悟 新接触的单词 知识点一:ES是什么? 知识点二:ES基本概念 知识点三:1.1 什么是全文检索和Lucene? 知识点四:1.2 什么是倒排索引,Lucene实现全文检索的流程是怎样? ...

  6. ElasticSearch 中的中文分词器该怎么玩?_03

    内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es.查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流. 过滤:比如停用词过滤器会从词 ...

  7. Elasticsearch 7.X 中文分词器 ik 使用,及词库的动态扩展

    一.ik中文分词器 上篇文章我们学习了ES集群分片和水平扩容,前面再使用的时候应该就会发现,在做match 匹配时,默认会进行分词,但当查询内容是中文时,分词效果是一个字被认定了一个词,这显然不符合我 ...

  8. Elasticsearch:IK 中文分词器

    Elasticsearch 内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze {"text": "我爱北京天安门&quo ...

  9. Elasticsearch:hanlp 中文分词器

    HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/Ke ...

  10. ElasticSearch 安装中文分词器

    1.安装中文分词器IK 下载地址:https://github.com/medcl/elasticsearch-analysis-ik 在线下载安装: elasticsearch-plugin.bat ...

最新文章

  1. 麻省理工学院的牛人解说数学体系,你到哪个层次了?
  2. C#方法中参数ref和out的解析
  3. 深度学习新星:GAN的基本原理、应用和走向 | 硬创公开课
  4. Spring整合junit4实现对方法的测试
  5. 二十个你必须知道的SEO概念
  6. 使用dup2实现重定向到屏幕终端遇到问题
  7. qt中实现绘制图形与截图
  8. 操作行内样式-对象语法//操作行内样式-数组语法
  9. CentOS7下Nginx 安装 Lua 支持
  10. java 随机抽取_java随机抽取指定范围不重复的数字
  11. 索引超出矩阵维度怎么修改程序_seo关键词优化工具怎么收费
  12. python自动提交网页表单_Python 自动化表单提交实例代码
  13. 矢量信号发生器与射频信号发生器的区别是什么?
  14. 傅盛认知三部曲之三:战略就是格局+破局
  15. 《繁荣的真相》读书笔记
  16. 国家标准中常出入的IDT、MOD、EQV、NEQ是啥意思
  17. 2020.8.5丨细菌基因组二代测序组装流程梳理
  18. 工业相机 镜头 焦距 视野 计算相关
  19. 传统零售和新零售的本质区别
  20. mysql数据库登录认证_MySQL数据库的用户认证系统

热门文章

  1. Atitit 面向对象弊端与问题 坏处 缺点
  2. atitit.seo 发帖关键词以及链接的制作.doc
  3. paip.提升性能---- 网站并发数的总结.txt
  4. paip.JS的调试--DOM元素的属性与事件绑定
  5. (转)《精通比特币》原码分析: pow机制
  6. (转)神秘的比特币地址详解
  7. 【回归预测】基于matlab灰狼算法优化ELMAN神经网络回归预测【含Matlab源码 1782期】
  8. 【语音加密】基于matlab GUI语音信号加密解密(带面板)【含Matlab源码 181期】
  9. 【数字信号调制】基于matlab GUI数字信号调制系统【含Matlab源码 258期】
  10. 【语音增强】基于matlab匹配滤波器语音识别【含Matlab源码 514期】