1. 索引过程:

  1) 有一系列被索引文件

  2) 被索引文件经过语法分析和语言处理形成一系列词(Term)。

  3) 经过索引创建形成词典和反向索引表。

  4) 通过索引存储将索引写入硬盘。

2. 搜索过程:

  1) 用户输入查询语句。

  2) 对查询语句经过语法分析和语言分析得到一系列词(Term)。

  3) 通过语法分析得到一个查询树。

  4) 通过索引存储将索引读入到内存。

  5) 利用查询树搜索索引,从而得到每个词(Term)的文档链表,对文档链表进行交,差,并得到结果文档。

   将搜索到的结果文档对查询的相关性进行排序。

  6) 返回查询结果给用户。

转载于:https://www.cnblogs.com/user001/p/11209626.html

Lucene全文检索过程相关推荐

  1. 2021年大数据ELK(三):Lucene全文检索库介绍

    全网最详细的大数据ELK文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 一.什么是全文检索 1.结构化数据与非结构化数据 2.搜索结构化 ...

  2. Lucene全文检索

    目录结构:  1.全文检索  2.Lucene入门  3.Lucene进阶 全文检索 一, 生活中的搜索: 1.Windows系统中的有搜索功能:打开"我的电脑",按"F ...

  3. Lucene全文检索_分词_复杂搜索_中文分词器

    1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search)  1.1.1 定义 全文检索就是先分词创建索引,再执行搜索的过 ...

  4. lucene配置动态域_学位论文查重中如何使用Lucene全文检索

    本系统用的是Lucene全文检索架构,Lucene作为一个全文检索引擎框架,在构建机制上有众多明显的优点:首先,它可以对任何可以转化成文本格式的数据进行索引的创建,而学术论文包含的doc.PDF和CA ...

  5. Solr or Lucene全文检索实现原理

    Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口.用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引:也可以通过Http Get操 ...

  6. Lucene—全文检索工具包

    一.Lucene简介 Lucene是Apache Jakarta家族中的⼀个开源项目,是⼀个开放源代码的全文检索引擎工具包,但它不是⼀个 完整的 全文检索引擎,而是⼀个全文检索引擎的架构,提供了完整的 ...

  7. Lucene学习总结之七:Lucene搜索过程解析

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

  8. 个人博客系统开发总结之 lucene全文检索

    博客系统前台提供搜索功能,希望不仅仅是通过文章标题.摘要来模糊搜索,而是可以跟文章内容进行匹配.由于文章内容在数据库中使用blob字段存储,无法使用数据库进行模糊查询.于是决定采用Lucene全文检索 ...

  9. Lucene全文检索(一)

    全文检索的概念 1.从大量的信息中快速.准确的查找要的信息 2.收索的内容是文本信息 3.不是根据语句的意思进行处理的(不处理语义) 4.全面.快速.准确是衡量全文检索系统的关键指标. 5.搜索时英文 ...

最新文章

  1. 13个JavaScript图表图形绘制插件
  2. 车企纷抢无人驾驶赛道,中国智能汽车确定将立法
  3. Django - 分页器
  4. android 点击edittext全选,Android - 阻止edittext复制/粘贴,然后双击全选
  5. RequestWindowFeature
  6. 数据结构-线性表之循环队列
  7. c++ 对象起始地址 指针靠齐_Go的内存对齐和指针运算详解和实践
  8. 第14天:逻辑运算符、if、for语句
  9. CentOS 7.2 rpm 安装 Mysql 5.7
  10. mysql engine类型 小项目_项目中常用的19条MySQL优化
  11. android 模拟器测试之旅
  12. 独自封装windows 10系统详细教程(三)
  13. leetcode6.Z 字形转换
  14. ODT,ZQ校准,OCT,TDQS
  15. 怎么判断两个多项式互素_多项式互素性质的补充讨论
  16. 右键计算机管理打开记事本,右键菜单怎么加入“用记事本方式打开”
  17. Windows下的gotoxy 函数
  18. “+智能”时代 华为如何引领中国制造走向“智”变?
  19. IEC61850笔记--IEC61850应用入门(一)
  20. 《世界上最远的距离》 泰戈尔

热门文章

  1. 方法 | 机器学习(深度学习)通用工作流程
  2. Bash Shell学习笔记一
  3. 未能加载文件或程序集Microsoft.VisualStudio.Web.PageInspector.Loader
  4. 监督学习无监督学习_无监督学习简介
  5. python 数据科学书籍_您必须在2020年阅读的数据科学书籍
  6. React 新特性 Hooks 讲解及实例(四)
  7. 2018年广东年销售额超千亿的企业有哪些?
  8. 信用卡多还钱了怎么办?
  9. 简单深入两个虚拟内存API VirtualAlloc及VritualCopy
  10. python中timedelta_Python – 使用时间戳,timedelta的日期和时间比较