转自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html

上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。

4.1. 正向信息

Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)

上面的层次结构不是十分的准确,因为segments.gen和segments_N保存的是段(segment)的元数据信息(metadata),其实是每个Index一个的,而段的真正的数据信息,是保存在域(Field)和词(Term)中的。

4.1.1. 段的元数据信息(segments_N)

一个索引(Index)可以同时存在多个segments_N(至于如何存在多个segments_N,在描述完详细信息之后会举例说明),然而当我们要打开一个索引的时候,我们必须要选择一个来打开,那如何选择哪个segments_N呢?

Lucene采取以下过程:

  • 其一,在所有的segments_N中选择N最大的一个。基本逻辑参照SegmentInfos.getCurrentSegmentGeneration(File[] files),其基本思路就是在所有以segments开头,并且不是segments.gen的文件中,选择N最大的一个作为genA。
  • 其二,打开segments.gen,其中保存了当前的N值。其格式如下,读出版本号(Version),然后再读出两个N,如果两者相等,则作为genB。

  • IndexInput genInput = directory.openInput(IndexFileNames.SEGMENTS_GEN);//"segments.gen" 
    int version = genInput.readInt();//读出版本号 
    if (version == FORMAT_LOCKLESS) {//如果版本号正确 
        long gen0 = genInput.readLong();//读出第一个N 
        long gen1 = genInput.readLong();//读出第二个N 
        if (gen0 == gen1) {//如果两者相等则为genB 
            genB = gen0; 
        } 
    }

  • 其三,在上述得到的genA和genB中选择最大的那个作为当前的N,方才打开segments_N文件。其基本逻辑如下:

    if (genA > genB) 
        gen = genA; 
    else 
        gen = genB;

如下图是segments_N的具体格式:

  • Format:

    • 索引文件格式的版本号。
    • 由于Lucene是在不断开发过程中的,因而不同版本的Lucene,其索引文件格式也不尽相同,于是规定一个版本号。
    • Lucene 2.1此值-3,Lucene 2.9时,此值为-9。
    • 当用某个版本号的IndexReader读取另一个版本号生成的索引的时候,会因为此值不同而报错。
  • Version:
    • 索引的版本号,记录了IndexWriter将修改提交到索引文件中的次数。
    • 其初始值大多数情况下从索引文件里面读出,仅仅在索引开始创建的时候,被赋予当前的时间,已取得一个唯一值。
    • 其值改变在IndexWriter.commit->IndexWriter.startCommit->SegmentInfos.prepareCommit->SegmentInfos.write->writeLong(++version)
    • 其初始值之所最初取一个时间,是因为我们并不关心IndexWriter将修改提交到索引的具体次数,而更关心到底哪个是最新的。IndexReader中常比较自己的version和索引文件中的version是否相同来判断此IndexReader被打开后,还有没有被IndexWriter更新。

//在DirectoryReader中有一下函数。

public boolean isCurrent() throws CorruptIndexException, IOException { 
  return SegmentInfos.readCurrentVersion(directory) == segmentInfos.getVersion(); 
}

  • NameCount

    • 是下一个新段(Segment)的段名。
    • 所有属于同一个段的索引文件都以段名作为文件名,一般为_0.xxx, _0.yyy,  _1.xxx, _1.yyy ……
    • 新生成的段的段名一般为原有最大段名加一。
    • 如同的索引,NameCount读出来是2,说明新的段为_2.xxx, _2.yyy

  • SegCount

    • 段(Segment)的个数。
    • 如上图,此值为2。
  • SegCount个段的元数据信息:
    • SegName

      • 段名,所有属于同一个段的文件都有以段名作为文件名。
      • 如上图,第一个段的段名为"_0",第二个段的段名为"_1"
    • SegSize
      • 此段中包含的文档数
      • 然而此文档数是包括已经删除,又没有optimize的文档的,因为在optimize之前,Lucene的段中包含了所有被索引过的文档,而被删除的文档是保存在.del文件中的,在搜索的过程中,是先从段中读到了被删除的文档,然后再用.del中的标志,将这篇文档过滤掉。
      • 如下的代码形成了上图的索引,可以看出索引了两篇文档形成了_0段,然后又删除了其中一篇,形成了_0_1.del,又索引了两篇文档形成_1段,然后又删除了其中一篇,形成_1_1.del。因而在两个段中,此值都是2。

IndexWriter writer = new IndexWriter(FSDirectory.open(INDEX_DIR), new StandardAnalyzer(Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.LIMITED); 
writer.setUseCompoundFile(false); 
indexDocs(writer, docDir);//docDir中只有两篇文档

//文档一为:Students should be allowed to go out with their friends, but not allowed to drink beer.

//文档二为:My friend Jerry went to school to see his students but found them drunk which is not allowed.

writer.commit();//提交两篇文档,形成_0段。

writer.deleteDocuments(new Term("contents", "school"));//删除文档二 
writer.commit();//提交删除,形成_0_1.del 
indexDocs(writer, docDir);//再次索引两篇文档,Lucene不能判别文档与文档的不同,因而算两篇新的文档。 
writer.commit();//提交两篇文档,形成_1段 
writer.deleteDocuments(new Term("contents", "school"));//删除第二次添加的文档二 
writer.close();//提交删除,形成_1_1.del

DelGen

  • .del文件的版本号
  • Lucene中,在optimize之前,删除的文档是保存在.del文件中的。
  • 在Lucene 2.9中,文档删除有以下几种方式:
    • IndexReader.deleteDocument(int docID)是用IndexReader按文档号删除。
    • IndexReader.deleteDocuments(Term term)是用IndexReader删除包含此词(Term)的文档。
    • IndexWriter.deleteDocuments(Term term)是用IndexWriter删除包含此词(Term)的文档。
    • IndexWriter.deleteDocuments(Term[] terms)是用IndexWriter删除包含这些词(Term)的文档。
    • IndexWriter.deleteDocuments(Query query)是用IndexWriter删除能满足此查询(Query)的文档。
    • IndexWriter.deleteDocuments(Query[] queries)是用IndexWriter删除能满足这些查询(Query)的文档。

转载于:https://www.cnblogs.com/bonelee/p/6393959.html

lucene正向索引——正向信息,Index – Segments (segments.gen, segments_N) – Field(fnm, fdx, fdt) – Term (tvx, ...相关推荐

  1. Lucene学习总结之三:Lucene的索引文件格式(1)

    Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...

  2. Lucene学习总结之三:Lucene的索引文件格式(2)

    2019独角兽企业重金招聘Python工程师标准>>> 四.具体格式 上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向 ...

  3. ElasticSearch——倒排索引和正向索引

    ElasticSearch--倒排索引和正向索引 1.正向索引 正向索引 (forward index) 以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出 ...

  4. lucene正向索引(续)——每次commit会形成一个新的段,段_1的域和词向量信息可能存在_0.fdt和_0.fdx”中...

    DocStoreOffset DocStoreSegment DocStoreIsCompoundFile 对于域(Stored Field)和词向量(Term Vector)的存储可以有不同的方式, ...

  5. 全文检索与ElasticSearch(一)——ES概述,正向索引与倒排索引,B+树,简单命令,Mapping

    ElasticSearch概述 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful接口.它可以近乎实时的存储.检索数据:本身扩 ...

  6. Elasticsearch索引检控之Indices Segments API与Indices Shard Stores

    本文将继续介绍elasticsearch索引监控之Indices segments与Indices Shard stores api. 1.Indices Segments 提供Lucene索引(分片 ...

  7. lucene反向索引——倒排表无论是文档号及词频,还是位置信息,都是以跳跃表的结构存在的...

    转自:http://www.cnblogs.com/forfuture1978/archive/2010/02/02/1661436.html 4.2. 反向信息 反向信息是索引文件的核心,也即反向索 ...

  8. python正向索引 反向索引_理解正向索引

    倒排索引也叫做反向索引(inverted单词也有反转的意思,只不过大家喜欢翻译成倒排索引). 倒排索引在搜索引擎中经常用到,倒排索引也叫做反向索引.某天在想,为什么叫做倒排索引呢?倒过来的,反转过来的 ...

  9. Lucene随笔-Lucene的索引文件格式

    Lucene 6.5.1 建立一个Lucene示例 数据写入 public class Writer {private static final String PATH = ""; ...

最新文章

  1. 关于springboot vue前后端分离项目部署到阿里云轻量服务器(前后端分开部署)
  2. 2020年信息系统项目管理师真题讲解:基础知识3/3
  3. 最小栈—leetcode155
  4. java时间日期工具类_java日期处理工具类
  5. CentOS离线安装gcc环境(附安装包+图文并茂)
  6. 5, Data Augmentation
  7. 【python】r+,w+ 全局变量
  8. android thermal 机制,一种系统过热保护机制的实现方法及系统与流程
  9. 【NVMe2.0b 10】Controller Shutdown 与 NVM Subsystem Shutdown
  10. EMLOG模板山河网站主题分享
  11. 基音周期 检测 matlab,语音信号基音周期检测的matlab程序
  12. 电脑连接热点无internet访问权限_电脑连接无线网,显示无网络访问权限
  13. 2021-2022下沉市场研究报告合集(共46份)
  14. 《富豪谷底求生》纪录片记录
  15. VR用到教育上了?90后怎么就没有赶上呢!
  16. C++ string类模板
  17. 聊城大学计算机科学导论期末考试,09101计算机导论试卷a(含答案
  18. 又出事了?网站被攻击了?高中生?
  19. 教师们注意了,微课制作一条龙,这7款神器你必须知道
  20. 电脑炸了,浪费我好几天时间,还是简要记下来吧

热门文章

  1. Linux strace 跟踪进程信息
  2. java文件分割合并_java实现文件分割与合并 类示例源码
  3. linux yum 安装mysql_Linux下使用yum安装MySQL
  4. mysql盲注_二十八、MySQL盲注
  5. c#获取父类_C#——父类中的this的指向,及用反射获取当前类所在的Type | 学步园...
  6. gnome mysql client_configure: error: Not found mysqlclient library
  7. mysql的count()函数如何选择索引,千万级表的count()查询优化实例
  8. git fetch -p 获取远程仓库的新分支以及删除远程仓库已删除的分支
  9. java数组长度怎么看,威力加强版
  10. 【深度学习】医学图像分割多标签损失函数和极坐标变换