lucene索引合并与增量索引

利用 Lucene，在创建索引的工程中你可以充分利用机器的硬件资源来提高索引的效率。当你需要索引大量的文件时，你会注意到索引过程的瓶颈是在往磁盘上写索引文件的过程中。为了解决这个问题, Lucene 在内存中持有一块缓冲区。但我们如何控制 Lucene 的缓冲区呢？幸运的是，Lucene 的类 IndexWriter 提供了三个参数用来调整缓冲区的大小以及往磁盘上写索引文件的频率。

1．合并因子（mergeFactor）

这个参数决定了在 Lucene 的一个索引块中可以存放多少文档以及把磁盘上的索引块合并成一个大的索引块的频率。比如，如果合并因子的值是 10，那么当内存中的文档数达到 10 的时候所有的文档都必须写到磁盘上的一个新的索引块中。并且，如果磁盘上的索引块的隔数达到 10 的话，这 10 个索引块会被合并成一个新的索引块。这个参数的默认值是 10，如果需要索引的文档数非常多的话这个值将是非常不合适的。对批处理的索引来讲，为这个参数赋一个比较大的值会得到比较好的索引效果。

2．最小合并文档数

这个参数也会影响索引的性能。它决定了内存中的文档数至少达到多少才能将它们写回磁盘。这个参数的默认值是10，如果你有足够的内存，那么将这个值尽量设的比较大一些将会显著的提高索引性能。

3．最大合并文档数

这个参数决定了一个索引块中的最大的文档数。它的默认值是 Integer.MAX_VALUE，将这个参数设置为比较大的值可以提高索引效率和检索速度，由于该参数的默认值是整型的最大值，所以我们一般不需要改动这个参数。

     //indexDir is the directory that hosts Lucene's index files     File    indexDir = new File("C://luceneIndex");     Analyzer luceneAnalyzer = new StandardAnalyzer();     File[] textFiles   = fileDir.listFiles();     long startTime = new Date().getTime();

     int mergeFactor = 10;     int minMergeDocs = 10;     int maxMergeDocs = Integer.MAX_VALUE;     IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);              indexWriter.mergeFactor = mergeFactor;     indexWriter.minMergeDocs = minMergeDocs;     indexWriter.maxMergeDocs = maxMergeDocs;

     //Add documents to the index     for(int i = 0; i   > textFiles[i].getName().endsWith(".txt")){         Reader textReader = new FileReader(textFiles[i]);         Document document = new Document();         document.add(Field.Text("content",textReader));         document.add(Field.Keyword("path",textFiles[i].getPath()));         indexWriter.addDocument(document);       }     }

     indexWriter.optimize();     indexWriter.close();     long endTime = new Date().getTime();

     System.out.println("MergeFactor: " + indexWriter.mergeFactor);     System.out.println("MinMergeDocs: " + indexWriter.minMergeDocs);     System.out.println("MaxMergeDocs: " + indexWriter.maxMergeDocs);     System.out.println("Document number: " + textFiles.length);     System.out.println("Time consumed: " + (endTime - startTime) + " milliseconds");   }}

判断索引目录的segments文件是否存在，
如果存在，用增量索引
否则，重新创建索引

如果是重新创建索引
    只需要遍历需要索引的内容，然后新增文档

如果是增量索引
    判断主Key[文件名(包含全路径)]在索引中是否存在
        如果存在
            判断[文件的修改时间]，是否和索引中保存的[修改时间]一致
            如果不一致
                删除旧的索引中的该索引项目
                新增对该文档的索引
       否则
            新增该文档的索引缺点，不能发现已经删除的文件，当然是认为的去某个目录删除该文件。
      如果是程序的话当然是可以的，只需要把索引中的项目删除。

lucene索引合并与增量索引相关推荐

索引合并和组合索引的比较
在教务系统补考子系统的开发过程中,安排考场的算法运算时间非常慢,需要32秒才能完成考场的分配.查找原因,由于需要在学生补考科目表里面进行查找数据--该表的数据目前已达200万条,所以算法的大部分时间都 ...
coreseek实时索引更新之增量索引
coreseek实时索引更新有两种选择: 1.使用基于磁盘的索引,手动分区,然后定期重建较小的分区(被称为"增量").通过尽可能的减小重建部分的大小,可以将平均索引滞后时间降低到3 ...
Coreseek:部门查询和增量索引代替实时索引
1.行业调查索引系统需要通过主查询来获取所有的文档信息,一个简单的实现是整个表的数据到内存,但是这可能会导致整个表被锁定,并且使其它操作被阻止(例如:在MyISAM格款式上INSERT操作).同时, ...
《DBNotes:single_table访问方法、MRR多范围读取优化、索引合并》
目录 single_table访问方法 const ref ref_or_null range index all MRR多范围读取优化索引合并 intersection union sort-un ...
Elasticsearch7.15.2 mysql8.0.26 logstash-input-jdbc 数据增量索引构建
文章目录一.基础软件安装 1. 安装mysql 2. Elasticsearch7.15.2 安装部署 3. kibana 安装部署 4. logstash-input-jdbc 安装部署二.数据 ...
mysql 索引合并_MySQL 索引合并（Index Merge）优化
本文问题什么是Index Merge?Index Merge的限制有哪些? 如何查看语句是否使用了Index Merger? Index Merge有哪几种?分别适用于那些情景? 如何控制优化器是否 ...
mysql 查询优化非索引_mysql 查询优化和索引使用心得
-- sql优化案例 -- 1.not in 用left join on 替换 -- 2.like '%XXX%' 用 like 'XXX%' 替换 -- 3.limit 优化实用,在分页中 EXP ...
Solr与MongoDB集成，实时增量索引[转]
http://www.123905.com/ 一. 概述大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务. 另外一点,用Solr索引数据后,可以把数据用在不同的项目当中 ...
搜索引擎Lucene（2）：索引文件结构及格式
1.索引总体结构 1.1.索引层次结构 Lucene的索引结构主要分以下几个层次: 索引结构.png 索引(Index): 在Lucene中一个索引是放在一个文件夹中的.同一文件夹中的所有的文件构成一 ...

lucene索引合并与增量索引

lucene索引合并与增量索引相关推荐

最新文章

热门文章