在索引(Indexing)阶段,当某个域被设置为需要记录词向量(term vector)信息后,那么随后在flush阶段,该域对应的词向量将被写入到索引文件.tvd&&tvx&&tvm三个文件中。

图1:

  图1中,域名"content"跟"title"都被设置为需要记录词向量信息,而域名"author"则没有。

数据结构

索引文件.tvd

图2:

PackedIntsVersion

  PackedIntsVersion描述了压缩使用的方式,当前版本中是VERSION_MONOTONIC_WITHOUT_ZIGZAG。

Chunk

图3:

  在索引阶段,每当处理128篇文档或者已经处理的域值的总长度达到4096,就生成一个chunk。

DocBase

  该字段描述的是chunk中第一篇文档的文档号。

ChunkDocs

  该字段描述的是Chunk中的文档数量。

NumFields

  该字段描述的是Chunk中每篇文档中记录词向量的域的数量。例如图1中只有一篇文档,这篇文档中的就包含了2个记录词向量的域。

  根据Chunk中包含的文档数量,NumFields字段的数据结构各不相同

Chunk中只包含一篇文档

图4:

  如果图1所示,那么NumFields的值为2,并且不会使用压缩存储

Chunk中包含多篇文档

图5:

  当包含多篇文档,那么需要记录每一篇文档中记录词向量的域的数量,然后使用PackedInts存储

FieldNums

  该字段描述的是Chunk中记录词向量的域的种类,根据域的编号来获得域的种类。

看这里:https://www.amazingkoala.com.cn/Lucene/suoyinwenjian/2020/1117/178.html

Lucene 索引文件之tvdtvxtvm相关推荐

  1. Lucene 索引文件的读取(十四)之fdxfdtfdm

    在前几篇索引文件的读取的系列文章中,我们介绍索引文件tim&&tip的读取时机点时说到,在生成StandardDirectoryReader对象期间,会生成SegmentReader对 ...

  2. Lucene 索引文件的生成(二十三)之fdxfdtfdm

    从本篇文章开始介绍用于描述存储域(存储域的概念见文章索引文件之fdx&&fdt&&fdm)的索引文件.fdx..fdt..fdm的生成过程,直接给出流程图: 图1:   ...

  3. Lucene 索引文件的读取(十五)之fdxfdtfdm

    本文承接文章索引文件的读取(十四)之fdx&&fdt&&fdm,继续介绍剩余的内容.为了更好的理解下文中的内容,建议先阅读文章DirectMonotonicWriter ...

  4. Lucene 索引文件的合并(三)之fdxfdtfdm

    本文承接文章索引文件的合并(二)之fdx&&fdt&&fdm,继续介绍剩余的内容,下面先给出索引文件fdx&&fdt&&fdm的合并流程 ...

  5. Lucene 索引文件的载入(一)之fdxfdtfdm

    在文章SegmentReader(一)中,我们介绍了SegmentReader对象,它用于描述一个段中的索引信息,并且说到SegmentReader对象中包含了一个SegmentCoreReaders ...

  6. Lucene 索引文件的生成(二十五)之kddkdikdm

    在系列文章索引文件的生成(Lucene 7.5.0)中,我们介绍了存储维度(见文章Bkd-Tree)值大于等于2的数值类型对应的索引文件的生成过程.对于维度值等于1的情况,其生成过程有少许的不同.为了 ...

  7. Lucene 索引文件的合并(四)之kddkdikdm

    本篇文章开始介绍索引文件kdd&kdi&kdm的合并,由于维度值为1和维度值大于等于2的点数据对应的索引文件的合并方式有较大的差异,故我们分开介绍.本篇文章先对维度值为1的情况展开介绍 ...

  8. Lucene 索引文件之kddkdikdm

    从Lucene8.6.0开始,用于存储点数据(point value)的索引文件由原先的两个索引文件dim&&dii,改为三个索引文件kdd&kdi&kdm.由于生成k ...

  9. Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引

    Luke 5 发布,可视化 Lucene 索引查看工具  oschina 发布于2015年08月31日  这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch ...

最新文章

  1. java reference_java中的4种reference的差别和使用场景(含理论、代码和执行结果)...
  2. MySql: 常见错误
  3. Kubernetes CRD开发汇总
  4. post install error,please remove node_moules before retry
  5. Blockchain Meeting supporting papers
  6. 三维重建:Kinect几何映射-SDK景深数据处理
  7. ​软件推荐:17 款必备Chrome浏览器插件,值得一试!
  8. excel批量删除公式保留数据_Excel实用tips(17) – 批量删除隐藏的工作表
  9. 对于公司来说,企业内训是否真的有必要?
  10. tomcat下多个app 不同的图标_iOS平台设计规范(五)图标与图片
  11. nginx 在ubuntu 上的启动,停止,重启
  12. 两台主机经过路由器传送数据的网络原理
  13. debian apt-get php,Debian系统apt-get命令整理
  14. ActiveMQ学习笔记之异常
  15. 计算机拼音字体大小设置,拼音字体
  16. oracle asm文件查找,Oracle ASM 文件管理
  17. 网络爬虫相关软件以及论文检索与推荐网站调研
  18. java多线程并发测试工具_【漫画】JAVA并发编程之并发模拟工具
  19. 对booth算法的一点理解
  20. kernel编译错误R_ARM_THM_JUMP19

热门文章

  1. OpenGL3.3透视矩阵原理计算
  2. 行摄无疆——李元大师谈风光摄影圆满结束
  3. 浅谈Springcloud中的几个主流熔断器
  4. 简单打印-80pos小票模板
  5. 浅谈Linux PCI设备驱动(二)
  6. 【分类汇总】idea快捷键、idea配置、常用插件
  7. 如何留住优秀的测试人员
  8. 关于 四舍六入五成双/四舍六入五留双/四舍六入五单双 等口诀的实例研究
  9. 使用GitHub Pages+Hexo 搭建个人网站详细教程
  10. 【效能工具】记录常用效能工具