Lucene 索引文件之tvdtvxtvm
在索引(Indexing)阶段,当某个域被设置为需要记录词向量(term vector)信息后,那么随后在flush阶段,该域对应的词向量将被写入到索引文件.tvd&&tvx&&tvm三个文件中。
图1:
图1中,域名"content"跟"title"都被设置为需要记录词向量信息,而域名"author"则没有。
数据结构
索引文件.tvd
图2:
PackedIntsVersion
PackedIntsVersion描述了压缩使用的方式,当前版本中是VERSION_MONOTONIC_WITHOUT_ZIGZAG。
Chunk
图3:
在索引阶段,每当处理128篇文档或者已经处理的域值的总长度达到4096,就生成一个chunk。
DocBase
该字段描述的是chunk中第一篇文档的文档号。
ChunkDocs
该字段描述的是Chunk中的文档数量。
NumFields
该字段描述的是Chunk中每篇文档中记录词向量的域的数量。例如图1中只有一篇文档,这篇文档中的就包含了2个记录词向量的域。
根据Chunk中包含的文档数量,NumFields字段的数据结构各不相同
Chunk中只包含一篇文档
图4:
如果图1所示,那么NumFields的值为2,并且不会使用压缩存储。
Chunk中包含多篇文档
图5:
当包含多篇文档,那么需要记录每一篇文档中记录词向量的域的数量,然后使用PackedInts存储。
FieldNums
该字段描述的是Chunk中记录词向量的域的种类,根据域的编号来获得域的种类。
看这里:https://www.amazingkoala.com.cn/Lucene/suoyinwenjian/2020/1117/178.html
Lucene 索引文件之tvdtvxtvm相关推荐
- Lucene 索引文件的读取(十四)之fdxfdtfdm
在前几篇索引文件的读取的系列文章中,我们介绍索引文件tim&&tip的读取时机点时说到,在生成StandardDirectoryReader对象期间,会生成SegmentReader对 ...
- Lucene 索引文件的生成(二十三)之fdxfdtfdm
从本篇文章开始介绍用于描述存储域(存储域的概念见文章索引文件之fdx&&fdt&&fdm)的索引文件.fdx..fdt..fdm的生成过程,直接给出流程图: 图1: ...
- Lucene 索引文件的读取(十五)之fdxfdtfdm
本文承接文章索引文件的读取(十四)之fdx&&fdt&&fdm,继续介绍剩余的内容.为了更好的理解下文中的内容,建议先阅读文章DirectMonotonicWriter ...
- Lucene 索引文件的合并(三)之fdxfdtfdm
本文承接文章索引文件的合并(二)之fdx&&fdt&&fdm,继续介绍剩余的内容,下面先给出索引文件fdx&&fdt&&fdm的合并流程 ...
- Lucene 索引文件的载入(一)之fdxfdtfdm
在文章SegmentReader(一)中,我们介绍了SegmentReader对象,它用于描述一个段中的索引信息,并且说到SegmentReader对象中包含了一个SegmentCoreReaders ...
- Lucene 索引文件的生成(二十五)之kddkdikdm
在系列文章索引文件的生成(Lucene 7.5.0)中,我们介绍了存储维度(见文章Bkd-Tree)值大于等于2的数值类型对应的索引文件的生成过程.对于维度值等于1的情况,其生成过程有少许的不同.为了 ...
- Lucene 索引文件的合并(四)之kddkdikdm
本篇文章开始介绍索引文件kdd&kdi&kdm的合并,由于维度值为1和维度值大于等于2的点数据对应的索引文件的合并方式有较大的差异,故我们分开介绍.本篇文章先对维度值为1的情况展开介绍 ...
- Lucene 索引文件之kddkdikdm
从Lucene8.6.0开始,用于存储点数据(point value)的索引文件由原先的两个索引文件dim&&dii,改为三个索引文件kdd&kdi&kdm.由于生成k ...
- Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引
Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch ...
最新文章
- java reference_java中的4种reference的差别和使用场景(含理论、代码和执行结果)...
- MySql: 常见错误
- Kubernetes CRD开发汇总
- post install error,please remove node_moules before retry
- Blockchain Meeting supporting papers
- 三维重建:Kinect几何映射-SDK景深数据处理
- ​软件推荐:17 款必备Chrome浏览器插件,值得一试!
- excel批量删除公式保留数据_Excel实用tips(17) – 批量删除隐藏的工作表
- 对于公司来说,企业内训是否真的有必要?
- tomcat下多个app 不同的图标_iOS平台设计规范(五)图标与图片
- nginx 在ubuntu 上的启动,停止,重启
- 两台主机经过路由器传送数据的网络原理
- debian apt-get php,Debian系统apt-get命令整理
- ActiveMQ学习笔记之异常
- 计算机拼音字体大小设置,拼音字体
- oracle asm文件查找,Oracle ASM 文件管理
- 网络爬虫相关软件以及论文检索与推荐网站调研
- java多线程并发测试工具_【漫画】JAVA并发编程之并发模拟工具
- 对booth算法的一点理解
- kernel编译错误R_ARM_THM_JUMP19