我们平时看到的文件,其本质上是有词组成的,我们可以看做是词的集合,当我们把相同的词就可以看做是一个词的向量了。

这里的tvx tvd tvf 就是以这种形式表示doc的:

tvx : doc的数量,以及每个doc 在 tvd 以及 tvf 中开始的位置。

tvd : 每个doc的域信息: 有多少个域,具体是那几个域,每个域向量在tvf文件中的位置,

tvf  : 每个doc 的每域的 向量集合 ,向量集合中的每个元素就是一个 term:  term文本,次数,位置等信息

这三者之间的关系,我们还是引用告诉的总结:

http://blog.csdn.net/forfuture1978/archive/2009/12/10/4976793.aspx

我们最后来看看源代码

public final void addAllDocVectors(TermFreqVector[] vectors) throws IOException { //该doc 信息在tvd, tvf 中的位置 tvx.writeLong(tvd.getFilePointer()); tvx.writeLong(tvf.getFilePointer()); if (vectors != null) { final int numFields = vectors.length; //字段的个数 tvd.writeVInt(numFields); //因为tvd 中所有字段的 fieldnum 放一起,所有字段在tvf开始位置也放一起,所有遍历的时候,先保留在这里,最后一起写入文件 long[] fieldPointers = new long[numFields]; //处理每个字段 for (int i=0; i<numFields; i++) { fieldPointers[i] = tvf.getFilePointer(); final int fieldNumber = fieldInfos.fieldNumber(vectors[i].getField()); // 写字段的序号 // 1st pass: write field numbers to tvd tvd.writeVInt(fieldNumber); //一个字段有多少个term final int numTerms = vectors[i].size(); tvf.writeVInt(numTerms); final TermPositionVector tpVector; final byte bits; final boolean storePositions; final boolean storeOffsets; //字段的一些bit位 if (vectors[i] instanceof TermPositionVector) { // May have positions & offsets tpVector = (TermPositionVector) vectors[i]; storePositions = tpVector.size() > 0 && tpVector.getTermPositions(0) != null; storeOffsets = tpVector.size() > 0 && tpVector.getOffsets(0) != null; bits = (byte) ((storePositions ? TermVectorsReader.STORE_POSITIONS_WITH_TERMVECTOR : 0) + (storeOffsets ? TermVectorsReader.STORE_OFFSET_WITH_TERMVECTOR : 0)); } else { tpVector = null; bits = 0; storePositions = false; storeOffsets = false; } tvf.writeVInt(bits); final String[] terms = vectors[i].getTerms(); final int[] freqs = vectors[i].getTermFrequencies(); int utf8Upto = 0; utf8Results[1].length = 0; //一个字段的所有term for (int j=0; j<numTerms; j++) { UnicodeUtil.UTF16toUTF8(terms[j], 0, terms[j].length(), utf8Results[utf8Upto]); //采用前缀压缩 int start = StringHelper.bytesDifference(utf8Results[1-utf8Upto].result, utf8Results[1-utf8Upto].length, utf8Results[utf8Upto].result, utf8Results[utf8Upto].length); int length = utf8Results[utf8Upto].length - start; tvf.writeVInt(start); // write shared prefix length tvf.writeVInt(length); // write delta length tvf.writeBytes(utf8Results[utf8Upto].result, start, length); // write delta bytes utf8Upto = 1-utf8Upto; final int termFreq = freqs[j]; tvf.writeVInt(termFreq); if (storePositions) { final int[] positions = tpVector.getTermPositions(j); if (positions == null) throw new IllegalStateException("Trying to write positions that are null!"); assert positions.length == termFreq; // use delta encoding for positions int lastPosition = 0; for(int k=0;k<positions.length;k++) { final int position = positions[k]; tvf.writeVInt(position-lastPosition); lastPosition = position; } } if (storeOffsets) { final TermVectorOffsetInfo[] offsets = tpVector.getOffsets(j); if (offsets == null) throw new IllegalStateException("Trying to write offsets that are null!"); assert offsets.length == termFreq; // use delta encoding for offsets int lastEndOffset = 0; for(int k=0;k<offsets.length;k++) { final int startOffset = offsets[k].getStartOffset(); final int endOffset = offsets[k].getEndOffset(); tvf.writeVInt(startOffset-lastEndOffset); tvf.writeVInt(endOffset-startOffset); lastEndOffset = endOffset; } } } } //写每个字段在tvf 中的位置,第一个已经在tvx文件中有了,所以这里不用写 // 2nd pass: write field pointers to tvd if (numFields > 1) { long lastFieldPointer = fieldPointers[0]; for (int i=1; i<numFields; i++) { final long fieldPointer = fieldPointers[i]; tvd.writeVLong(fieldPointer-lastFieldPointer); lastFieldPointer = fieldPointer; } } } else tvd.writeVInt(0); }

1  首先在tvx 文件中写入  tvd 和tvf  开始的位置

2   在tvd中写入当前doc的字段的个数,然后遍历所有的字段,在tvd 中,写入每个字段的term 数目,已经每个term 具体信息在tvf中的位置, 最后写tvf信息,遍历每隔term ,写入每个term 信息。

lucene tvx tvd tvf 文件相关推荐

  1. 【lucene】Lucene Tika 操作各种文件

    1.概述 2.tika打开doc文档 public String fileToTxt(File f) {Parser parser

  2. 看Lucene源码必须知道的基本概念

    终于有时间总结点Lucene,虽然是大周末的,已经感觉是对自己的奖励,毕竟只是喜欢,现在的工作中用不到的.自己看源码比较快,看英文原著的技术书也很快.都和语言有很大关系.虽然咱的技术不敢说是部门第一的 ...

  3. lucene正向索引——正向信息,Index – Segments (segments.gen, segments_N) – Field(fnm, fdx, fdt) – Term (tvx, ...

    转自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html 上面曾经交代过,Lucene保存了从Index到Segm ...

  4. Lucene学习总结之七:Lucene搜索过程解析

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

  5. Lucene学习总结之四:Lucene索引过程分析

    对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

  6. Lucene学习总结之三:Lucene的索引文件格式(1)

    Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...

  7. Lucene学习总结之三:Lucene的索引文件格式(2)

    2019独角兽企业重金招聘Python工程师标准>>> 四.具体格式 上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向 ...

  8. Lucene 4.X 全套教程

    http://www.cnblogs.com/forfuture1978/category/300665.html Lucene 4.X 倒排索引原理与实现: (3) Term Dictionary和 ...

  9. 餐中餐(5)Lucene--存储文件加载(Part 1: Segments加载)

    note: 代码版本:Lucene 最新版本 --> https://github.com/apache/lucene 文章目录 Graph Abstract: 1. Index –> S ...

最新文章

  1. invalid use of incomplete type ‘class B‘
  2. python三大神器之生成器
  3. Android绘制自定义控件,Android自定义控件绘制基本图形基础入门
  4. 文件管理的艺术之SVN从零搭建
  5. 【面试招聘】社招如何拿到心仪公司的offer
  6. css渲染(一) 字体
  7. 趣学java,编程趣学习app
  8. SAP License:COPA特性值转换
  9. [文章摘录] Is Cloud Computing Really Ready for Prime Time (Computer, 2009)
  10. Stata数据处理:清洗中国城市建设统计年鉴
  11. weblogic安装及部署
  12. 威纶通与三菱PLC条码枪解码程序 本程序是威纶通触摸屏USB接头直接插条形码扫码枪
  13. Ping其他电脑ping不通的解决方法
  14. Ruby ERB模板注入检测
  15. 团队管理之亮剑精神(转)
  16. 32位浮点数转十进制
  17. Stimulsoft 报表工具单元格内换行
  18. 如何将 bn.bing.com 重定向至 www.bing.com
  19. 华中科技大学计算机专业排名2018,2018华中科技大学专业排名及分数线 王牌专业有哪些...
  20. 一文读懂CRNN+CTC文字识别

热门文章

  1. 大规模网络攻击致美国网站集体宕机 “维基解密”吁支持者停止复仇
  2. 腾讯视频cKey9.1的生成分析和实现
  3. 单片机c语言中tr=0的意思,单片机C语言#define RS_CLR RS=0 什么意思?
  4. 一个80年小子的创业道理,和所有准备创业或者正在创业的兄弟们共享
  5. Python中的Decimal
  6. 【菜鸡读论文】Former-DFER: Dynamic Facial Expression Recognition Transformer
  7. tmail.exe 各项命令参数
  8. IP-guard内网安全解决方案
  9. 通过海康SDK预览获取回调的PS流数据自己解析然后前端播放
  10. 怎么把视频里的音乐提取成音频?