默认情况下,Elasticsearch 用 JSON 字符串来表示文档主体保存在 _source 字段中。像其他保存的字段一样,_source 字段也会在写入硬盘前压缩。The _source is stored as a binary blob (which is compressed by Lucene with deflate or LZ4) 其实就是多个_source合并到一个chunk里进行LZ4压缩!

对于Solr来说:Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的。为了提升压缩比,StoredFieldsFormat以16KB为单位对文档进行压缩,使用的压缩算法是LZ4,由于它更着眼于速度而不是压缩比,所以它能快速压缩以及解压。

fdx/fdt文件的格式。

具体参考Lucene41StoredFieldsFormat.html (见Lucene4.2.0的docs)

fdt文件结构:

上图理解起来也不难,<Header>和PackedIntsVersion略过,我们重点关注<Chunk>,Chunk的中文意思是”大块”,我们可以理解为数据的存储区域。在内存中表现为缓存。一个Chunk由5个部分组成:DocBase表示当前的Chunk块的起始DocId;ChunkDocs表示当前Chunk中的doc个数;DocFieldCounts是一个数组,表示每个doc中Field的个数;DocLengths也是一个数组,表示每个doc占用byte的个数,即doc的长度;<CompressedDocs>即doc的内容,用LZ4算法压缩存储。FieldNumAndType是把FieldNumber和FieldType合并到一个VLong字段里面,整个<CompressedDocs>就是FieldNumAndType和Value的交替序列。

fdx文件结构:

fdx文件重点关注的是<Block>,一个Block由三个部分组成:BlockChunks表示当前Block中Chunk的个数;<DocBases>表示当前Block中每个Chunk的doc个数,可以看作一个数组;<StartPointers>表示当前Block中每个Chunk在fdt文件中的起始位置,其结构与<DocBases>相同。

尽管fdx/fdt文件只是Lucene的正向文件,并不是Lucene的核心。但是还是有干货的。在Lucene4中引入了LZ4算法对fdt的doc进行了实时压缩/解压。而且用SPI(Service Provider Interface)技术对架构进行了重构。

1.3    fdx/fdt文件的写入。

fdx/fdt文件的写入操作非常清晰。逻辑上都在CompressingStoredFieldsWriter类中完成,而CompressingStoredFieldsIndexWriter则作为其成员变量。其写入的顺序与上面的格式一致,只是有些名字不一样。在写入docs的过程中,用GrowableByteArrayDataOutput作为缓存,直到缓存满了,才flush到硬盘上去。用LZ4算法压缩就是在flush时处理的。(关于LZ4算法会在另外的博文中描述)

fdt文件的写入:

fdt文件的基本单位是Chunk,这一点需要牢记。一个Chunk写入到文件中的代码如下:

通过观察flush函数,我们会发现fdt文件的写入非常简单,就两句代码:

前面一句代码记录整个chunk中的docBase(最小docID),numBufferedDocs(doc数量),numStoredFields(每个doc的Field个数),lengths(每个doc的长度),一共四种信息.在记录numStoredFields和lengths时,用PackedInts及其它的方式对内容进行了压缩。后面一句代码记录整个chunk中的doc的完整内容(用LZ4算法进行压缩).

转载于:https://www.cnblogs.com/bonelee/p/7724285.html

lucene LZ4 会将doc存储在一个chunk里进行Lz4压缩 ES的_source便如此相关推荐

  1. 【Elasticsearch】Lucene 中的 Stored Fields 存储优化 自定义 存储类型 序列化 方式

    1.概述 转载:Lucene 中的 Stored Fields 存储优化 1 背景 Qunar 酒店的搜索和 suggest 是基于 Lucene 构建的,在我们的使用场景中,由于召回和排序是作为两个 ...

  2. 那么都数据库表,那么多不同记录。是怎样都存储在一个key-value数据库的?

    那么都数据库表,那么多不同记录.是怎样都存储在一个key-value数据库的? :设置不同的键值而已!不同的表,选出统一的key规范 jedis.sadd("tom:friend:list& ...

  3. Java黑皮书课后题第8章:**8.4(计算每个雇员每周工作的小时数)假定所有雇员每周工作的小时数存储在一个二维数组中。1行包含7列,记录了一个雇员7天的工作小时数。编写一个程序,按照总工时降序显示

    **8.4(计算每个雇员每周工作的小时数)假定所有雇员每周工作的小时数存储在一个二维数组中.1行包含7列,记录了一个雇员7天的工作小时数.编写一个程序,按照总工时降序显示 题目 题目描述 破题 代码 ...

  4. python输入一组数字存到列表_Python如何使用输入传递多个值并将它们存储在一个列表中(简单版本),python,怎么,input,传入,储存,到...

    Python如何使用输入传递多个值并将它们存储在一个列表中(简单版本),python,怎么,input,传入,储存,到 发表时间:2020-08-20 当传入多个值时,需要使用split()函数来切割 ...

  5. 编写一个学生类 student,包含的属性有学号、姓名年龄,将所有学生存储在一个数组中

    编写一个学生类 student,包含的属性有学号.姓名年龄,将所有学生存储在一个数组中,自拟数据,用数组的初始化方法给数组赋值,并实现如下操作: ①将所有学生年龄增加一岁 ②按数组中顺序显示所有学生信 ...

  6. python把数字逐一存入列表_python实现将range()函数生成的数字存储在一个列表中...

    说明 同学的代码中遇到一个数学公式牵扯到将生成指定的数字存储的一个列表中,那个熊孩子忽然懵逼的不会啦,,,给了博主一个表现的机会,,,哈哈哈好嘛,虽然很简单但还是记录一下吧,,,嘿嘿 一 代码 # c ...

  7. python将一些朋友的姓名存储在一个列表中,访问该列表中的每个元素,从而将每个朋友的姓名都打印出来...

    1 """ 2 3-1 姓名: 将一些朋友的姓名存储在一个列表中,并将其命名为 names . 3 依次访问该列表中的每个元素,从而将每个朋友的姓名都打印出来. 4 &q ...

  8. 《c primer pius》第六章第14题,发现网上好多都有问题,编写一个程序读入一行输入,然后反向打印该行,您可以把输入存储在一个char数组中

    编写一个程序读入一行输入,然后反向打印该行,您可以把输入存储在一个char数组中: 假定该行不超过255个字符.回忆一下,您可以使用具有%c说明符的scanf()从输入中一次 读入一个字符,而且当您按 ...

  9. 编写一个程序,用户使用for循环输入5个数字,所有这些数字将存储在一个数组中。之后,程序将添加这五个数字并显示结果。程序必须支持运算符重载的概念。

    Write a program in which users enter 5 numbers using for loop and all these numbers will store in an ...

最新文章

  1. 所引用的程序集没有强命名解决方法
  2. 软件工程——理论、方法与实践 第六章
  3. 用Python实现-----按要求修改文件名
  4. 解决 web.xml is missing and failOnMissingWebXml is set to true 报错
  5. Android设计模式之——状态模式
  6. win7系统怎么更改语言及字体
  7. Java —— eclipse.zip
  8. javascript的数据检测总结
  9. 信息系统项目管理重点:供应链管理(SCM)
  10. 第三方登录之QQ登录(一)——QQ互联开放平台新建应用
  11. 微信小程序各种弹窗操作
  12. 微信官方发红包DEMO
  13. 难以置信,已经有人用 ChatGPT 做 Excel 报表了?
  14. ffmpeg 多视频 画中画
  15. Python绝技第一章 入门 python3实现密码破解
  16. 全国计算机二级考试报名入口河南,计算机等级考试报名入口河南(英语四级报名官网入口)...
  17. Wepy 引入 WeUI
  18. pn532写入手机nfc_NFC的PN532 读写命令格式
  19. Go程序当父进程被kill,子进程也自动退出的问题记录
  20. AWD 线下攻防生存之道(Web 方向)

热门文章

  1. 数据源架构模式之表数据入口
  2. Selenium3自动化测试——8.定位一组元素
  3. html渐变不兼容,CSS3实现文字渐变效果,兼容性最强系列!
  4. 中科院aibench_中科院发布目标追踪数据集,万条视频,150万个边界框 | 快来下载...
  5. 新装oracle如何启动服务,Oracle数据库新装之后出现的监听程序无法正常启动和运行(Oracle-12514)问题...
  6. 皖西学院微型计算机原理期末试卷,皖西学院 电气微机原理试卷A
  7. yii框架的下拉框多选,设置默认值等(dropDownList)
  8. 【深夜思考】转行学java找不到工作
  9. python基础练习(八)
  10. vue 关闭log_vue或react项目生产环境去掉console.log的操作