翻译《Designing Data-Intensive Applications》
作者:Martin Kleppmann
译者:雨钓(有增改)

一、Storage And Retrieval

一个数据库最基本的要具有两个功能:当你给它一些数据的时候它可以帮你存储数据,之后当你需要这些数据时,他可以返回给你所需要的数据。

你(应用程序开发人员)向数据库提供固定格式的数据,稍后你就可以再次请求获取这些数据。 在本章中,我们将从数据库的角度讨论以下问题:数据库如何存储我们所给出的数据,以及当我们需要这些数据时,我们如何再次从数据库里找到它,即数据库内部是如何存储和检索数据的。

你可能会问,为什么作为一个应用开发人员需要关心数据库的存储和内部检索实现?毕竟我们基本不可能从头开始去实现自己的数据存储引擎,因为已经用众多可以直接使用的方案。此外针对事务性工作负载进行优化的存储引擎和为分析型工作负载进行优化的存储引擎之间存在很大的差别。

首先我们将从这一章开始讨论存储引擎,这些存储引擎可能在你熟悉的各种数据库中使用:传统的关系数据库,以及大多数所谓的No SQL数据库。我们将主要介绍这两个家族的存储引擎。

二、Data Structures That Power Your Database

一个最简单的存储引擎的实现如下:

#!/bin/bash
db_set () {echo "$1,$2" >> database
}
db_get () {grep "^$1," database | sed -e "s/^$1,//" | tail -n 1
}

这两个函数实现一个键值存储。您可以调用db_set key,它将在数据库中存储key和value。key和value可以是(几乎)任何你想要的东西——例如,value可以是一个JSON文档。之后你可以调用db_get key,查找与该特定key关联的最新值并返回它。

底层存储格式非常简单:一个文本文件,其中每一行都包含了一个key-value对,用逗号分隔(大致像CSV文件一样)。每个对db_set的调用都会将数据追加到文件的末尾,因此,如果你更新了一个key,那么这个key的旧版本不会被覆盖——你需要查看该文件中这个key所对应的所有历史value值,并找到最新的value。

我们的db_set函数实际上具有相当好的性能,因为它非常简单,同时将数据追加到文件的方式通常非常高效。与db_set函数类似,许多数据库在内部使用类似的日志格式,这是一个仅附加(Append only)的数据文件。

真正的数据库有更多的问题需要处理(比如并发控制,磁盘空间回收,这样日志就不会永远增长,处理错误等等),但是基本原理是一样的。日志格式的数据存储非常有用,我们将在之后的其余部分中多次遇到它们。

( “日志”一词通常用来指应用程序日志,其中应用程序输出用于描述正在发生的事情的文本。在这本书中,日志具有更一般的意义:一个附加的记录序列。它不需要是人类可读的;它可能是只用于其他程序的读取的二进制的文件。)

另一方面,如果数据库中有大量的记录,那么db_get函数的性能会很糟糕。每次你想要查找一个key时,db_get将从头到尾扫描整个数据库文件,查找key对应的所有记录。在算法术语中,查找的成本是O(n):如果你的数据库中的数据量增加时,那么查找所需的时间将成倍增长。

为了有效地发现数据库中某个key对应的value,我们需要不同的数据结构:索引。在这一章中,我们将研究一系列的索引结构,并对其进行比较; 它们背后的基本思想是将一些额外的元数据单独存储,充当路标,帮助你定位所需的数据。如果您想以几种不同的方式搜索相同的数据,您可能需要在数据的不同部分上使用几个不同的索引。

索引是派生自原始数据的附加结构。许多数据库允许您添加和删除索引,这并不影响数据库的内容;它只影响查询的性能。 维护额外的数据结构是有代价的,特别是在写操作上,对于写操作来说,无法在像之前那样简单将记录添加到文件中,任何类型的索引通常会减慢写操作,毕竟在写数据时索引也需要更新。

这在存储系统中是一个重要的权衡:选择良好的索引可以加快读取速度,但是每个索引都减慢了写入速度。 出于这个原因,数据库通常不会在默认情况下索引所有内容,但是需要你(应用程序开发人员或数据库管理员)结合你对应用程序主要查询模式的了解手动构建索引。 然后,你可以选择为你的应用程序构建最优的索引,而不必引入不必要的开销。

三、Hash Indexes

让我们从key-value数据的索引开始。这不是唯一可以作为索引实现的数据结构,但它非常常见,而且它是更复杂索引重要的组成部分。键值存储与大多数编程语言中可以找到的dictionary类型非常相似,通常是作为散列表(hashtable)实现的。hashtable在许多算法教科书中都有描述[1,2],因此我们不会详细讨论它们在这里是如何工作的。既然我们已经有了内存数据结构的哈希映射,为什么不使用它们来索引磁盘上的数据呢?

假设我们的数据存储只包括对文件的追加,就像前面的例子一样。 那么,最简单的索引策略是:保存一个内存哈希映射,其中每个key都映射到数据文件中的一个字节偏移位置,该位置存储有对应的数值,如图3-1所示。

无论何时将新的key-value对添加到文件中,您都会更新hashtable以反映您刚刚编写的数据的偏移量(这既适用于插入新键,也用于更新存在键)。当你想查找一个key时,使用hashtable来查找数据文件中的偏移量,定位该位置,并读取该值。

这听起来可能过于简单,但却是可行的方法。这实际上是(Bitcask 中的默认存储引擎)所做的[3]。

Bitcask 提供高性能的读和写,需要满足的前提就是所有的key都存储在内存里,因为hashtable被完全保留在内存中。 但是value并没有存在内存里,而是存储在磁盘上,所以Value可以使用比可用内存更多的空间。如果数据文件的那一部分已经在文件系统缓存中,那么读操作将不会有任何磁盘I/O。

像Bitcask这样的存储引擎非常适合于每个key的value经常更新的情况。 例如,key可能是一个视频的URL,而value可能是它被播放的次数(每次点击播放按钮时value都会增加)。 在这种工作负载中,会有很多写操作,但是key的数据量相对较少——每个key都有大量的写操作,但是在内存中保留所有key是可行的

到目前为止,我们一直对文件进行了追加,那么我们如何避免最终耗尽磁盘空间呢? 一个好的解决方案是,当它达到一定的大小时, 通过关闭这个文件,并将写入到一个新的文件中。这样每个文件中存储的都是一小段数据,称之为:Data file segment。然后我们可以对这些文件中的内容进行压缩,如图3-2所示。压缩意味着将文件中重复key合并,并且只保留每个key的最新值。

此外,由于压缩常常使segment更小(假设一个key在一个segment内平均被重写了多次),我们也可以同时将所有的segment合并在一起执行压缩,如图3-3所示。segment 在写入后不会被修改,因此将合并之后的segment写入到一个新segment中。segment的合并和压缩可以在后台线程中完成,而在压缩合并进行的过程中,我们仍然可以使用旧的segment段文件,以正常的方式完成读和写。合并压缩过程完成之后,我们将读请求改为读取新合并的segment而不是旧的segment,然后旧的segment就可以被删除掉以释放磁盘空间。

每个segment都有自己的内存hashtable作为索引。为了找到key对应的value的值,我们首先检查最近的segment的hashtable。如果key不存在,我们将检查第二个最近的部分,等等。segment合并的过程减少了segment的数量,所以查找操作不需要检查太多的hashtable。这个简单的想法在实践中有很多细节。简单地说,真正实现的一些重要问题是:

  • File format:
    CSV不是日志文件的最佳存储格式。使用二进制格式可以更快更简单,首先计算字符串的所占的字节长度,然后将字符串编码成字节进行存储,之后当使用该字符串时,只需要重固定位置开始获取一定长度的字节数据进行解码就可以了。
  • Deleting records:
    如果您想删除一个key及其Value,则必须将一个特殊的删除记录附加到数据文件(有时称为Tombstone)。当segment被合并时,合并的进程会将标记有Tombstone记录删除掉。
  • Crash recovery:
    如果数据库重新启动,内存中的Hashtable索引就会丢失。原则上,您可以通过从头到尾读取整个segment文件来恢复每个segment的hashtable,并将hashtable中所有key对应的偏移量更新为最新的值。但是,如果segment文件很大,这可能需要很长时间,同时这会使服务器重负载过重。Bitcask通过将每个segment的hashtable镜像存储在磁盘上, 这样就可以更快地装入内存,而不需要扫描所有数据文件。
  • Partially written records:
    数据库可能在任何时候崩溃,甚至在将一条记录追加到segment的过程中数据库都可能崩溃掉。Bitcask文件包含校验,允许检测和忽略该数据文件损坏的部分。
  • Concurrency control:
    由于写操作是严格按顺序执行的,所以一个常见的选择是只有一个写线程。segment的数据是唯一的,而且是不可变的,所以它们可以被多线程并发读取。即只有一个写线程可以有多个读线程。

这种append-only  log机制,第一眼看上去感觉会很浪费:**为什么不更新文件,用新Value重写旧的Value?**然而,append-only的设计是有优势的,原因如下:

  • Append和Segment合并操作都是顺序写操作,它比随机写要快得多,特别是在磁盘驱动器上。 在某种程度上,顺序写在固态硬盘(ssd)上也有很大的优势[4]。 我们之后将进一步讨论这个问题。
  • 如果segment文件只是附加的或不可变的,那么并发控制和崩溃恢复要简单得多。例如,您不必担心当一个值被覆盖时发生失败后的处理操作,因为如果在覆盖时发生失败,那么留给你的将是一个不完整的数据文件。
  • 合并旧segment可以避免一个问题:随着时间的推移数据文件变得很零碎很分散。

然而Hash 索引也有它的局限性:

  • Hashtable必须存入内存,所以如果你有非常多的key,你就不走运了。 原则上,您可以在磁盘上维护一个Hashtable,但不幸运的是,磁盘上的Hashtable执行效果并不好,它需要大量的随机访问I/O,当数据量很大时,这种操作是非常昂贵的,并且散列冲突需要复杂的处理逻辑。
  • 范围查询无效。例如,你不能轻松地扫描kitty00000和kitty99999之间的所有key,您必须在hashtable中查找每一个key。

在下一节中,我们将会看到一个索引结构,它没有上面这些限制:

未完待续。。。。

(DDIA)数据存储与检索(一)相关推荐

  1. (DDIA)数据存储与检索(二)——LSM简介

    一.SSTables and LSM-Trees 在上一篇文章<(DDIA)数据存储与检索(一)>的图3-3中,每个日志结构的segment文件存储的都是键值对. 这些key-value会 ...

  2. 使用jQuery的基于DOM的数据存储和检索

    jQuery库是轻量级的(缩小/压缩后约为25KB),符合CSS3和跨浏览器. 它提供了丰富的API集,包括遍历和操作HTML文档对象模型(DOM),处理事件,并提供了使用异步JavaScript和X ...

  3. 数据密集型应用系统设计_数据存储与检索

    数据存储与检索 从最基本的层面看,数据库只需要做两件事: 向它插入数据时,它就保存数据 查询数据时,它就返回数据 本章主要从数据库的角度来探讨: 如何存储输入的数据 收到查询请求时,如何重新找到数据 ...

  4. 汉语句子的意群和重音_五重音而不是字节-数据存储和检索方法

    汉语句子的意群和重音 我们将讨论一种存储和处理信息的方法,并分享有关在此新范例中创建开发平台的一些想法. 做什么的? 要更快地开发并缩短迭代时间:勾画您的项目,确保它符合您的想法,对其进行优化,然后继 ...

  5. 数据密集型应用系统设计--数据存储与检索

    数据结构 追加型数据库和哈希索引 数据库最简单的形式,是追加型的方式: 写入数据直接追加到文件尾部,O(1)复杂度 读取数据从文件头遍历,获取最新的数据 这种数据库,没有删除操作,所有的数据都是追加性 ...

  6. Android高级编程(笔记)-第6章 数据存储、检索和共享--2--本地文件

    除标准的Java I/O类和方法外: Android 提供了openFileInput和openFileOutout读写本地文件: 1: String FILE_NAME = "tempfi ...

  7. Android的数据存储方式

    1.Shared Preferences 2.文件存储数据 3.数据库 4.Content Provider存储数据,是所有应用程序之间数据存储和检索的一个桥梁,它的作用就是使得各个应用程序之间实现数 ...

  8. 重新加一个window_Activity、View、Window关系,进程间通信,责任链模式,Https,数据存储...

    码仔,今天就给大家带来了<每日一道面试题>的第九期: 01 理解Activity View window的关系 Activity像一个工匠(控制单元),Window像窗户(承载模型),Vi ...

  9. numpy序列预处理dna序列_合成生物学快讯2019年第12期:基于DNA的分子数字数据存储...

    本文由中国科学院上海生命科学信息中心 战略情报团队供稿 基于DNA的分子数字数据存储:现状与挑战 编者按:美国华盛顿大学和微软研究院的研究人员2019年8月在Nature杂志发文,对基于DNA的分子数 ...

最新文章

  1. Chromium之各国语言切换
  2. 数据结构遍历顺序栈_链栈的初始化与遍历
  3. 太原益学领军2021年高考成绩查询,益学领军 | 2020寒假高三拼命班火爆进行中
  4. 科大星云诗社动态20210904
  5. 《Unbroken》
  6. select模型使用例子
  7. ACM金牌选手算法讲解《线性表》
  8. 【安全问道】系列:阿里带你3分钟掌握一个互联网
  9. 情景规划(Scenario planning) (转载)
  10. Pearson 相关系数
  11. 视频剪辑什么鬼?Python 带你高效进行视频切割
  12. MTK平台创建Vendor方法(最大化复用代码)
  13. HRBU 2021年暑期训练阶段二Day3
  14. 使用Java编写爬虫,下载百度图片
  15. uni-app 父传子、子传父、路径传参、本地存储
  16. ThingsBoard RPC control
  17. 纵观计算机简史ppt,纵观计算机简史初中信息技术新课本中国地图出社..ppt
  18. JavaScript小记——Ajax异步请求
  19. 【转】SCI论文写作全攻略
  20. STAR软件安装以及使用

热门文章

  1. c语言2级成绩时间,二级c语言考试时间
  2. 基于 Servlet+jsp+mysql 开发 javaWeb 学生网络考试系统
  3. ubunto16.04 安装配置
  4. containerd对接harbor
  5. 一生里该听的外语歌曲100首
  6. iwconfig与iw设置网卡模式
  7. html木桶布局,科普|橡木桶的制作全过程
  8. Python实现批量汉字转拼音作搜索框提示词
  9. java正则验证大陆以及港澳台手机号码
  10. multisim 11