“What I cannot create, I do not understand.” – Richard Feynman

I’m building a clone of sqlite from scratch in C in order to understand, and I’m going to document my process as I go.

译注:cstsck在github维护了一个简单的、类似sqlite的数据库实现,通过这个简单的项目,可以很好的理解数据库是如何运行的,实现教程原文是英文,共有13篇,这里翻译过来以飨读者。原文标题:Let’s Build a Simple Database,本文是第一篇

Part 1 介绍&设置REPL

作为一名开发人员,在工作中我每天都使用关系型数据库。但是对我来说,它们是一个黑盒。我有一些问题:

  • 数据存储使用什么格式? (在内存与磁盘中)
  • 数据什么时候从内存转移到磁盘?
  • 为什么每张表只能有一个主键?
  • 事务回滚是怎么工作的?
  • 索引是什么格式的?
  • 全表扫描时什么时候发生,如何发生的?
  • 预处理语句(prepared statement)是使用什么格式存储的?

换句话说,数据库是怎么工作的?

为了弄清楚这些,我从头写了一个数据库。它是模仿sqlite实现的,因为sqlite设计小巧,并且相比于MySQL和PostgreSQL,它的功能相对要少很多,所以我希望能更容易的理解它。在实现上,整个数据库都存储在一个数据文件中。

Sqlite

在sqlite的网站上,有很多sqlite的内部文档(https://www.sqlite.org/arch.html)。另外我还拷贝了文档(SQLite Database System: Design and Implementation.)的一个副本(https://play.google.com/store/books/details?id=9Z6IQQnX1JEC)。


sqlite architecture

(https://www.sqlite.org/zipvfs/doc/trunk/www/howitworks.wiki)

一个查询通过组件链来获取数据或者修改数据。前端如下组件:

  • 分词器(tokenizer)
  • 解析器(parser)
  • 代码生成器(code generator)

前端的输入是SQL语句。输出则是sqlite的虚拟机字节码(sqlite virtual machine bytecode),本质上是一个可以在数据库运行的编译程序。

译注:数据库实现查询优化模型分为传统的火山模型(Volcano model)与Code gen模型,本文作者实现的是code gen模型。

后端包括如下组件:

  • 虚拟机(virtual machine)
  • B-tree
  • 页管理(pager)
  • 系统接口(os interface)

virtual machine

虚拟机将前端生成的字节码作为指令。它接下来可以在一个或更多的表、索引上执行操作,表以及索引都是存储在叫B-tree的数据结构中。VM 本质上是字节码指令类型的一个大开关语句(a big switch statement on the type of bytecode instruction)。

B-tree

每个B-tree许多节点。每个节点是一个page的长度。B-tree可以通过执行命令到pager,从磁盘获取一个page或者保存回page到磁盘。

pager

pager接收命令来读取或者写入数据的pages。它是负责来读、写数据库文件的适当偏移位置。也负责保持当前访问的pages在内存中,并且决定何时这些pages需要写回磁盘。

os interface

系统接口与sqlite根据不同操作系统平台来编译不同,在这个系列教程中,我不准备去支持多平台适配。

千里之行始于足下,所以我们从一些简单的事开始:REPL

实现简单的REPL

译注:REPL,Read - Execute - Print - Loop,即读取 - 执行 - 打印输出 - 循环,这个过程。有时候翻译成交互式解释器
当你执行命令行命令时,sqlite开始读取-执行-打印循环:

~ sqlite3
SQLite version 3.16.0 2016-11-04 19:09:39
Enter ".help" for usage hints.
Connected to a transient in-memory database.
Use ".open FILENAME" to reopen on a persistent database.
sqlite> create table users (id int, username varchar(255), email varchar(255));
sqlite> .tables
users
sqlite> .exit
~

为了实现这样的效果,我们的主程序需要有一个无限循环来打印这个提示,获取一行输入,然后处理这行输入:

int main(int argc, char* argv[]) {InputBuffer* input_buffer = new_input_buffer();while (true) {print_prompt();read_input(input_buffer);if (strcmp(input_buffer->buffer, ".exit") == 0) {close_input_buffer(input_buffer);exit(EXIT_SUCCESS);} else {printf("Unrecognized command '%s'.\n", input_buffer->buffer);}}
}

我们定义一个InputBuffer来作为一个封装,封装围绕在我们需要存储的、与getline()函数交互的状态(稍后将对此进行详细介绍)

typedef struct {char* buffer;size_t buffer_length;ssize_t input_length;
} InputBuffer;InputBuffer* new_input_buffer() {InputBuffer* input_buffer = (InputBuffer*)malloc(sizeof(InputBuffer));input_buffer->buffer = NULL;input_buffer->buffer_length = 0;input_buffer->input_length = 0;return input_buffer;
}

接下来, print_prompt()函数为用户打印出提示。在做这个之前需要读取每一行输入。

void print_prompt() { printf("db > "); }

读取命令行输入,需要使用getline()函数:

ssize_t getline(char **lineptr, size_t *n, FILE *stream);

(以下为getline的函数释义)

lineptr:

一个指针指向我们在buffer中包含的,从命令行读取的命令的变量。如果设置为NULL,它由getline()函数分配内存。并且后续由用户来释放,即使命令行的命令执行失败也能保证会被释放已分配的内存。

n:

一个指针变量,指向已经分配内存的buffer的大小(size)。

stream:

读取的输入流,这里是从标准输入读取的。

return value(返回值,ssize_t类型):

读取的字节数量,可能会比buffer的size小。

我们告诉getline()函数保存读取的命令行到 input_buffer->buffer,存储buffer的size到 input_buffer->buffer_length,保存返回值到 input_buffer->input_length。

buffer 在初始时是null,所以getline()函数分配足够的内存来存输入的命令行数据然后让buffer来指向这些数据。

void read_input(InputBuffer* input_buffer) {ssize_t bytes_read =getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);if (bytes_read <= 0) {printf("Error reading input\n");exit(EXIT_FAILURE);}// Ignore trailing newlineinput_buffer->input_length = bytes_read - 1;input_buffer->buffer[bytes_read - 1] = 0;
}

现在就可以定义一个函数来释放已分配给InputBuffer*实例和buffer中元素各自的数据结构的内存了(在read_input()函数中,调用getline()函数为 input_buffer->buffer 分配内存)。

void close_input_buffer(InputBuffer* input_buffer) {free(input_buffer->buffer);free(input_buffer);
}

在最后,我们解析并执行命令。现在这只是一个认可的命令:.exit,一个终止程序的命令。除此之外的命令,我们打印一个报错信息然后继续程序的循环。

if (strcmp(input_buffer->buffer, ".exit") == 0) {close_input_buffer(input_buffer);exit(EXIT_SUCCESS);
} else {printf("Unrecognized command '%s'.\n", input_buffer->buffer);
}

让我们来试试吧!

~ ./db
db > .tables
Unrecognized command '.tables'.
db > .exit
~

好了,我们得到了一个可以工作的REPL。在下一部分,我们将开始开发我们的命令语言。同时,下面是是这部分的全部程序代码:

#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>typedef struct {char* buffer;size_t buffer_length;ssize_t input_length;
} InputBuffer;InputBuffer* new_input_buffer() {InputBuffer* input_buffer = malloc(sizeof(InputBuffer));input_buffer->buffer = NULL;input_buffer->buffer_length = 0;input_buffer->input_length = 0;return input_buffer;
}void print_prompt() { printf("db > "); }void read_input(InputBuffer* input_buffer) {ssize_t bytes_read =getline(&(input_buffer->buffer), &(input_buffer->buffer_length), stdin);if (bytes_read <= 0) {printf("Error reading input\n");exit(EXIT_FAILURE);}// Ignore trailing newlineinput_buffer->input_length = bytes_read - 1;input_buffer->buffer[bytes_read - 1] = 0;
}void close_input_buffer(InputBuffer* input_buffer) {free(input_buffer->buffer);free(input_buffer);
}int main(int argc, char* argv[]) {InputBuffer* input_buffer = new_input_buffer();while (true) {print_prompt();read_input(input_buffer);if (strcmp(input_buffer->buffer, ".exit") == 0) {close_input_buffer(input_buffer);exit(EXIT_SUCCESS);} else {printf("Unrecognized command '%s'.\n", input_buffer->buffer);}}
}

Enjoy GreatSQL

实现一个简单的Database1(译文)相关推荐

  1. 驱动开发之六 --- 一个简单的显示驱动之一 [译文]

    这个系列的文章在网上到处都是 这里也不清楚谁才是原文作者 我这里做个整理,标注一下希望大家能看的更加舒服一点 目录 (一)驱动开发一个简单的显示驱动 (二)驱动开发一个简单的显示驱动 (三)驱动开发一 ...

  2. [译]使用 Rust 开发一个简单的 Web 应用,第 4 部分 —— CLI 选项解析

    原文地址:A Simple Web App in Rust, Part 4 -- CLI Option Parsing 原文作者:Joel's Journal 译文出自:掘金翻译计划 本文永久链接:g ...

  3. python推荐_利用Python构建一个简单的推荐系统

    原标题:利用Python构建一个简单的推荐系统 摘要:快利用python构建一个属于你自己的推荐系统吧,手把手教学,够简单够酷炫.在此之前读者需要对pandas和numpy等数据分析包有所了解. 什么 ...

  4. 基于内容推荐python_用 Python 实现一个简单的基于内容的推荐引擎

    原标题:用 Python 实现一个简单的基于内容的推荐引擎 (点击上方公众号,可快速关注) 英文:Chris Clark 译文:伯乐在线专栏作者 - yaoyujia 链接:http://python ...

  5. 一个简单的Julia教程

    原文链接:点击打开链接 摘要: 当前版本 v0.5 因为在知乎上写的量子计算札记会涉及到使用Julia语言的数值模拟,同时随着中国的Julian越来越多,而之前几个在JuliaCN活跃的老司机最近一直 ...

  6. 移花接木—做一个简单的软件渲染器

    移花接木-根据PBRT魔改出自己的软件渲染器 本文包含以下你可能感兴趣的内容: 门外汉是如何学习computer graphic领域的 从模仿到实践:PBRT给我带来了什么? 如何自编一个软件渲染管线 ...

  7. Golang:imaging一个简单、实用的图像处理工具

    Imaging is a simple image processing package for Go 译文:Imaging是一个简单图像处理的Go语言包 文档: https://github.com ...

  8. 使用HTML+CSS完成一个简单的立体字效果

    使用HTML+CSS完成一个简单的立体字效果* 此处用木兰辞来举列子 来看看效果 ps:技术不佳大佬们轻喷 /*标题及其立体效果*/ .Header {/*font-size: 50px;*//*fo ...

  9. 聊聊高并发(十六)实现一个简单的可重入锁

    可重入锁指的是假设一个线程已经获得了一个锁,那么它能够多次进入这个锁,当然前提是线程须要先获得这个锁. 可重入锁是最常使用的锁.Java的内置锁就是可重入锁,使用synchronizedkeyword ...

  10. 用php做一个简单的汇率,vue实现简单实时汇率计算功能

    最近在自己摸索vue的使用,因为相对于只是去看教程和实例,感觉不如自己动手写一个demo入门来的快.刚好看到小程序中有一个简单但是很精致的应用极简汇率,而且它的表现形式和vue的表现形式很像,于是想着 ...

最新文章

  1. 计算机及Linux基础简介
  2. 二维码 | 如何实现一码多用
  3. 深度学习(训练/开发/测试集)的划分技巧
  4. js实现语音播报功能
  5. 2018年终总结--最美的期待
  6. [转载]细说ASP.NET Windows身份认证
  7. 面试必会系列 - 2.1 MySQL知识点大汇总(基本架构,存储引擎,锁,事务,索引,B+树等等)
  8. Java 中 String 的常用方法(二)
  9. 树莓派的几种登录方式及树莓派的网络配置
  10. 使用ElasticSearch,Kibana,ASP.NET Core和Docker可视化数据
  11. 将Halcon导出的多个dxf文件合并成一个分图层的dxf文件
  12. 磁盘未被格式化,是否格式化数据灾难应急方案
  13. windows 读写锁 python_用Python实现读写锁
  14. 服务器主板能插几块硬盘,如何知道自己的主板最大支持多少的硬盘啊
  15. java 开发平台下载,JAVA开发平台和JAVA开发工具下载
  16. 懒人神器——自制自动写字机
  17. quartz定时任务框架
  18. 风暴孵化分享:新手小白想做手游代理可不可以?
  19. uniapp小程序自定义分享按钮
  20. scp 自定义端口号

热门文章

  1. NPM install报错certificate has expired
  2. Mono.Cecil ReaderParameters
  3. 来电铃声播放流程总结
  4. 随机生成小球(HTML5)
  5. 【转】HTML5前端性能优化——浏览器兼容与前端性能优化
  6. html明月几时有古诗,古诗词赏析|苏轼《水调歌头·明月几时有》
  7. 初学Web:计算机气质个人主页
  8. 1817735-45-7,Carboxy-PEG2-sulfonic acid在EDC和HATU等活化剂存在下,末端羧酸可参与与伯胺的反应
  9. 大学十年(一个程序员的路程)(林锐博士)《1----9》【林锐的大学10年】
  10. Transphorm的表面贴装封装产品系列增加行业标准TO-263 (D2PAK)封装产品,扩大SuperGaN平台的优势