以太坊源码学习（一）正本清源

背景

geth源码一直在不断增加，优化，发展到现在已经非常庞大，第一次看geth源码，会有不小的难度。虽然如此，还是可以从geth仓库的第一个commit开始，这时的代码比较少，但是以太坊核心的雏形已经隐隐可见，阅读代码可以加深理解以太坊的模块组成，揣测设计的想法和思路。

项目结构

去掉单元测试文件，整个项目只有
big.go
vm.go
parsing.go
transaction.go
block.go
block_manager.go
ethereum.go
serialization.go
8个文件。这8个文件都比较小，功能比较简单，也很好理解。

数学计算

big.go 封装了大整数的指数运输。

虚拟机

vm.go 定义了虚拟机操作码, 操作码类型, 虚拟机结构和虚拟机的实现。
虚拟机内部定义的指令码有：

  oSTOP      int = 0x00oADD       int = 0x10oSUB       int = 0x11oMUL       int = 0x12oDIV       int = 0x13oSDIV      int = 0x14oMOD       int = 0x15oSMOD      int = 0x16oEXP       int = 0x17oNEG       int = 0x18oLT        int = 0x20oLE        int = 0x21oGT        int = 0x22oGE        int = 0x23oEQ        int = 0x24oNOT       int = 0x25oSHA256    int = 0x30oRIPEMD160 int = 0x31oECMUL     int = 0x32oECADD     int = 0x33oSIGN      int = 0x34oRECOVER   int = 0x35oCOPY      int = 0x40oST        int = 0x41oLD        int = 0x42oSET       int = 0x43oJMP       int = 0x50oJMPI      int = 0x51oIND       int = 0x52oEXTRO     int = 0x60oBALANCE   int = 0x61oMKTX      int = 0x70oDATA      int = 0x80oDATAN     int = 0x81oMYADDRESS int = 0x90oSUICIDE   int = 0xff

总共36个指令码，细心的读者可能会发现指令码定义的值不是连续的，是跳跃的，通过通读代码分析，原因是指令码值的高位是记录指令类型。
vm的实现是基于栈的，实现相对比较简单。
大部分指令码的功能没有实现，只实现了以下指令码的功能
oSTOP
oADD
oSUB
oMUL
oDIV
oSET
oLD
oLT
oJMP
oJMPI

智能合约编译

parsing.go 主要实现的是智能合约的编译和对编译后的代码进行处理，后续供vm执行。

交易

transaction.go 定义了交易的结构，还有费用和收益变量。一笔交易包括发起者，接受者，交易的数量，交易的费用，编译后的脚本源码，运行需要内存，交易签名和地址。
费用和收益变量只有初始化赋值，没有具体使用。
脚本源码是智能合约的雏形，为了方便描述和理解还是称呼它为智能合约。此时的智能合约语言和x86 intel汇编类似，语法比较简单，一个操作指令加上操作数，操作数的个数最常见是0个，1个，2个和3个，设计者实现的时候，最多可以支持6个。
操作指令和操作数之间用空格分开，操作数与操作数之间也用空格分开。
定义的操作指令有以下这些：（记作映射表1)

  "STOP":       "0","ADD":        "16",  // 0x10"SUB":        "17",  // 0x11"MUL":        "18",  // 0x12"DIV":        "19",  // 0x13"SDIV":       "20",  // 0x14"MOD":        "21",  // 0x15"SMOD":       "22",  // 0x16"EXP":        "23",  // 0x17"NEG":        "24",  // 0x18"LT":         "32",  // 0x20"LE":         "33",  // 0x21"GT":         "34",  // 0x22"GE":         "35",  // 0x23"EQ":         "36",  // 0x24"NOT":        "37",  // 0x25"SHA256":     "48",  // 0x30"RIPEMD160":  "49",  // 0x31"ECMUL":      "50",  // 0x32"ECADD":      "51",  // 0x33"SIGN":       "52",  // 0x34"RECOVER":    "53",  // 0x35"COPY":       "64",  // 0x40"ST":         "65",  // 0x41"LD":         "66",  // 0x42"SET":        "67",  // 0x43"JMP":        "80",  // 0x50"JMPI":       "81",  // 0x51"IND":        "82",  // 0x52"EXTRO":      "96",  // 0x60"BALANCE":    "97",  // 0x61"MKTX":       "112", // 0x70"DATA":       "128", // 0x80"DATAN":      "129", // 0x81"MYADDRESS":  "144", // 0x90"BLKHASH":    "145", // 0x91"COINBASE":   "146", // 0x92"SUICIDE":    "255", // 0xff

可以看出这是操作指令到虚拟机内部指令码的映射。
编译规则很简单：
1. 操作指令根据映射表1, 得到vm的内部指令码。
2. 每一个操作数（第i个操作数，i记作位置序数，从1开始）分别乘以 256的i次方，
3. 将步骤2的乘积依次相加，最后加上步骤1得到的指令，最终的和作为编译结果。
一个合法的智能合约源码片段可能是这样（记作代码片段1）

    "SET 10 6","LD 10 10",

按照编译规则，代码片段1最终的编译结果是这样的

395843    // 67 + 10 * 256 + 6 * 256^2
133698    // 66 + 10 * 256 + 10 * 256^2

vm运行时，根据编译规则的逆规则，解析出指令码和操作数，根据指令码的功能，进行下一步处理。
运行需要内存没有使用，猜测是用作运行智能合约。
签名字段没有使用，猜测是校验交易是否篡改过。
地址是对transaction结构序列化后的字节数组取sha256的前20位。

区块

block.go用来定义块结构，非常简单，仅包含一个transaction数组.

区块管理器

block_manager.go是定义块管理器，用来处理块，持有一个vm指针，依次执行块里面的每一个交易的智能合约。

以太坊入口

ethereum.go是demo程序入口， mock两笔交易，打印vm执行的日志，最后打印了其中一笔交易的序列化结果。

交易序列化

serialization.go 实现序列化功能，采用的是RLP编码，只能对字符串编码。编码规则是
1. 如果是字符串，编码结果是”\x00” 加上字符串的长度，再加上原字符串。计算字符串的长度有一个规则，确保编码无二义性，能正确解码。
2.如果是字符串数组，编码结果是”\x01”加上每一个字符串编码结果的长度和的编码，再加上每一个字符串的编码结果。有点绕口，这是个递归的过程。
3.如果是其他类型需要转换成字符串或者字符串数组。
RLP编码的规律是以数据类型开始，字符串是”\x00”, 字符串数组是”\x01, 然后是数据长度，最后是数据内容。
RLP编码和解码是递归过程，实现比较简单，编码紧凑，传输效率较高，后续版本中，在网络传输和本地存储都有RLP编码的影子。

总结

总体来说，这个版本的代码比较简单，是geth的初始设计和验证，没有实现太多的功能，比喻账号，P2P网络，共识算法等都没有实现，区块链，编译器和虚拟机也设计比较简单，与正式发布版差异比较大，不过对于初次学习geth源码，整体认识geth还是有一定的意义。