文章目录

  • 简介
  • 定义一个简单的message
  • Base 128 Varints
  • 消息体的结构
  • 符号整数
  • 字符串
  • 嵌套的消息
  • 总结

简介

protocol buffer这种优秀的编码方式,究竟底层是怎么工作的呢?为什么它可以实现高效快速的数据传输呢?这一切都要从它的编码方式说起。

定义一个简单的message

我们知道protocol buffer的主体就是message,接下来我们从一个简单的message出发,详细讲解protobuf中的编码方式。

比如下面的一个非常简单的消息对象:

message Student {optional int32 age = 1;
}

在上面的例子中,我们定义了一个Student消息对象,并给他定义了一个名叫age的字段,并给它设置一个值叫做22。然后使用protobuf将其进行序列化,这么大的一个对象,对其序列化之后的字节如下所示:

08 96 00

很简单,使用三个字节就可以表示一个messag对象,数据量非常小。

那么这三个字节到底表示什么意思呢?一起来看看吧 。

Base 128 Varints

在解释上面的三个字节的含义之前,我们需要了解一个varints的概念。

什么叫Varints呢?就是序列化整数的时候,占用的空间大小是不一样的,小的整数占用的空间小,大的整数占用的空间大,这样不用固定一个具体的长度,可以减少数据的长度,但是会带来解析的复杂度。

那么怎么知道这个数据到底需要几个byte呢?在protobuf中,每个byte的最高位是一个判断位,如果这个位被置位1,则表示后面一个byte和该byte是一起的,表示同一个数,如果这个位被置位0,则表示后面一个byte和该byte没有关系,数据到这个byte就结束了。

举个例子,一个byte是8位,如果表示的是整数1,那么可以用下面的byte来表示:

0000 0001

如果一个byte装不下的整数,那么就需要使用多个byte来进行连接操作,比如下面的数据表示的是300:

1010 1100 0000 0010

为什么是300呢?首先看第一个byte,它的首位是1,表示后面还有一个byte。再看第二个byte,它的首位是0,表示到此就结束了。我们把判断位去掉,变成下面的数字:

010 1100 000 0010

这时候还不能计算数据的值,因为在protobuf中,byte的位数是反过来的,所以我们需要把上面的两个byte交换一下位置:

000 0010 010 1100

也就是:

10 010 1100

=256 + 32 + 8 + 4 = 300

消息体的结构

从message的定义可以知道,protobuf中的消息体的结构是key=value的形式,其中的key就是message中定义的字段的整数值1,2,3,4等。而value就是真正对其设置的值。

当一个消息被编码之后,这些key和value会被连接在一起,组成一个byte stream。当要对其进行解析的时候,需要定位到key和value的具体长度,所以在key中需要包含两部分,第一个部分就是字段在proto文件中的值,第二个部分就是value部分占用的长度大小。

只有通过这两个部分的值结合起来,解析器才能够正确的对字段进行解析。

key的这种格式,被称为 wire types,有哪些 wire types呢?我们看一下:

类型 含义 使用场景
0 Varint int32, int64, uint32, uint64, sint32, sint64, bool, enum
1 64-bit fixed64, sfixed64, double
2 Length-delimited string, bytes, embedded messages, packed repeated fields
3 Start group groups (deprecated)
4 End group groups (deprecated)
5 32-bit fixed32, sfixed32, float

可以看到除了3,4两种类型之外,其他的类型可以分为三类,一类是固定长度的类型,如1,5,他们分别是64位和32位的数字。

第二类是0,表示Varint,这是一种可变类型,用来表示通用的数字类型,bool类型和枚举类型。第三类2,表示长度区分的类型,这种类型通常用来表示字符串,字节数字等。

所有的key都是一个varint类型,它的值是:(field_number << 3) | wire_type,也就是说key的最后三个位,用来存储wire类型。

上面我们例子中的key的值是08,用二进制表示:

000 1000

最后三位是0,表示是一个Varint类型,将08右移三位,得到1,表示key表示的字段是1这个字段,也就是age。

然后我们看下剩下的部分96 00,换成二进制是:

96 00 = 1001 0110  0000 0000

根据Varint的定义,第一位表示的是连接位,表示第二个字节的内容和第一个字节的内容是一起的。对于Varint来说,需要将低位的字节和高位的字节进行交换,如下:

1001 0110  0000 0000 去掉最高位的1 :
001 0110  0000 0000  交换低位字节和高位字节:
0000 0000  001 0110

上面的值是16 + 4 + 2 = 22

这样我们就得到了值为1的key,对应的value是22。

符号整数

我们知道有两种表示符号整数的方式,一种是标准的int类型:int32 和 int64,一种是带符号的int类型:sint32 和 sint64。

这两种类型的区别在于对应负整数的表示上。对于int32和int64来说,所有的负整数都是以十个字节来表示的,所以占用的空间会比较大,不适合用来表示负整数。

如果使用sint32 和 sint64,那么使用的编码方式是ZigZag,对于负整数来说更加有效。

ZigZag将带符号的整数和无符号的整数进行映射,对于每个n来说,将会使用下面的公式来编码:

(n << 1) ^ (n >> 31)

对于sint64来说就是:

(n << 1) ^ (n >> 64)

举个例子:

符号整数 编码结果
0 0
-1 1
1 2
-2 3
2147483647 4294967294
-2147483648 4294967295

字符串

字符串的wire类型是2,说明它的值是一个varint编码的长度。举个例子:

 message Student {optional string name = 2;
}

上我们给Student定义了第二个属性name,假如给name赋值 “testing” ,那么得到的编码是:

12 07 [74 65 73 74 69 6e 67]

中括号的编码就是"testing"的UTF8表示。

0x12 可以这样解析:

 0x12
→ 0001 0010  (binary representation)
→ 00010 010  (regroup bits)
→ field_number = 2, wire_type = 2

0x12表示字段2的类型是2,后面跟着的07就表示后续byte字节的长度了。

嵌套的消息

消息中可以嵌套消息,我们看一个例子:

message Teacher {optional Student s = 3;
}

假如我们把s的age字段设置为22,就和第一个例子一样,那么上面的编码就是:

 1a 03 08 96 00

可以看到后面的三个字节和第一个例子是一样的。前面两个字节的判断方式和字符串是一值的,这样就不再多讲。

总结

好了,protobuf的基本编码规则和实现已经讲完了。听起来是不是很奇妙?

本文已收录于 http://www.flydean.com/03-protobuf-encoding/

最通俗的解读,最深刻的干货,最简洁的教程,众多你不知道的小技巧等你来发现!

欢迎关注我的公众号:「程序那些事」,懂技术,更懂你!

protocol buffer的高效编码方式相关推荐

  1. 快来看看Google出品的Protocol Buffer,别仅仅会用Json和XML了

    前言 习惯用 Json.XML 数据存储格式的你们,相信大多都没听过Protocol Buffer Protocol Buffer 事实上 是 Google出品的一种轻量 & 高效的结构化数据 ...

  2. Bson类似于Protocol Buffer的数据形式,比json更轻量级更高效

    一.Bson介绍 BSON是Binary JSON的缩写,是一种类json的一种二进制形式的存储格式. 它和JSON一样,支持内嵌的文档对象和数组对象,但是BSON在JSON基础上进行了一些数据类型的 ...

  3. 学习笔记:Java Protocol Buffer的使用和编码原理学习

    一.protocolbuffer简介: protocol buffer 是 google 的一种数据交换的格式,它独立于语言,独立于平台.google 提供了三种语言的实现:java.c++ 和 py ...

  4. protocol buffer编码原理,让你理解pb是如何实现的

    这篇文章对pb的编码原理进行翻译,原文地址https://developers.google.com/protocol-buffers/docs/encoding 先看一个简单的例子 message ...

  5. Protocol Buffer Basics: C#

    Protocol Buffer 基础知识:c#    原文地址:https://developers.google.com/protocol-buffers/docs/csharptutorial 这 ...

  6. Google Protocol Buffer 简单介绍

    以下内容主要整理自官方文档. 为什么使用 Protocol Buffers .proto文件 Protocol Buffers 语法 编译.proto文件 Protocol Buffers API 枚 ...

  7. Protocol Buffer技术详解(语言规范)

     该系列Blog的内容主体主要源自于Protocol Buffer的官方文档,而代码示例则抽取于当前正在开发的一个公司内部项目的Demo.这样做的目的主要在于不仅可以保持Google文档的良好风格 ...

  8. Google Protocol Buffer 的使用和原理

    FROM : https://www.ibm.com/developerworks/cn/linux/l-cn-gpb/ Google Protocol Buffer 的使用和原理 Protocol ...

  9. Protocol Buffer数据编码

    这是一篇让你对Protocol Buffer知其然亦知其所以然的文档,即便你在并不了解这其中的技术细节和处理机制的情况下,仍然能够在你的应用程序中正常的使用Protocol Buffer,然而我相信, ...

最新文章

  1. 我开发共享软件的三次经历(中):我赚到了十万块
  2. 浅玩JavaScript的数据类型判断
  3. 使用AT SELECTION-SCREEN事件验证用户输入条件的反思
  4. java ftp 中文上传_java实现ftp文件上传下载,解决慢,中文乱码,多个文件下载等问题...
  5. java nio改造io,java – 将NIO与IO混合
  6. link、symlink、readlink、unlink函数的使用
  7. PHP登录表单提交前端验证,form表单提交前先用ajax进行验证(前端)
  8. 3.RabbitMQ实战 --- 运行和管理Rabbit
  9. aesmiyao php_PHP实现的AES 128位加密算法示例
  10. 03173软件开发工具主观题汇总
  11. SaaSBase:最适合小团队轻量级项目管理的软件——Tower
  12. matlab二维傅里叶变换ffshift,形象理解二维傅里叶变换
  13. 【Mockplus教程】MAC上安装Mockplus
  14. 常用搜索引擎的搜索方法有哪些?各有什么特点?
  15. mysql自制食物_近2千条日常食物营养表ACCESS数据库Mysql数据库
  16. C语言const用法详解
  17. 【python】调用百度智能云API实现手写文字识别
  18. java 读取zip文件_JAVA实现zip文件内容读取及解压
  19. android零宽空格,特殊字符的问题—零宽空格
  20. AJAX都有哪些优点和缺点

热门文章

  1. python导入同目录下的模块_如何从同一目录下的模块导入?
  2. L1-036. A乘以B
  3. 线段树POJ3468(成段更新,区间求和)
  4. TCP/IP TIME_WAIT状态原理
  5. 秒杀多线程第八篇 经典线程同步 信号量Semaphore
  6. ADO学习(九)如何阅读ADO文档
  7. kubernetes(八)问题排查
  8. Linux 写时复制机制原理
  9. JavaScript基本语法(续)
  10. HTTP和HTTPS总结