Base64 编码原理及代码实现

所谓 base64 编码就是从 ASCII 码表中选取64个可打印字符（A-Za-z0-9+/）作为基本字符集对其它字符进行编码转换。加上作为填充的 “=” 实际上是 65 个字符。

Base64 产生的原因

要想了解 base64 就得先了解下 ASCII 码表， ASCII 码表是由以英语为母语的美国制定。英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的。比如，在法语中，字母上方有注音符号，它就无法用 ASCII 码表示。于是，一些欧洲国家就决定，利用字节中闲置的最高位编入新的符号。比如，法语中的é的编码为130（二进制10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多256个符号。

但是，这里又出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使用256个符号的编码方式，代表的字母却不一样。比如，130在法语编码中代表了é，在希伯来语编码中却代表了字母Gimel (ג)，在俄语编码中又会代表另一个符号。但是不管怎样，所有这些编码方式中，0–127表示的符号是一样的，不一样的只是128–255的这一段。

至于亚洲国家的文字，使用的符号就更多了，汉字就多达10万左右。一个字节只能表示256种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的编码方式是 GB2312，使用两个字节表示一个汉字，所以理论上最多可以表示 256 * 256 = 65536 个符号。

而在网络上交换数据时，比如说从A地传到B地，往往要经过多个路由设备，由于不同的设备对字符的处理方式有一些不同，这样那些不可见字符就有可能被处理错误，这是不利于传输的。所以就先把数据先做一个 Base64 编码，统统变成可见字符，这样出错的可能性就大降低了。

为什么是 Base64？

为什么是 base64 而不是 base128、base256 呢？其实原因很简单，因为在 ASCII 码表中的可打印字符只有 95 个，所以选取 64 个可打印字符是最为合理的。既然如此，那是不是也有 base32、base16 呢？对，当然可以有。只是目前大多用到的还是 base64 编码。

Base64 编码的理论实现

前面根据 A-Za-z0-9+/ 字符集可以得到一张索引表：

索引	对应字符	索引	对应字符	索引	对应字符	索引	对应字符
0	A	17	R	34	i	51	z
1	B	18	S	35	j	52	0
2	C	19	T	36	k	53	1
3	D	20	U	37	l	54	2
4	E	21	V	38	m	55	3
5	F	22	W	39	n	56	4
6	G	23	X	40	o	57	5
7	H	24	Y	41	p	58	6
8	I	25	Z	42	q	59	7
9	J	26	a	43	r	60	8
10	K	27	b	44	s	61	9
11	L	28	c	45	t	62	+
12	M	29	d	46	u	63	/
13	N	30	e	47	v
14	O	31	f	48	w
15	P	32	g	49	x
16	Q	33	h	50	y

Base64 具体编码转换步骤如下：

1.将待转换的字符串以每 3 个字节分为一组，1byte = 8bit，每一组正好 24 个二进制位。
2.将上面的 24 个二进制位划分为每 6 位一组，形成 4 组。
3.每组前面加两个 0，形成 8 位一组，即 4 个字节。
4.根据上面 Base64 对照表获取对应的值，形成 Base64 编码。

**举个例子：**下面表格是以字符串 “Man” 作为原始字符串进行 Base64 编码的过程。

文本	M	a	n
ASCII	77	97	110
二进制	01001101	01100001	01101110
分组	00 010011	00 010110	00 000101	00 101110
索引	19	22	5	46
Base64编码	T	W	F	u

那么你可能会问，如果我原始字符串少于 3 个字节怎么办呢？

如果输入原始字符串长度不能被 3 整除的话，我们需要用 “=” 对其 Base64 编码进行填充。为什么需要 “=” 填充呢？因为 Base64 解码是以 4 位字符一划分的，如果你不对其进行填充就会导致解码失败。

当原始字符串的二进制位不是 6 的倍数的时候，我们依然会将其划分为 6 位一组，然后将最后一组用 0 填充至 6 位（在末尾填充）。

**举个例子：**下面是对字符串 “AB” 的编码过程，其编码结果为 “QUI=”。

文本	A	B
ASCII	65	66
二进制	01000001	01000010
分组	00 010000	00 010100	00 001000
索引	16	20	8
Base64编码	Q	U	I	=

注意：中文字符有很多的编码，如 UTF-8、GBK、GB2312 等，不同的编码都会对 Base64 编码产生影响。

源代码

base64.h

/*base64.h*/
#ifndef _BASE64_H
#define _BASE64_H#include <stdlib.h>
#include <string.h>
#include <math.h>inline unsigned int BASE64_ENCODE_SIZE(unsigned int len) { // 计算字符串加密后的长度（不包括填充字符 '='）return ceil(len * 8 / 6);
}unsigned char *base64encode(const unsigned char *str, unsigned int len);
unsigned char *base64decode(const unsigned char *str, unsigned int len);#endif

base64.c

#include <stdio.h>
#include "base64.h"#define CHARPAD '='extern inline unsigned int BASE64_ENCODE_SIZE(unsigned int);/* Base64 编码表 */
static const unsigned char base64_table_encode[] = {'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H','I', 'J', 'K', 'L', 'M', 'N', 'O', 'P','Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X','Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f','g', 'h', 'i', 'j', 'k', 'l', 'm', 'n','o', 'p', 'q', 'r', 's', 't', 'u', 'v','w', 'x', 'y', 'z', '0', '1', '2', '3','4', '5', '6', '7', '8', '9', '+', '/',
};unsigned char *base64encode(const unsigned char *str, unsigned int len)
{int i = 0, j = 0, k = 0;unsigned int encodeSize = BASE64_ENCODE_SIZE(len);unsigned char *result = (unsigned char *) malloc(sizeof(unsigned char) * encodeSize + 4);result[encodeSize] = '\0'; /* 构造字符串 */for(i = 0, j = 0; i < encodeSize; i += 4, j += 3){result[i] = base64_table_encode[(str[j] >> 2) & 0x3f];if (i + 1 >= encodeSize) break;result[i+1] = base64_table_encode[((str[j] & 0x3) << 4) | ((str[j+1] >> 4) & 0xf)];if (i + 2 >= encodeSize) break;result[i+2] = base64_table_encode[((str[j+1] & 0xf) << 2) | ((str[j+2] >> 6) & 0x3)];if (i + 3 >= encodeSize) break;result[i+3] = base64_table_encode[(str[j+2] & 0x3f)];}return result;
}