Base64 编码原理及代码实现

所谓 base64 编码就是从 ASCII 码表中选取64个可打印字符(A-Za-z0-9+/)作为基本字符集对其它字符进行编码转换。加上作为填充的 “=” 实际上是 65 个字符。

Base64 产生的原因

要想了解 base64 就得先了解下 ASCII 码表, ASCII 码表是由以英语为母语的美国制定。英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用 ASCII 码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。

但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0–127表示的符号是一样的,不一样的只是128–255的这一段。

至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是 GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示 256 * 256 = 65536 个符号。

而在网络上交换数据时,比如说从A地传到B地,往往要经过多个路由设备,由于不同的设备对字符的处理方式有一些不同,这样那些不可见字符就有可能被处理错误,这是不利于传输的。所以就先把数据先做一个 Base64 编码,统统变成可见字符,这样出错的可能性就大降低了。

为什么是 Base64?

为什么是 base64 而不是 base128、base256 呢?其实原因很简单,因为在 ASCII 码表中的可打印字符只有 95 个,所以选取 64 个可打印字符是最为合理的。既然如此,那是不是也有 base32、base16 呢?对,当然可以有。只是目前大多用到的还是 base64 编码。

Base64 编码的理论实现

前面根据 A-Za-z0-9+/ 字符集可以得到一张索引表:

索引 对应字符 索引 对应字符 索引 对应字符 索引 对应字符
0 A 17 R 34 i 51 z
1 B 18 S 35 j 52 0
2 C 19 T 36 k 53 1
3 D 20 U 37 l 54 2
4 E 21 V 38 m 55 3
5 F 22 W 39 n 56 4
6 G 23 X 40 o 57 5
7 H 24 Y 41 p 58 6
8 I 25 Z 42 q 59 7
9 J 26 a 43 r 60 8
10 K 27 b 44 s 61 9
11 L 28 c 45 t 62 +
12 M 29 d 46 u 63 /
13 N 30 e 47 v
14 O 31 f 48 w
15 P 32 g 49 x
16 Q 33 h 50 y

Base64 具体编码转换步骤如下:

1.将待转换的字符串以每 3 个字节分为一组,1byte = 8bit,每一组正好 24 个二进制位。
2.将上面的 24 个二进制位划分为每 6 位一组,形成 4 组。
3.每组前面加两个 0,形成 8 位一组,即 4 个字节。
4.根据上面 Base64 对照表获取对应的值,形成 Base64 编码。

**举个例子:**下面表格是以字符串 “Man” 作为原始字符串进行 Base64 编码的过程。

文本 M a n
ASCII 77 97 110
二进制 01001101 01100001 01101110
分组 00 010011 00 010110 00 000101 00 101110
索引 19 22 5 46
Base64编码 T W F u

那么你可能会问,如果我原始字符串少于 3 个字节怎么办呢?

如果输入原始字符串长度不能被 3 整除的话,我们需要用 “=” 对其 Base64 编码进行填充。为什么需要 “=” 填充呢?因为 Base64 解码是以 4 位字符一划分的,如果你不对其进行填充就会导致解码失败。

当原始字符串的二进制位不是 6 的倍数的时候,我们依然会将其划分为 6 位一组,然后将最后一组用 0 填充至 6 位(在末尾填充)。

**举个例子:**下面是对字符串 “AB” 的编码过程,其编码结果为 “QUI=”。

文本 A B
ASCII 65 66
二进制 01000001 01000010
分组 00 010000 00 010100 00 001000
索引 16 20 8
Base64编码 Q U I =

注意:中文字符有很多的编码,如 UTF-8、GBK、GB2312 等,不同的编码都会对 Base64 编码产生影响。

源代码

base64.h

/*base64.h*/
#ifndef _BASE64_H
#define _BASE64_H#include <stdlib.h>
#include <string.h>
#include <math.h>inline unsigned int BASE64_ENCODE_SIZE(unsigned int len) { // 计算字符串加密后的长度(不包括填充字符 '=')return ceil(len * 8 / 6);
}unsigned char *base64encode(const unsigned char *str, unsigned int len);
unsigned char *base64decode(const unsigned char *str, unsigned int len);#endif

base64.c

#include <stdio.h>
#include "base64.h"#define CHARPAD '='extern inline unsigned int BASE64_ENCODE_SIZE(unsigned int);/* Base64 编码表 */
static const unsigned char base64_table_encode[] = {'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H','I', 'J', 'K', 'L', 'M', 'N', 'O', 'P','Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X','Y', 'Z', 'a', 'b', 'c', 'd', 'e', 'f','g', 'h', 'i', 'j', 'k', 'l', 'm', 'n','o', 'p', 'q', 'r', 's', 't', 'u', 'v','w', 'x', 'y', 'z', '0', '1', '2', '3','4', '5', '6', '7', '8', '9', '+', '/',
};unsigned char *base64encode(const unsigned char *str, unsigned int len)
{int i = 0, j = 0, k = 0;unsigned int encodeSize = BASE64_ENCODE_SIZE(len);unsigned char *result = (unsigned char *) malloc(sizeof(unsigned char) * encodeSize + 4);result[encodeSize] = '\0'; /* 构造字符串 */for(i = 0, j = 0; i < encodeSize; i += 4, j += 3){result[i] = base64_table_encode[(str[j] >> 2) & 0x3f];if (i + 1 >= encodeSize) break;result[i+1] = base64_table_encode[((str[j] & 0x3) << 4) | ((str[j+1] >> 4) & 0xf)];if (i + 2 >= encodeSize) break;result[i+2] = base64_table_encode[((str[j+1] & 0xf) << 2) | ((str[j+2] >> 6) & 0x3)];if (i + 3 >= encodeSize) break;result[i+3] = base64_table_encode[(str[j+2] & 0x3f)];}return result;
}

Base64 编码原理及代码实现相关推荐

  1. base64编码_几分钟看懂Base64编码原理

    Base64简介 Base64是基于64个可打印字符(小写字母a-z,大写字母A-Z,数字0-9,符号"+","/" 再加上作为垫字的"=" ...

  2. 密码学-编码算法:Base64编码原理和使用

    1.Base64简介 Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法.Base64编码是从二进制到字符的过程,可用于在 ...

  3. 5分钟学会Base64编码原理

    Base64编码原理 一.前言        相信很多开发的小伙伴当听到 Base64的时候,都会误认为是它一种加密解密的算法.        其不然,Base64其实是一种编码格式,其作用:解决乱码 ...

  4. Base64编码原理与实现

    Base64编码的原理是按bit将每6个bit转换成Base64编码表中的相应字符.下面是Base64的编码表: 0 A 17 R 34 i 51 z 1 B 18 S 35 j 52 0 2 C 1 ...

  5. Base64编码原理与应用

    本文内容转自网络,如需详细内容,请参考相关网址. http://my.oschina.net/goal/blog/201032 代码参考:http://blog.csdn.net/prsniper/a ...

  6. 一文轻松明白 Base64 编码原理

    把图片丢进浏览器,打开sources能看到一长串字符串,这是图片的Base64编码.这一长串编码到底是怎么生成的呢? 我们接下来探索一下base64编码的原理 Base64 名称的由来 Base64编 ...

  7. DPCM编码原理及代码实现

    目录 一.DPCM编码 二.DPCM编码原理 三.DPCM编码器 四.DPCM解码器 五.DPCM代码实现 六.代码结果 一.DPCM编码 DPCM编码,英文名称Differential pulse- ...

  8. Quoted-Printable编码原理及代码实现

    这篇文章是我之前在RYTong内部分享的一篇文章,摘取了有用的部分.当时帮助某项目邮件系统解决问题,期间了解到Quoted-Printable编码,在此与大家分享下该编码的原理和个人版本的代码实现. ...

  9. C++安全方向(二):2.3 base64编码原理讲解

    我们目前的编码可以理解为base256 4位是0-16 6位是0-63,能表示我们的base64,所以base64我们是取6位表示一个字节.

最新文章

  1. .ne中的控制器循环出来的数据如何显示在视图上_Web程序设计-ASP.NET MVC4数据库操作实例...
  2. 拼多多一度跌破发行价:已遭上海工商约谈 被要求自查自纠
  3. HTTP 错误 403.9 - 禁止访问:连接的用户过多 XP IIS服务器连接数的修改
  4. Visual Studio 2010 C++ 工程文件解读
  5. 【Linux】scp“免密” 远程copy较多文件
  6. 快速傅里叶变换(完整推导过程 + 模板)
  7. 1000并发 MySQL数据库_再送一波干货,测试2000线程并发下同时查询1000万条数据库表及索引优化...
  8. git 删除和复制远程分支
  9. 支付宝微信,扫码盛行,ATM机朝什么方向发展,会边缘化吗?
  10. win11系统正式版介绍
  11. 2 什么是计算机网络的拓扑结构,什么是网络拓扑?
  12. linux迅雷命令行,Linux系统下使用wine运行迅雷5的方法
  13. 计算机维修与维护笔记,笔记本电脑维护选购知识大全
  14. 【玩转Linux】Linux安装宝塔面板
  15. 美国的网络安全战略和人才战略简析
  16. 切面条/猜字母/大衍数列/奇怪的分式
  17. 电子通信类相关专业面试
  18. 学习日语应该先掌握哪些内容?
  19. JDK1.8源码分析:阻塞队列LinkedBlockingQueue与BlockingDeque(双端)的设计与实现
  20. 蓝牙脂肪秤模块测量原理

热门文章

  1. int型整数的数值范围
  2. Annotation 介绍
  3. 深入理解机器学习——机器学习概览
  4. sentinel限流入门
  5. HTTP的详细请求过程
  6. 了解你的windows目录和系统文件(转)
  7. python 网络爬虫
  8. 【opensource】开源网址推荐
  9. 统计学之数据的描述性统计(基础)
  10. 7000字详解数据指标体系如何从设计到落地