https://www.cnblogs.com/hell8088/p/9184336.html

多年来闲麻烦,只记录笔记,不曾编写BLOG,本文为原创,如需转载请标明出处

废话不说,直奔主题

ascii

计算机只接受 “高”、“低”电压,所以使用二进制  1  和  0 分别代表高低电压

ascii  将 “字符”和“符号”转为二进制,在通过二进制转为电压让计算机识别

0-127 是 7 位ASCII 码的范围,是国际标准  0111 1111

byte 字节

1 byte = 8 bit     就是8位二进制数    在不同语言中,字节范围不应,这主要取决于最高位是不是符号位

ascii  就是用一个字节,8位二进制表示一个字符或者符号

如 小写字母 a 的 ascii 编码是97,不同进制表示如下

二进制:01100001   (高四位 0110 低四位  0001)

十进制:26 + 25 + 20 = 64 + 32 + 1 = 97

了解了ASCII,再来看看其他编码和byte的关系

gb2312     两字节

utf-8          一个 "英文" 字符一字节,一个 "中文" 字符三字节

unicode     所有字符等于 "两个字节"

UTF-8

以 UTF-8 JAVA 中 将字符串转换为字节为例

//字符串和byte转换样本

byte[] str2byte = new String("中汉").getBytes("utf-8");

for (byte b : str2byte) {

System.out.println(b);

}

byte[] byte2str = { -28, -72, -83, -27, -101, -67 };

String str = new String(byte2str, "utf-8");

System.out.println(str);

解释:

比如 “汉” 这个字要在网络上传输,最终是要使用二进制表示电压

unicode 编码表中 “汉”字的编码是0x6C49,

转成UTF-8格式,对照映射表, 0x6C49在0x0800-0xFFFF之间, UTF-8使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx

0x6C49 是16进制表示, 6C49  写成二进制是:0110 1100 0100 1001

用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89

在 java 中,首先要把汉字转成字节,计算出来的 是 -26,-79,-119,我们发现和E6 B1 89 不同

那么是如何换算呢

E6 => 1110 0110   因为JAVA中 byte 是 -128 ~ 127,高位是符号位

计算方式为    采用补码计算  取反后+1   去掉符号位,0001 1001 + 1 = 16+8+1 + 1 = 26

高位1 位负数, 所以 E6 对应 -26, 在通过字节传输给网络流,转成二进制

那么使用UTF-8 将一串中英文转成二进制,计算机如何接收呢

这个就是UTF-8规则编码,计算机指定了UTF8编码接收二进制并进行转移,当发现字节以0开头,表示这是一个标准ascii字符,直接转义 ,当发现1110开头,就说明接下来的三个字节表示一个汉字,则取3个字节去掉模板后转义,UTF8编码模板如下

1字节 0xxxxxxx

2字节 110xxxxx 10xxxxxx

3字节 1110xxxx 10xxxxxx 10xxxxxx

4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

base64

作用:

主要用于将二进制数据转换成可见字符

由来:

早期 MIME 协议 Multipurpose Internet Mail Extensions 只能传输ASCII字符,这样非英文字符和图片就无法在邮件中发送

(ASCII包含的字符少,GBK等包含的中文在ascii表示不了,所以有UTF)

BASE64就是将这些二进制数据转换成64个定义好的ASCII字符,一方面可以传输,一方面可以也可见,比如XML里加入二进制图片持久化,就是用 BASE64 进行存储

BASE64  最小使用单元是3字节,24bit   转换后将24bit且成4块,然后每块是6bit,因为计算机存储字节是8bit,所以在高位补两个0

e.g.    100101  转换后   00100101

这样就得到了4个ascii  字符,不过长度也随之增加

另外,URL里不支持 /  +这类字符,所以一般使用  safe  url base 64编码,由于BASE64是3*8 = 4*6 的游戏,

注意:当转换成6位时,需要查BASE64编码表,而不是查ASCII表,另外,当转化不是3的倍数时,看下图

(借用网上的一张图片 http://www.cnblogs.com/caoyc/p/5794720.html)

这里再举例小写 a

01100001   转换后是   011000   010000  补4个0变成2字节,得到YQ,BASE64要求4个字节  补两个 ==

得到  YQ==

文章参考:http://www.cnblogs.com/caoyc/p/5794720.html

java utf8 byte_byte以及UTF-8的转码规则相关推荐

  1. java utf-8字符表_Java中的ASCII、Unicode和UTF-8字符编码集

    首先讲一下几种字符的编码方式: 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态 ...

  2. java utf-8格式,JAVA编写文件格式转换UTF-8

    情景:接到个任务,需要将某路径下包括子目录下的所有文件都转换为UTF-8格式. 结果:生成FileTransfer.jar,通过批处理调用实现该功能. 没玩过java,先把环境整好吧. 需要以下工具: ...

  3. java utf8乱码_java utf-8 乱码怎么办

    java utf-8 乱码怎么办? 1.在html首部编写如下代码: 推荐教程:<java学习> pageEncoding="utf-8"%> 示例如下: pag ...

  4. java实现生成SVG格式的二维码

    这2天跟图片杠上了,项目经理要求上传到腾讯云上的二维码既要有img格式的,又要要svg格式,谷歌了半天在网上找了个swt做的maven项目,可以生成各种格式的二维码,奈何代码全程没注解,好在方法名起的 ...

  5. java 输出13060个繁体字集的Unicode码

    BIG5是目前中国台湾和中国香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个,二级汉字7652个,共计13060个汉字,所谓一级汉字与二级汉字对应于常用汉字和不常用汉字. ...

  6. java中web错误返回码,关于在java程序里调用webservice报500返回码的有关问题

    关于在java程序里调用webservice报500返回码的问题 我现在写了个程序,是调用webservice的,执行后我打印返回码是500  错误信息是 java.io.IOException: S ...

  7. java与前端实现7种二维码

    OC](java与前端实现7种二维码) 1.项目结构 springboot项目 2.后端 QrcodeController package com.ljs.controller;import com. ...

  8. javaweb JAVA JSP购物系统购物商城系统源码(jsp电子商务系统)购物系统mvc

    javaweb JAVA JSP购物系统购物商城系统源码(jsp电子商务系统)购物系统mvc protected void doGet(HttpServletRequest req, HttpServ ...

  9. JAVA类加载对字节码的处理_深入理解Java虚拟机(类文件结构+类加载机制+字节码执行引擎)...

    [本文版权归微信公众号"代码艺术"(ID:onblog)所有,若是转载请务必保留本段原创声明,违者必究.若是文章有不足之处,欢迎关注微信公众号私信与我进行交流!] 周志明的< ...

最新文章

  1. 澎湖县地产泡沫的破灭
  2. html tr中可以有br吗,html table tr td br 什么意思 缩写
  3. webpack2.x 中文文档 翻译 之 出口Output
  4. 简述http 和 https区别
  5. 边缘设备上的实时AI人员检测:使用预先训练的SSD模型检测人员
  6. ShowDoc v2.4.8 发布,IT团队的在线 API 文档工具
  7. PostgreSQL 的 target_list分析(三)
  8. 台达变频器485通讯接线图_台达PLC与变频器用485通讯怎样实现启动、停止和频率给定,程序怎样做。谢谢!...
  9. 关于Eureka的自我保护模式
  10. Word里输入带框的对号
  11. matplotlib画图教程,设置坐标轴标签和间距
  12. CSP 201809-3 元素选择器
  13. CPP2022-16-宏、函数重载与函数模板
  14. xctf攻防世界 MISC高手进阶区 互相伤害
  15. Keshi Is Throwing a Party
  16. 前端面试题目(都是一些总结的,从各处摘抄的题目)
  17. STM32学习:通过DMA读取ADC规则通道多通道转换数据
  18. 配置Haproxy + Keepalived +PXC 5.7
  19. 详解为什么v-if和v-for不能同时使用
  20. 【代码复现】Windows10复现nerf-pytorch

热门文章

  1. Instant类的使用
  2. centOS7挂在windows移动硬盘方法
  3. 异步请求中jetty处理ServletRequestListener的坑
  4. easyui(一) 初始easyui
  5. django_4:数据库1——django操作数据库
  6. iframe 自适应高度 跨域
  7. 用WebORB实现flex + .net后台的Remoting
  8. [Leedcode][JAVA][第680题][验证回文字符串Ⅱ][贪心][递归]
  9. Java学习笔记2——常用类
  10. word2vec训练词向量 python_使用Gensim word2vector训练词向量