常见的字符编码(ASCII码,unicode,utf-8,gbk)
常见单位换算
bit 位 计算机的最小表示单位(0,1)
bytes 字节 计算机最小的存储单位,缩写B
1 B = 8 bit
1 KB = 1024 B
1 MB = 1024 KB
1 GB = 1024 MB
1 TB = 1024 GB
字符编码
- ASCII码
一个字节表示具体的字符,只用了后七位(2 ^ 7 = 128)最前面的一位统一为0,能够表示128个字符,其中包括了英文字符、阿拉伯数字、西文字符以及32个控制字符。 - 扩展的ASCII码
用来表示更多的欧洲文字,不同国家有不同的字符编码,即使都是256个字符编码,但后128个字符的编码方式不一样,代表的字母也不一样 - Unicode 字符集
包含了世界上所有的字符,并且每一个符号都是独一无二的;
出现问题:中文需要两个字节进行存储,而用两个存储字节英文字符时,前面一个字节都为0,造成存储的浪费;出现了 Unicode 的多种的存储方式; - Utf-8
UTF-8是互联网上使用最广的一种Unicode的实现方式,是一种可变长的编码方式。对于单字节的符号,字节的第一位设为0,后面7位为这个符号的Unicode码。因此对于英文的字母,UTF-8编码和ASCII码是相同的;对于n(n>1)字节的符号,第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10,剩下没有提及的二进制位,全部为这个符号的Unicode; - GBK /GB2312 /GB18030
G B K 和 G B 2312 都是对简体字的编码,只是G B 2312只支持六千多个汉字编码,而G B K支持1万多个汉字编码,而 G B 18030 是繁体字的编码。汉字存储时都使用两个字节进行存储。
python出现编码错误问题
#python 支持utf-8的编码格式,打开文件时,可将参数enconding设置为utf-8
f = open(filename,mode,enconding=utf-8)
f1 = f.read()
print(f1)
f.close()'''
open其它参数:
errors 取值一般为strict, ignore,当取strict时,字符编码出现问题,会报错,取ignore参数时,程序会忽略, 继续执行
'''
常见的字符编码(ASCII码,unicode,utf-8,gbk)相关推荐
- 字符编码ASCII、Unicode 、UTF-8 及实例汉字与Unicode码的相互转化
字符编码ASCII.Unicode .UTF-8 及实例汉字与Unicode码的相互转化 ASCII 码 我们知道,计算机内部,所有信息最终都是一个二进制值.每一个二进制位(bit)有0和1两种状态, ...
- 计算机字符编码——ASCII码和常用编码
计算机字符编码--ASCII码和常用编码 ASCII码 基本介绍 上个世纪60年代, 美国制定了一套字符编码, 对英语字符与二进制位之间的关系, 做了统一规定,这被称为ASCII码. ASCII码一共 ...
- 常见的三种字符编码ASCII、Unicode、UTF-8
发展史 ASCII 码 -> Unicode -> UTF-8 背景 计算机内部,信息都已二进制储存,每一个二进制位有 0 或 1 两种状态,采用 8 个 二进制位 (bit) 作为一个字 ...
- 前端需要搞懂的字符编码ASCII、Unicode、UTF8、UTF16等
字符集和字符编码 字符集就是字符的集合,如常见的 ASCII字符集,GB2312字符集,Unicode字符集等.这些不同字符集之间最大的区别是所包含的字符数量的不同. 字符编码则代表字符集的实际编码规 ...
- 常见的字符编码ascii、gb2312、utf-8和base64的规则
目录 常见的字符编码 ANSI ASCII 扩展 ASCII 码 GB2312 计算机中汉字的处理 区位码 GB2312双字节编码规则 三码转换 扩展阅读:为什么有机内码,避免与西文冲突 GBK 承上 ...
- java ascii 编码方式,Java 字符编码 ASCII、Unicode和UTF-8
1 ASCII码 统一规定英语字符与二进制位之间的关系.ASCII码一共规定了128个字符的编码.例如,空格"SPACE"是32(二进制00100000),大写字母A是65(二进制 ...
- 字符编码(ASCII,Unicode和UTF-8) 和 大小端
参考: https://www.cnblogs.com/skywang12345/p/3360348.html 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每 ...
- 字符编码、常见字符集解析(ASCII、Unicode、UTF-8、GB2312等)
文章目录 字符编码 ASCII Unicode UTF-8 GB2312 C++中的字符类型 python中的字符编码 小结 各种字符编码的转换是个非常容易混淆的问题,这篇文章旨在梳理字符编码.常见字 ...
- 字符,字节和编码, ASCII码, DBCS码,SBCS码 与Unicode码
字符,字节和编码, ASCII码, DBCS码,SBCS码 与Unicode码 http://www.regexlab.com/zh/encoding.htm 1. 编码问题的由来,相关概念的理解 1 ...
最新文章
- 【学习笔记】高斯整数、高斯素数、费马平方和(全部相关概念及例题详解)《初等数论及其应用》
- Shiro 权限框架使用总结
- java投票锁_Java并发编程锁之独占公平锁与非公平锁比较
- spring 判断非空提示断言
- Groovy/Spock 测试导论
- VTK:InfoVis之DelimitedTextWriter
- 20佳带给你灵感的优秀个人博客设计案例
- Android WebView重定向问题,Android WebView 重定向问题
- linux make命令实现,Linux make命令主要参数详解
- 电子书下载:Microsoft Windows Identity Foundation Cookbook
- 图像变换——图像反转
- 使用Adobe Acrobat为PDF文件添加签名(图片+签名)
- 大数据分析的作用有哪些
- Windows Server 林功能级别详解
- 《CCNA路由和交换(200-120)学习指南》——2.4节认证提要
- 使用闲置迅捷无线路由器桥接指南(扩大WIFI覆盖面)
- 企业微信集成自建应用——踩坑记录
- 小程序安全沙箱技术,将恶意代码装进“笼子”里
- Leetcode 235. Lowest Common Ancestor of a Binary Search Tree
- C# Word控件 文档保护
热门文章
- 知识共享有多难?做好这几点,问题统统解决
- bulldog2 靶机渗透
- [ubuntu]ubuntu安装opengl
- python判断一个数是奇数还是偶数_在python中检查一个数字是奇数还是偶数
- 面试官问你为什么选择做客服_在线客户服务-您的选择
- 传统单节点网站的 Serverless 上云
- /etc/ssh/ssh_config line 59: Unsupported option “gssapiauthentication“
- 科技、家电巨头混战AIoT:谁是未来十年的新入口?
- 社科院与杜兰大学金融管理硕士——承载梦想,带自己遨游世界的“风帆”
- datawindow技巧