python基础整理——ASCII码、Unicode、utf-8、gbk
2019独角兽企业重金招聘Python工程师标准>>>
编码的问题其实是各国语言多样性造成的,最初的计算机是美国发明的,而计算机只能处理数据,不能够处理文本文档。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。所以需要编码进行转换。
ASCII码:
最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535
,4个字节可以表示的最大整数是4294967295
。
由于计算机是美国人发明的,因此,最早只有127个字母被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII
编码,比如大写字母A
的编码是65
,小写字母z
的编码是122
。但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312
编码,用来把中文编进去。你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS
里,韩国把韩文编到Euc-kr
里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。
Unicode码:
因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。
UTF-8:
新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。所以,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8
编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:
字符 | ASCII | Unicode | UTF-8 |
---|---|---|---|
A | 01000001 | 00000000 01000001 | 01000001 |
中 | x | 01001110 00101101 | 11100100 10111000 10101101 |
字节 | 一个字节(8位) | 两个字节 | 英文一个字节,汉字三个字节,生僻字6个字节 |
注意:浏览网页的时候,服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器,所以你看到很多网页的源码上会有类似<meta charset="UTF-8" />
的信息,表示该网页正是用的UTF-8编码。
gbk 是中文的字符编码,用2个字节代表一个字符。
字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,
- 即先将其他编码的字符串解码(decode)成unicode,再从unicode
编码(encode)成另一种编码。 - decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。
- encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。
总得意思:想要将其他的编码转换成utf-8必须先将其解码成unicode然后重新编码成utf-8,它是以unicode为转换媒介的
s='中文'
s.decode('utf-8').encode('utf-8')
print s#以utf-8的形式输出isinstance(s,utf-8):判断s是否是unicode编码,如果是就返回true,否则返回false*s='中文'
s.decode('utf-8')
print isinstance(s,unicode) #此时输出的就是True
s=s.encode('utf-8') #又将unicode码编码成utf-8
print isinstance(s,unicode) #此时输出的就是False
'''
print sys.getdefaultencoding()s='中文'
if isinstance(s,unicode): #如果是unicode就直接编码不需要解码print s.encode('utf-8')
else:print s.decode('utf-8').encode('gb2312')
python2.7 IDE如果有中文出现需要使用如下
#!/user/bin/python
# -*- coding: cp936 -*-
转自:http://blog.csdn.net/qq_34162294/article/details/53727357
转载于:https://my.oschina.net/u/3754854/blog/1622257
python基础整理——ASCII码、Unicode、utf-8、gbk相关推荐
- python代码实现ASCII码转换
☞☞☞点击查看更多优秀Python博客☜☜☜ ASCII码转换 python代码实现ASCII码转换 ==**文章导航:==** python代码实现ASCII码转换 自己刚开始学习python不久, ...
- 手摸手带你理解 进制 字节 ASCII码 Unicode 与 字节编码(UTF-8 /16)等(下)
手摸手带你理解 进制 字节 ASCII码 Unicode 与 字节编码(UTF-8 /16)等(上) Unicode 先讲讲这个东西的规则 Unicode 通常(不是所有)用两个字节来表示 一个字符 ...
- 最基础的ASCII、Unicode、UTF-8一起来多了解点
ASCII 简介 ASCII(American Standard Code for Information Interchange-美国信息交换标准代码),是基于拉丁字母的一套电脑编码系统,主要用于显 ...
- 最基础的ASCII、Unicode、UTF-8一起来多了解点,消息队列rabbitmq面试
| 0 | NUL(null) | 空字符 | | 1 | SOH(start of headline) | 标题开始 | | 2 | STX (start of text) | 正文开始 | | 3 ...
- python 字符串与ASCII码转换的脚本
这里写自定义目录标题 #!/usr/bin/python coding=utf-8flag = 1 while flag:print(">>=================== ...
- Python:字符 - ASCII 码相互转换
简介:字符 - ASCII 码相互转换 1.chr() 用一个整数作参数,返回一个对应的字符. 2.ord() 函数是 chr() 函数(对于 8 位的 ASCII 字符串)的配对函数,它以一个字符串 ...
- Python字符与ASCII码的相互转换函数
1.字符转ASCII码 在python中有自带的函数可以实现字符转ASCII码,如下: ord('A') 返回结果类型:int 执行结果: 2.ASCII码转字符 chr(97) 返回结果类型:字符串 ...
- 【C++基础】ASCII码及常用函数
一.ASCII码 1.计算机的存储单位 1)最小单位:二进制位,单位比特/bit/b 2)基本单位:字节,单位Byte/B,1B=8b. 3)其他存储容量的单位:KB.MB.GB.TB(1TB=102 ...
- Python中实现ASCII码与字符相互转换
场景 实现ASCII码与字符的相互转换. 实现 新建mc.py # -*- coding: UTF-8 -*- # Filename :mc.py# author by : badaoc = inpu ...
最新文章
- C#使用ICSharpCode.SharpZipLib.dll压缩文件夹和文件
- 行人检测资源综述文献
- 018_SpringBoot异常处理方式-ExceptionHandle注解处理异常
- [CF1082G]Petya and Graph
- 深度神经网络DNN的多GPU数据并行框架 及其在语音识别的应用
- OpenCV 霍夫圆变换Hough Circle Transform
- 实验五 类和对象-3
- unixbench类似_UnixBench的实现介绍-阿里云开发者社区
- 渗透测试学习 十一、 其他注入漏洞汇总
- C语言自学——lesson4
- 支付宝区块链专利申请连续三年全球第一:办事效率提升1万倍
- 图像的手绘效果(PIL的应用实例)
- 计算机科学相关的期刊,计算机类期刊汇总(核心期刊,国家级期刊)
- 安科瑞预付费水电集团物业解决方案-Susie 周
- [转]下载安装IDM Integration Module和其使用方法
- 全文翻译:Deep Learning for Image Super-resolution: A Survey
- 维智创始人陶闯博士:利用数字孪生空间计算供需平衡寻找最优解|元宇宙与碳中和
- 轻松玩转iPhone 3GS(第三版)
- 开发实战分享|小程序扫码获取图书信息(内附详细教程)
- 如何建一个STM32F030工程模板(标准库版)
热门文章
- 51单片机学习笔记(清翔版)(13)——LED点阵、74HC595
- [Apple开发者帐户帮助]二、管理你的团队(3)删除团队成员
- 2018-2019-1 20165234 《信息安全系统设计基础》第八周学习总结
- ARM Cotex-M4数据手册4---System Control
- SQL server 存储过程实现统计赋值
- 添加底部小火箭+目录
- [Java面经] 关于面试的二三事.
- ExtAspNet应用技巧(十四) - 系统设置
- 诗与远方:无题(三十四)- 曾经写给妹子的一首诗
- transferto遇到的问题java.io.FileNotFoundException: C:\Users\Administrator\AppData\Local\Temp