day3-3.4字符编码与转码
详细文章:
http://www.cnblogs.com/yuanchenqi/articles/5956943.html
http://www.diveintopython3.net/strings.html
需知:
1.在python2默认编码是ASCII, python3里默认是unicode
2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), so utf-16就是现在最常用的unicode版本, 不过在文件里存的还是utf-8,因为utf8省空间
3.在py3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string
gbk-utf8
s.decode("gbk").encode("utf-8")先转为unicode再转为utf-8
utf-8-gbk
s.decode("utf-8").encode("gbk")先转为unicode再转为gbk
in python3
#-*-coding:gb2312 -*- #这个也可以去掉 __author__ = 'Alex Li'import sys print(sys.getdefaultencoding())msg = "我爱北京天安门" #msg_gb2312 = msg.decode("utf-8").encode("gb2312") msg_gb2312 = msg.encode("gb2312") #默认就是unicode,不用再decode,喜大普奔 gb2312_to_unicode = msg_gb2312.decode("gb2312") gb2312_to_utf8 = msg_gb2312.decode("gb2312").encode("utf-8")print(msg) print(msg_gb2312) print(gb2312_to_unicode) print(gb2312_to_utf8)
转载于:https://www.cnblogs.com/714070273-ling/p/8252738.html
day3-3.4字符编码与转码相关推荐
- python day2 python基础 列表、元组操作 字符串操作 字典操作 集合操作 文件操作 字符编码与转码...
本节内容 列表.元组操作 字符串操作 字典操作 集合操作 文件操作 字符编码与转码 1. 列表.元组操作 列表是我们最以后最常用的数据类型之一,通过列表可以对数据实现最方便的存储.修改等操作 定义列表 ...
- php查看字符编码,PHP实现检测当前字符编码并转码的方法
本文主要和大家分享PHP实现检测当前字符编码并转码的方法,结合文字和代码,希望能帮助到大家. 一.检测当前字符串编码并将编码改为utf-8 1 获取当前字符串的编码 $encode = mb_dete ...
- Python之令人心烦意乱的字符编码与转码
ASC-II码:英文1个字节(8 byte),不支持中文: 高大上的中国,扩展出自己的gbk.gb2312.gb2318等字符编码. 由于各个国家都有自己的编码,于是就需要统一的编码形式用于国际流传, ...
- 常见的字符编码(ASCII码,unicode,utf-8,gbk)
常见单位换算 bit 位 计算机的最小表示单位(0,1) bytes 字节 计算机最小的存储单位,缩写B 1 B = 8 bit 1 KB = 1024 B 1 MB = 1024 KB 1 GB = ...
- 字符编码(ASCII码、音码、形码、区位码,国标码、机内码,字形码)
1.西文字符编码 ASCII(美国信息交换标准代码)字符编码,该编码标准已经被国际标准化组织(ISO)指定为国际标准,是国际上使用最广泛的一种字符编码.标准的ASCII码采用二进制编码,他可以表示 ...
- 搞清楚字符编码08-万国码[4](utf-8)
这篇博客介绍万国码中的实际存储编码utf-8 utf-8是什么 utf-8是一种实际存储编码 它即可以存储理论编码ucs2又可以存储理论编码ucs4 变长存储,各个字符编码的长度可能不相同. 它是为了 ...
- 搞清楚字符编码07-万国码[3]
这篇博客介绍万国码中的实际存储编码ucs-2 变长存储与不变长存储 ucs-2是我们介绍的第一种实际存储编码,对实际存储编码我们要先说两个概念:变长存储与不变长存储 变长存储:各个字符编码的长度可能不 ...
- python转码方法_004-python基础-字符编码与转码
一.三种编码方式 ASCII:是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 ...
- php 查看当前字符编码,PHP检测当前字符编码并转码
一.检测当前字符串编码并将编码改为utf-8 1 获取当前字符串的编码 $encode = mb_detect_encoding($str, array("ASCII",'UTF- ...
- 搞清楚字符编码06-万国码[2]
这篇博客介绍理论编码ucs4 编码范围 ucs4共有4个字节,理论允许的编码范围为 00000000 00000000 00000000 00000000 至 11111111 11111111 11 ...
最新文章
- 服务器设备监控系统,服务器设备监控系统
- undistortPoints()函数用法总结
- C# 开发和使用中的33个技巧
- 模式识别,计算机视觉,计算机图形学,智能控制,信号处理,语音识别,知识处理,机器学习,数据挖掘领域区别
- 无法使用共享文件夹?VMware怎么安装VMware Tools? (GCC、kernel headers、make)(失败)
- 排球计分程序(三)—— 模型类的设计与实现
- mysql-nt.exe w3wp.exe cpu 100%_w3wp.exe(IIS ) CPU 占用 100% 的常见原因及解决办法
- 2020蓝桥杯省赛---java---C---3( 跑步训练)
- 25,000,000 行的代码就问你敢不敢动?!
- Java基础系列7:国际化程序简介
- 并发教程--JAVA5中 计数信号量(Counting Semaphore)例子
- 如何注册和获取百度地图的密钥
- 【单片机】2.5 AT89S52的并行I/O端口
- sql 2008 R2 备份和还原
- 合肥工业大学暑期“三下乡”——探访悠悠古村 发扬传统文化
- 大话IT第十期:由Windows 8引发的Wintel内讧
- libjpeg-turbo使用实例(编解码jpeg、jpg转bmp、bmp转jpg代码)
- iOS开发-舒尔特表
- MAC地址漂移和应对(二)
- 2019牛客暑期多校训练营(第九场)A——The power of Fibonacci(循环节+中国剩余定理(互质)||广义BM)
热门文章
- ORA-12514: TNS:listener does not currently know of service …
- 令前端工程师追捧的一款前端开发IDE工具WebStorm
- WPF使用中知识点总结一
- inner join、 left join 、right join、full outer join之间的区别
- 推荐一个 Java 实体映射工具 MapStruct 1
- Js对接口数据归类整理
- C++17 部分实用特性
- 微服务学习之服务治理、服务注册与发现、Eureka【Hoxton.SR1版】
- 链表常见算法题总结(Java)
- 每天一道剑指offer-重建二叉树