计算机常见编码一. 有关编码的基础知识

1. 位 bit 最小的单元

字节 byte 机器语言的单位

1byte=8bits

1KB=1024byte

1MB=1024KB

1GB=1024MB

2. 二进制 binary

八进制 octal

十进制 decimal

十六进制 hex

3. 字符:

是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等。

字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。

字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一个字符用多少字节表示等问题,则是由编码来决定的。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

二. 常见字符集的编码介绍:

常见的字符集有:ASCII 字符集,GB2312 字符集,BIG5 字符集,GB18030 字符集,Unicode 字符集,下面一一介绍:

1. ASCII 字符集:

 定义

美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示英语和一些西欧语言,是现今最通用的单字节编码系统。

 包含内容:

控制字符(回车键,退格,换行键等)可显示字符(英文大小写,阿拉伯数字,西文符号)扩展字符集(表格符号,计算符号,希腊字母,拉丁符号)

 编码方式:

第 0-31 号及 127 号是控制字符或通讯专用字符;第 32-126 号是字符,其中 48-57 号为 0-9 十个阿拉伯数字,65-90 号为 26 个大写英文字母,97-122 号为 26 个英文小写字母,其余为一些标点符号,运算符号等。在计算机存储单元中,一个 ASCII 码值占一个字节(8 个二进制位),最高位是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添 1;偶校验规定:正确的代码一个字节中 1 的个数必须是奇数,若非奇数,则在最高位添1。

2. GB2312 字符集:

 定义:

信息交换用汉字编码字符集。是中国标准的简体中文字符集,它所收录的汉字已经覆盖 99.75%的使用频率,在中国大陆和新加坡广泛使用。

 包含内容:

GB2312 收录了简化汉字及一般字符,序号,数字,拉丁字母,日文假名,希腊字母,俄文字母,汉语拼音符号,汉语注音字母,共 7445 个图形字符。其中包括 6763 个汉字,一级汉字 3755 个,二级汉字 3008 个。

 编码方式:

GB2312 对所收汉字进行了“分区”处理,每区含有 94 个汉字或者符号,这种表示方法也叫做“区位码”。它是用双字节表示的,前面的字节为第一字节,又称“高字节”,后面的为第二字节,“低字节”。高位字节,把 01-87 区的区号加上 0xA0(相当于数字 160);低位字节把 01-94区的区号加上 0xA0(相当于数字 160)。 举个简单的小例子:第一个汉字——“啊”,它的区号为 16,位号 01,则区位码是 1601。则高字节位:16+0xA0=0xB0;低字节位:01+0xA0=0xA1,所以“啊”的汉字处理编码为0xB0A1。

3. GBK 字符集:

 定义:

GBK 是 GB2312 字符集的扩展(K)(中国的中文编码表升级,融合了更多的中文文字符号。),它收录了 21886 个符号,它分为汉字区和图形符号区,汉字区包括 21003 个字符。GBK 字符集主要扩展了繁体中文字的支持。

4. BIG5 字符集:

 定义:

又称大五码,由台湾五家软件公司创立。因为当时台湾没有一个标准的字符集,而且 GB2312 又没有收录繁体字,所以才推出了 BIG5。

 包含内容:

BIG5 字符集共收录了 13053 个中文字,该字符集在台湾使用。但是没有考虑到社会上流通的人名,地方用字,方言用字,化学及生物科等用字,没有包含日文平假名及片假字母。

 编码方式:

BIG5 也采用双字节存储方法,一两个字节编码一个字。高位字节的编码范围是 0xA1-0xF9,低位字节的编码范围是 0xA1-0xFE。

5. GB18030 字符集:

 定义:

GB18030 字符集标准解决汉字,日文假名,朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。

 包含内容:

该标准的字符总编码空间超过 150 万个编码位,收录了 27484 个汉字,覆盖中文,日文,朝鲜语和中国少数民族文字。满足中国大陆,香港,台湾,日本和韩国等东南亚地区信息交换多文种,大字量,多用途,统一编码格式的要求。

 编码方式:

GB8030 标准采用单字节,双字节和四字节三种方式对字符编码。 单字节部分使用 0x00-0x7F 码(对应于 ASCII 码的相应码);双字节部分,首字节码从 0x81-0xFE,尾字节码分别是 0x40-0x7E 和 0x80-0xFE。四字节部分采用 0x30-0x39 作为双字节编码扩充的后缀,这样扩充的四字节编码,其范围是 0x81308130-0x0xFE39FE39,其中第一,三个字节编码位均为0x81-0xFE,第二,四个为 0x30-0x39。

6. ISO8859-1:

拉丁码表。欧洲码表用一个字节的 8 位表示。

7. Unicode 字符集:

 定义:

(国际标准码,融合了多种文字。所有文字都用两个字节来表示,Java 语言使用的就是 unicode) University multiple-object coded character set(通用多八位编码字符集),支持世界上超过 650 种语言的国际字符。Unicode 允许在同一服务器上混合使用不同语言,它为每种语言的每个字符设定了统一并且唯一的二进制编码,以满足跨平台,跨语言进行文本转换,处理的要求。

 编码方式:

Unicode 标准始终使用十六进制数字,固定使用 2 个字节来表示一个字符,共可以表示 65536 个字符。而且书写时在前面加上前缀“U+”,例如 A 的编码是 004116,则书写成“U+0041”。

 Unicode 字符集包含的编码方案:

 UTF-8: (最多用三个字节来表示一个字符。)UTF8 是 unicode 其 中 的 一 个 使 用 方 式 。 UTF 的 意 思 是 :unicode translation format,即把 unicode 转作某种格式的意思。UTF-8使用可变长度字节来存储 unicode 字符,如 ASCII 字母还是采用一个字符来存储,希腊字母等采用 2 个字符来存储,而常用的汉字要使用 3 字节,辅助平面字符则使用 4 字节。 UTF-16:使用一个或两个未分配的 16 位代码单元的序列对 unicode 代码点进行编码,即 2 个字节表示一个字符。

 UTF-32:将每一个 unicode 代码点表示为相同值的 32 位整数。

 关于 unicode 编码的一个问题:使 用 记 事 本 另 存 为 时 , 可 以 在 ANSI , GBK,Unicode ,unicode big endian 和 UTF-8 这几种编码之间相互转换。同样是 txt 文件,windows 是怎么识别编码的呢?答:平时注意的话可以发现 Unicode,unicode big endian 和 UTF-8编码的 txt 文件的开头会多出几个字节,分别是(FF,FE),(FE,FF),(EF,BB,BF)。那么这些标记都是基于什么标准呢?

ANSI 字符集:

ASCII 字符集,以及由此派生并兼容的字符集。UTF-16 与 UTF-8:如“连通”两个字,在 UTF-16 中为:DE 8F 1A 90,两个字节决定一个汉字;在 UTF-8 中则为:E8 BF 9E E9 80 9A,即 3个字节决定一个字符。当一个软件打开一个文本时,首先是要决定这个文本究竟是使用哪种字符集的哪种编码保存的,软件一般采用三种方式来决定文本的字符集和编码:检测文件头标识,提示用户选择,根据一定的规则猜测。不同编码方式的开头字节如下:EF BB BF UTF-8FF FE UTF-16,little endianFE FF UTF-16,big endianFF FE 00 00 UTF-32, little endian00 00 FE FF UTF-32,big endian注:endian 是指字节序,big endian(大尾)和 little endian(小尾)是 CPU 处理多字节数的不同方式。例如“汉”的 unicode 编码是 6C49,写到文件中,如果将 6C 写在前面就是 big endian,将 49写在前面就是 little endian。

8.总结:

从 ASCII,GB2312,GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一的处理。区分中文编码的方法是高字节的最高位不为0。计算机使用的缺省编码方式就是计算机的内码。有的中文 windows 的缺省内码还是 GBK,可以通过 GB18030 升级包升级到 GB1030。不过相对 GBK 新增的字符,普通人很难用到的,通常我们用 GBK 来指代中文 windows 内码。GB2312 的原文是区位码,从区位码到内码,需要在高字节和低字节上分别加上 A0。

计算机常见编码一. 有关编码的基础知识字符集相关推荐

  1. 全国二级计算机理论知识,2021年度全国计算机等级考试二级MSOffice常考知识点基础知识部分.doc...

    计算机发展.类型及其应用领域. 计算机(computer)是一种能自动.高速进行大量算术运算和逻辑运算电子设备. 其特点为:速度快.精度高.存储容量大.通用性强.具备逻辑判断和自动控制能力. 第一台计 ...

  2. 全国计算机等级考试二级教程——公共基础知识(2013年版)pdf,全国计算机等级考试2级教程:公共基础知识(2013年版)...

    <全国计算机等级考试2级教程:公共基础知识(2013年版)>是根据教育部考试中心颁布的<全国计算机等级考试二级公共基础知识考试大纲<2913年版)>的要求,在2012年版 ...

  3. c语言上机基础知识,国家计算机二级c语言历年上机真题基础知识(文档)

    公职党棍发绿校规环靶千山:募捐农业絮絮片头漏水.劣品民忧品质女怪广灵?老迈垫被变压须眉过伏乐捐调派.肉商成殓靶台饬令蜡缬共谋哈珀清镇.鬼混气状古碑门首国庆称愿滑坡. 旋子石心汶上酬劳率尔毛蚶了解!小管 ...

  4. 计算机的应用范围归纳起来主要有,计算机应用基础知识概述.doc

    第1章 计算机应用基础知识 1.1 计算机的发展概述 世界上第一台电子计算机于1946年2月在美国宾夕法尼亚大学诞生,取名为ENIAC(读作"埃尼克"),即Electronic N ...

  5. C语言2011计算机二级c语言考点:c语言的基础知识

    实验二c语言的基础知识 C语言[目的与要求] 1. 掌握c语言数据类型, 熟悉如何定义一个整型.字符型.实型变量, 以及对它们赋值的方法, 理解以上类型数据输出时所用的格式转换符. 2. 学会运用c的 ...

  6. 世界上第一台计算机釆用的主要是什么电子管,基础知识-网络教育

    基础知识-网络教育 (89页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 21.9 积分 基础知识单选题1. 下列关于世界上第一台电子计算机ENIAC的叙 ...

  7. 大学计算机专业业余学PS,大学ps_电脑基础知识_it计算机_专业资料—培训.ppt

    大学ps_电脑基础知识_it计算机_专业资料-培训 1.5 Photoshop CS的基本概念 在进行图像处理之前需对Photoshop中有关图像的像素与分辨率.文件格式.色彩模式及图层等基本概念进行 ...

  8. 全国计算机二级office基础知识,全国计算机二级office办公软件高级应用考试基础知识...

    全国计算机二级office办公软件高级应用考试基础 计算机二级 office 高级应用考试基础知识 计算机的发展.类型及其应用领域. 1. 计算机(computer)是一种能自动.高速进行大量算术运算 ...

  9. 计算机与软件工程-研究生复试-专业面试-零碎基础知识-2

    Java和C 在构造器和编译器在多继承方面区别 你觉得数据结构的算法和机器学习的算法有什么区别 数据结构让我掌握如何与机器交互,用计算机的视角去思考问题,机器学习教会计算机如何理解人类世界的问题,用人 ...

最新文章

  1. LeetCode刷题-5
  2. arduino如何调用mysql,【 实测可用 】Arduino 直接访问 mysql
  3. mysql画事实表_sql生成事实表数据库
  4. 里加一列为1_一素一菩提 @ 素牛排薯泥amp;百香龙珠气泡饮
  5. html标题前色块,CSS轻松实现色块标题标识
  6. IOS开发基础知识--碎片23
  7. TreeView控件的基本使用 界面篇 winform
  8. Iso时间转java instant,Java /将ISO-8601(2010-12-16T13:33:50.513852Z)转换为
  9. android 卡片收缩展开,jQuery和CSS3炫酷堆叠卡片展开和收缩特效
  10. Go基础系列:接口类型断言和type-switch
  11. 三星智能共享计算机软件,Samsung Smart View
  12. 向已经存在的Kubernetes集群中添加新的worker节点
  13. [家里蹲大学数学杂志]第039期高等数学习题集
  14. 2021年教师资格证 科目三 高中数学 课程标准 简答题
  15. 人似秋鸿来有信,事如春梦了无痕
  16. lwip --- (十六)TCP建立流程
  17. pdf文档里面如何删除其中一页
  18. PADS9.5—layout中导入.asc文件时遇到的问题
  19. RGB颜色转换为16进制颜色
  20. 【java】打印罗马字母和希腊字母(多线程)

热门文章

  1. Android 发送系统广播ACTION_MEDIA_SCANNER_SCAN_FILE更新相册无效
  2. CCF- CSP201512-2消除类游戏 满分题解
  3. Python爬虫实战一 | 抓取取校花网的所有妹子
  4. MATLAB之Curve Fitting Tool的使用及说明
  5. QOpenGl报错:QOpenGLShader::compile(Fragment): ERROR: 3:6: ‘texture‘ : no matching overloaded function
  6. MH-100X微波运动传感器介绍
  7. eclipse查看代码git历史_Eclipse中GIT历史版本比较和回退
  8. 运用python算寄送包裹重量
  9. Unhandled exception at 0x0fd238de in face_rec.exe: 0xC000001D: Illegal Instruction
  10. 产品思维分享课 | 围绕长视频的社区建设