1、计算机存储信息的最小单位,称之为位(bit),音译比特,二进制的一个“0”或一个“1”叫一位。
2、计算机存储容量基本单位是字节(Byte),音译为拜特,8个二进制位组成1个字节,一个标准英文字母占一个字节位置,一个标准汉字占二个字节位置。
3、计算机存储容量大小以字节数来度量,1024进位制:
1024B=1K(千)B
1024KB=1M(兆)B
1024MB=1G(吉)B
1024GB=1T(太)B
以下还有PB、EB、ZB、YB 、NB、DB,一般人不常使用了。
4、字符是一种符号,同以上说的存储单位不是一回事。

字节就是Byte,也是B,位就是bit也是b
转换关系如下:
1KB=1024B 1B= 8b
字符概念模糊,得看是什么编码,一般的ASCLL码一个字符大小是一个字节,但是也有Unicode编码,一个字符貌似16位

字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,就需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。

中文名

字符集

外文名

Character set

定    义

多个字符的集合

种    类

ASCII,GB2312,BIG5,GB18030等

目录

  1. 1 ASCII
  2. ▪ 名称由来
  3. ▪ 特点
  4. ▪ 包含内容
  5. ▪ 技术特征
  6. ▪ 扩展字符集
  7. 2 GB2312
  1. ▪ 名称由来
  2. ▪ 特点
  3. ▪ 包含内容
  4. ▪ 技术特征
  5. ▪ 编码举例
  6. 3 BIG5
  7. ▪ 名称由来
  8. ▪ 特点
  1. ▪ 编码方法
  2. ▪ 局限性
  3. 4 GB18030
  4. ▪ 名称由来
  5. ▪ 特点
  6. ▪ 编码方法
  7. ▪ 包含内容
  8. 5 Unicode
  1. ▪ 名称由来
  2. ▪ 特征
  3. ▪ 编码方法
  4. ▪ UTF-8 编码
  5. ▪ 比较

ASCII

编辑

名称由来

ASCII(American Standard Code for Information Interchange,美国信息互换标准编码)是基于罗马字母表的一套电脑编码系统。 [1]

特点

它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646。

包含内容

控制字符:回车键、退格、换行键等。

可显示字符:英文大小写字符、阿拉伯数字和西文符号。

技术特征

7位(bits)表示一个字符,共128字符,字符值从0到127,其中32到126是可打印字符。

扩展字符集

7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。

ASCII扩展字符集:它是从ASCII字符集扩充出来的,扩充后的符号增加了表格符号、计算符号、希腊字母和特殊的拉丁符号。

GB2312

编辑

名称由来

GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。

特点

GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。

包含内容

GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

技术特征

(1)分区表示:

GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。

各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。

(2)双字节表示

两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。

“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。

编码举例

以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。

BIG5

编辑

名称由来

又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。

Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。

特点

Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。

编码方法

Big5码使用了双字节储存方法,以两个字节来编码一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9,低位字节的编码范围0x40-0x7E及0xA1-0xFE。

各编码范围对应的字符类型如下:0xA140-0xA3BF为标点符号、希腊字母及特殊符号,另外于0xA259-0xA261,存放了双音节度量衡单位用字:兙兛兞兝兡兣嗧瓩糎;0xA440-0xC67E为常用汉字,先按笔划再按部首排序;0xC940-0xF9D5为次常用汉字,亦是先按笔划再按部首排序。

局限性

尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假名字母。

例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。

GB18030

编辑

名称由来

GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。

特点

GB 18030字符集标准的出台经过广泛参与和论证,

GB18030 字符集

来自国内外知名信息技术行业的公司,信息产业部和原国家质量技术监督局联合实施。

GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。

编码方法

GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分,首字节码从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。

包含内容

双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。 四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。

Unicode

编辑

名称由来

Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2012年1月31日的Unicode 6.1。

特征

Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

编码方法

Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。

UTF-8 编码

UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Tranformation Format,即把Unicode转做某种格式的意思。

UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。

UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。

比较

UTF-16 和 UTF-32 编码

UTF-32、UTF-16和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案,UTF-16 使用一个或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码;UTF-32 即将每一个 Unicode 代码点表示为相同值的 32 位整数。

位、字符、字节、有什么区别相关推荐

  1. 位,字节和字区别(bit,byte,word)

    位(bit)是计算机中最小(基本)的单位,是个二进制位(二进制表示:0或者1) 一个字节(byte)等于8位二进制位(bit) 1Byte=8Bit (二进制表示:00000001) 机器字长(Wor ...

  2. 位,字节,字,字符的区别

    位,字节,字,字符的区别 前言 一.位 二.字节 三.字 四.字符 1 ASCIIS码 2 UTF-8编码 3 Unicode编码 4 GBK 前言 位,字节,字是计算机存储的单位:字符是计算机中使用 ...

  3. c语言比特和字节,详解 比特(位,bit),字节(Byte),字符的区别 *(转)

    比特(位):英文bit,是计算机晶体管的一种状态(通电与断电).就是0与1,真与假,是计算机最基本的传输单位. 示例: 2bit : 10; 4bit : 1111; 8bit : 1111 1111 ...

  4. bit、byte、位、字节、汉字、字符之间的区别

    package com.suypower.chengyu.test; public class ByteTest { /**   * byte 8 bits -128 - + 127   * 1 bi ...

  5. 位,字节,字,字符的关系和区别

    位 位是最基本的概念,在计算机中,由于只有逻辑0和逻辑1的存在,因此很多东西.动作.数字都要表示为一串二进制的字码例如: 1001 0000 1101等等.其中每一个逻辑0或者1便是一个位.例如这个例 ...

  6. MySQL基础篇:位、字节和字符的关系

    零. 目的 为了深入的学习MySQL数据库的相关知识,在学习MySQL数据库中数据类型之前,先总结一下位.字节.字符的关系,避免弄混. 一.位 位(bit)是计算机内部数据存储的最小单位.8个&quo ...

  7. window统计文本字节_在线字数统计工具-统计字符字节汉字数字标点符号-计算word文章字数-使用帮助-字的区别...

    位,字,字节,字长,字符串,字符,字数区别及计算方法? 位 位是信息技术中使用的术语,也称比特(bit).是最小的信息单位.Bit是二进制数字的缩写(BInarydigiT),因为位实在是太小了,用来 ...

  8. 字节字符区别Java_【JAVA基础】字符数组与字节数组的区别

    String.getBytes()和String.tocharArray(),字节数组和字符数组的区别 String.getBytes()是将字符串转化为一个字节数组.而String.toCharAr ...

  9. 位、字节、字符数的关系

    位和字节的关系 1.位 bit 一个二进制数据0或1,是计算机传输的最小单元,8位是一个字节. 2.字节 byte 存储空间的计量单元,一个字节有8位,1024个字节代表1kb 3.英文和中文的不同 ...

  10. 按位寻址与按字节寻址的区别

    按位寻址与按字节寻址的区别 按位,就是直接对一个字节的某一个位操作 按字节,就是直接对一个数操作

最新文章

  1. LNMP架构php-fpm相关配置
  2. IIS7.0 网站发布页面显示 500 - 内部服务器错误。您要查找的资源有问题,无法显示...
  3. 删除不再位于远程的跟踪分支
  4. .Net学习笔记----2015-07-10(GDI绘图)
  5. 【题意+推导讲解】1031 Hello World for U (20 分)_15行代码AC
  6. 为Android应用程序添加社会化分享功能
  7. stl优先队列定义可以吗_C ++ STL | 用户定义的优先级队列比较器
  8. c语言输出字符串长度 空格,C++指针变量:输入一个字符串,删除字符串中所有空格,输出删除空格后字符串的长度,需编写以下功能函数...
  9. mybatis批量更新 mysql 报错,Mybatis批量更新报错问题
  10. I00008 百鸡问题
  11. java类中代码执行顺序
  12. Java实现十大排序算法
  13. LVGL+NES|基于lvgl实现nes模拟器(lv_100ask_nes)
  14. 视频特征提取常用范式总结
  15. centos安装ghostscript+PHP扩展imagick
  16. 无线自组网AODV路由机制仿真源码
  17. 微型计算机的计算器,微机简单计算器程序设计
  18. ssm项目---人事管理系统:员工与部门、职位实现一对一
  19. 深度学习课程资源整理
  20. Jason和xml两者的区别

热门文章

  1. 短信群发助手调试笔记
  2. 微服务真的过时了吗?Twitter员工因为微服务被马斯克解雇了
  3. 关于华为鸿蒙创新的作文,关于创新的高中作文4篇
  4. Android自定义LayoutManager第十一式之飞龙在天
  5. Abel逆变换的MATLAB实现(未完成版)
  6. 如何给grldr.mbr和grldr改名
  7. python中output使用_Python使用input() output()函数输入、输出数据记录
  8. 几种设置开机启动的方法
  9. 读书感受 之 《写给年轻人的 经济学故事书》
  10. 计算机的数字符号化是什么,电脑输入数字变成符号怎么办