位、字符、字节、有什么区别
1、计算机存储信息的最小单位,称之为位(bit),音译比特,二进制的一个“0”或一个“1”叫一位。
2、计算机存储容量基本单位是字节(Byte),音译为拜特,8个二进制位组成1个字节,一个标准英文字母占一个字节位置,一个标准汉字占二个字节位置。
3、计算机存储容量大小以字节数来度量,1024进位制:
1024B=1K(千)B
1024KB=1M(兆)B
1024MB=1G(吉)B
1024GB=1T(太)B
以下还有PB、EB、ZB、YB 、NB、DB,一般人不常使用了。
4、字符是一种符号,同以上说的存储单位不是一回事。
字节就是Byte,也是B,位就是bit也是b
转换关系如下:
1KB=1024B 1B= 8b
字符概念模糊,得看是什么编码,一般的ASCLL码一个字符大小是一个字节,但是也有Unicode编码,一个字符貌似16位
字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,就需要进行字符编码,以便计算机能够识别和存储各种文字。中文文字数目大,而且还分为简体中文和繁体中文两种不同书写规则的文字,而计算机最初是按英语单字节字符设计的,因此,对中文字符进行编码,是中文信息交流的技术基础。
中文名
字符集
外文名
Character set
定 义
多个字符的集合
种 类
ASCII,GB2312,BIG5,GB18030等
目录
- 1 ASCII
- ▪ 名称由来
- ▪ 特点
- ▪ 包含内容
- ▪ 技术特征
- ▪ 扩展字符集
- 2 GB2312
- ▪ 名称由来
- ▪ 特点
- ▪ 包含内容
- ▪ 技术特征
- ▪ 编码举例
- 3 BIG5
- ▪ 名称由来
- ▪ 特点
- ▪ 编码方法
- ▪ 局限性
- 4 GB18030
- ▪ 名称由来
- ▪ 特点
- ▪ 编码方法
- ▪ 包含内容
- 5 Unicode
- ▪ 名称由来
- ▪ 特征
- ▪ 编码方法
- ▪ UTF-8 编码
- ▪ 比较
ASCII
编辑
名称由来
ASCII(American Standard Code for Information Interchange,美国信息互换标准编码)是基于罗马字母表的一套电脑编码系统。 [1]
特点
它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646。
包含内容
技术特征
7位(bits)表示一个字符,共128字符,字符值从0到127,其中32到126是可打印字符。
扩展字符集
7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。
ASCII扩展字符集:它是从ASCII字符集扩充出来的,扩充后的符号增加了表格符号、计算符号、希腊字母和特殊的拉丁符号。
GB2312
编辑
名称由来
GB2312又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施。
特点
GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。
包含内容
GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
技术特征
(1)分区表示:
GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
各区包含的字符如下:01-09区为特殊符号;16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序;10-15区及88-94区则未有编码。
(2)双字节表示
两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。
“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。
编码举例
BIG5
编辑
名称由来
又称大五码或五大码,1984年由台湾财团法人信息工业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立,故称大五码。
Big5码的产生,是因为当时台湾不同厂商各自推出不同的编码,如倚天码、IBM PS55、王安码等,彼此不能兼容;另一方面,台湾政府当时尚未推出官方的汉字编码,而中国大陆的GB2312编码亦未有收录繁体中文字。
特点
Big5字符集共收录13,053个中文字,该字符集在中国台湾使用。耐人寻味的是该字符集重复地收录了两个相同的字:“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。
编码方法
局限性
尽管Big5码内包含一万多个字符,但是没有考虑社会上流通的人名、地名用字、方言用字、化学及生物科等用字,没有包含日文平假名及片假名字母。
例如台湾视“着”为“著”的异体字,故没有收录“着”字。康熙字典中的一些部首用字(如“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”等) 也没有收录到Big5之中。
GB18030
编辑
名称由来
GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。
特点
GB 18030字符集标准的出台经过广泛参与和论证,
GB18030 字符集
来自国内外知名信息技术行业的公司,信息产业部和原国家质量技术监督局联合实施。
GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。
编码方法
GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×7F码(对应于ASCII码的相应码)。双字节部分,首字节码从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。
包含内容
双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。 四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。
Unicode
编辑
名称由来
Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符集的简称,是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系统,支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发,1994年正式公布,最新版本是2012年1月31日的Unicode 6.1。
特征
Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
编码方法
Unicode 标准始终使用十六进制数字,而且在书写时在前面加上前缀“U+”,例如字母“A”的编码为 004116 和字符“?”的编码为 20AC16。所以“A”的编码书写为“U+0041”。
UTF-8 编码
UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Tranformation Format,即把Unicode转做某种格式的意思。
UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字,使得双字节的Unicode能够在现存的处理单字节的系统上正确传输。
UTF-8使用可变长度字节来储存 Unicode字符,例如ASCII字母继续使用1字节储存,重音文字、希腊字母或西里尔字母等使用2字节来储存,而常用的汉字就要使用3字节。辅助平面字符则使用4字节。
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)。
比较
位、字符、字节、有什么区别相关推荐
- 位,字节和字区别(bit,byte,word)
位(bit)是计算机中最小(基本)的单位,是个二进制位(二进制表示:0或者1) 一个字节(byte)等于8位二进制位(bit) 1Byte=8Bit (二进制表示:00000001) 机器字长(Wor ...
- 位,字节,字,字符的区别
位,字节,字,字符的区别 前言 一.位 二.字节 三.字 四.字符 1 ASCIIS码 2 UTF-8编码 3 Unicode编码 4 GBK 前言 位,字节,字是计算机存储的单位:字符是计算机中使用 ...
- c语言比特和字节,详解 比特(位,bit),字节(Byte),字符的区别 *(转)
比特(位):英文bit,是计算机晶体管的一种状态(通电与断电).就是0与1,真与假,是计算机最基本的传输单位. 示例: 2bit : 10; 4bit : 1111; 8bit : 1111 1111 ...
- bit、byte、位、字节、汉字、字符之间的区别
package com.suypower.chengyu.test; public class ByteTest { /** * byte 8 bits -128 - + 127 * 1 bi ...
- 位,字节,字,字符的关系和区别
位 位是最基本的概念,在计算机中,由于只有逻辑0和逻辑1的存在,因此很多东西.动作.数字都要表示为一串二进制的字码例如: 1001 0000 1101等等.其中每一个逻辑0或者1便是一个位.例如这个例 ...
- MySQL基础篇:位、字节和字符的关系
零. 目的 为了深入的学习MySQL数据库的相关知识,在学习MySQL数据库中数据类型之前,先总结一下位.字节.字符的关系,避免弄混. 一.位 位(bit)是计算机内部数据存储的最小单位.8个&quo ...
- window统计文本字节_在线字数统计工具-统计字符字节汉字数字标点符号-计算word文章字数-使用帮助-字的区别...
位,字,字节,字长,字符串,字符,字数区别及计算方法? 位 位是信息技术中使用的术语,也称比特(bit).是最小的信息单位.Bit是二进制数字的缩写(BInarydigiT),因为位实在是太小了,用来 ...
- 字节字符区别Java_【JAVA基础】字符数组与字节数组的区别
String.getBytes()和String.tocharArray(),字节数组和字符数组的区别 String.getBytes()是将字符串转化为一个字节数组.而String.toCharAr ...
- 位、字节、字符数的关系
位和字节的关系 1.位 bit 一个二进制数据0或1,是计算机传输的最小单元,8位是一个字节. 2.字节 byte 存储空间的计量单元,一个字节有8位,1024个字节代表1kb 3.英文和中文的不同 ...
- 按位寻址与按字节寻址的区别
按位寻址与按字节寻址的区别 按位,就是直接对一个字节的某一个位操作 按字节,就是直接对一个数操作
最新文章
- LNMP架构php-fpm相关配置
- IIS7.0 网站发布页面显示 500 - 内部服务器错误。您要查找的资源有问题,无法显示...
- 删除不再位于远程的跟踪分支
- .Net学习笔记----2015-07-10(GDI绘图)
- 【题意+推导讲解】1031 Hello World for U (20 分)_15行代码AC
- 为Android应用程序添加社会化分享功能
- stl优先队列定义可以吗_C ++ STL | 用户定义的优先级队列比较器
- c语言输出字符串长度 空格,C++指针变量:输入一个字符串,删除字符串中所有空格,输出删除空格后字符串的长度,需编写以下功能函数...
- mybatis批量更新 mysql 报错,Mybatis批量更新报错问题
- I00008 百鸡问题
- java类中代码执行顺序
- Java实现十大排序算法
- LVGL+NES|基于lvgl实现nes模拟器(lv_100ask_nes)
- 视频特征提取常用范式总结
- centos安装ghostscript+PHP扩展imagick
- 无线自组网AODV路由机制仿真源码
- 微型计算机的计算器,微机简单计算器程序设计
- ssm项目---人事管理系统:员工与部门、职位实现一对一
- 深度学习课程资源整理
- Jason和xml两者的区别
热门文章
- 短信群发助手调试笔记
- 微服务真的过时了吗?Twitter员工因为微服务被马斯克解雇了
- 关于华为鸿蒙创新的作文,关于创新的高中作文4篇
- Android自定义LayoutManager第十一式之飞龙在天
- Abel逆变换的MATLAB实现(未完成版)
- 如何给grldr.mbr和grldr改名
- python中output使用_Python使用input() output()函数输入、输出数据记录
- 几种设置开机启动的方法
- 读书感受 之 《写给年轻人的 经济学故事书》
- 计算机的数字符号化是什么,电脑输入数字变成符号怎么办