GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。GB 18030共收录汉字70,244个。

中文名

信息技术 中文编码字符集

外文名

GB 18030

学科类别

计算机

发布日期

2000-3-17;2005-11-8

发布机构

国家质量技术监督局

范    围

共收录汉字70,244个

目录

  1. 1 GB 18030的特点
  2. 2 概念简介
  3. 3 标准要求
  4. 4 Unicode支持
  5. 5 字节结构
  1. 6 版本
  2. 7 版本区别
  3. 8 适用范围
  4. 9 达到要求
  5. 10 总体结构
  1. 11 字汇
  2. 12 汉字
  3. 13 版本变化
  4. 14 制定标准
  5. 15 标准历程

GB 18030的特点

编辑

GB 18030主要有以下特点 [1]  :

  • 采用变长多字节编码,每个字可以由1个、2个或4个字节组成。

  • 编码空间庞大,最多可定义161万个字符。

  • 完全支持Unicode,无需动用造字区即可支持中国国内少数民族文字、中日韩和繁体汉字以及emoji等字符。

GB 18030在微软视窗系统中的代码页为54936。

概念简介

编辑

国家标准GB18030-2000《信息交换用汉字编码字符集基本集的补充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。

GB18030-2000编码标准是由信息产业部和国家质量技术监督局在2000年 3月17日联合发布的,并且将作为一项国家标准在2001年的1月正式强制执行。

GB18030-2005《信息技术中文编码字符集》是我国制订的以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准,其中收入汉字70000余个。 [2]

标准要求

编辑

GB 18030 的当前版本为 GB 18030-2005。现行版本为国家质量监督检验总局和中国国家标准化管理委员会于2005年11月8日发布,2006年5月1日实施;是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。 本规格的初版“GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》”是由中华人民共和国信息产业部电子工业标准化研究所起草,由国家质量技术监督局于2000年3月17日发布。在GBK基础上增加了CJK统一汉字扩充A的汉字。

此标准内的单字节编码部分、双字节编码部分,和四字节编码部分收录的少数中日韩统一表意文字扩展A区汉字,为强制性标准。其他部分则属于规模性标准。在中华人民共和国境内所有软件产品,都需要支持这个同时包含单字节、双字节和四字节编码的规格。

Unicode支持

编辑

GB 18030在其标准中以码表形式定义了除去代理对外的全部Unicode码位的定义,因此算得上是一种Unicode的变换格式(UTF)。由于GB 18030基本上是绕开已分配的码点去指定需要对应的Unicode,其变换和UTF-8相比要复杂得多。在日常实现上,常常会直接使用一个偏移量表 [3]  。

GB 18030—2005与GB18030—2000、GBK相比,去除了很多原来映射在PUA中的编码。后来剩余的24个PUA码位也在Unicode 4.1中加上,如下所示。

国标码码表中私有区码位的演变

GB 字节串

Unicode 码位

   

GBK 1.0

GB 18030-2005

Unicode 4.1

 

A6D9

 

E78D ()

FE10 (︐)

A6DA

 

E78E ()

FE12 (︒)

A6DB

 

E78F ()

FE11 (︑)

A6DC

 

E790 ()

FE13 (︓)

A6DD

 

E791 ()

FE14 (︔)

A6DE

 

E792 ()

FE15 (︕)

A6DF

 

E793 ()

FE16 (︖)

A6EC

 

E794 ()

FE17 (︗)

A6ED

 

E795 ()

FE18 (︘)

A6F3

 

E796 ()

FE19 (︙)

A8BC

E7C7 ()

1E3F (ḿ)

1E3F (ḿ)

A8BF

E7C8 ()

01F9 (ǹ)

01F9 (ǹ)

A989

E7E7 ()

303E (〾)

303E (〾)

A98A

E7E8 ()

2FF0 (⿰)

2FF0 (⿰)

A98B

E7E9 ()

2FF1 (⿱)

2FF1 (⿱)

A98C

E7EA ()

2FF2 (⿲)

2FF2 (⿲)

A98D

E7EB ()

2FF3 (⿳)

2FF3 (⿳)

A98E

E7EC ()

2FF4 (⿴)

2FF4 (⿴)

A98F

E7ED ()

2FF5 (⿵)

2FF5 (⿵)

A990

E7EE ()

2FF6 (⿶)

2FF6 (⿶)

A991

E7EF ()

2FF7 (⿷)

2FF7 (⿷)

A992

E7F0 ()

2FF8 (⿸)

2FF8 (⿸)

A993

E7F1 ()

2FF9 (⿹)

2FF9 (⿹)

A994

E7F2 ()

2FFA (⿺)

2FFA (⿺)

A995

E7F3 ()

2FFB (⿻)

2FFB (⿻)

FE50

E815 ()

2E81 (⺁)

2E81 (⺁)

FE51

E816 ()

E816 ()

20087 (

什么是GB18030编码?相关推荐

  1. UTF-8/UTF-16/UTF-32、Unicode和GB18030编码的关系

     1.除了极其少量的API,操作系统内部操作串已经是UNICODE的了,使用ANSI版本的API只会增加额外的转换操作,性能其实降低了. 2.对于多语言混合的字符串,如果采用ANSI编码,显示一定 ...

  2. 有关GB18030编码来由的传说

    简单说一下我对这段历史的理解吧,说错了欢迎大家指正. 1,GB2312是很老的东西了,早就发现不够用了. 2,94年(还是之前)国家推出了建议性标准gb13000,这个标准其实就是utf-8标准(除了 ...

  3. php gb18030 utf-8,Unicode UTF-8与GB18030编码解析(golang)

    最早接触到编码问题时,无非是关于『乱码』一词,当某个程序或者网页或者数据库或者IDE中一看出现了乱码,就马上知道这是字符编码与解码不匹配,改下编码就好,就因为这个事情太简单,容易解决,甚至在一段时间看 ...

  4. [转]各种编码ANSI、GB2312、GBK、GB18030、UNICODE以及UTF-8傻傻分不清!

    计算机编程中的编码一直是让新手非常头疼的问题,特别是 GBK.GB2312.UTF-8 这三个比较常见的网页编码的区别,更是让许多新手晕头转向,怎么解释也解释不清楚,看一遍貌似懂了,但实际使用的时候又 ...

  5. 字符集编码详解【ASCII 、GB2312、GBK、GB18030、unicode、UTF-8】(转)

    ASCII字符集编码 ASCII码是7位编码,编码范围是0x00-0x7F.ASCII字符集包括英文字母.阿拉伯数字和标点符号等字符.其中0x00-0x20和0x7F共33个控制字符. 只支持ASCI ...

  6. UNICODE、GB18030、ASCII编码

    1.GB18030 编码 GB18030编码采用单字节.双字节.四字节分段编码方案,具体码位见下文.GB18030向下兼容GBK和GB2312编码. 国家标准GB18030-2005<信息技术 ...

  7. 字符集、字符编码、国际化、本地化简要总结(UNICODE/UTF/ASCII/GB2312/GBK/GB18030)

    PS:要转载请注明出处,本人版权所有. PS: 这个只是基于<我自己>的理解, 如果和你的原则及想法相冲突,请谅解,勿喷. 环境说明   普通的linux 和 普通的windows.    ...

  8. ASCII 、GB2312、GBK、GB18030、unicode、UTF-8字符集编码详解

    ASCII码表在线查询: http://www.weste.net/tools/ASCII.asp ASCII字符集编码 ASCII码是7位编码,字符在计算机中以其ASCII码方式表示,其长度为1个字 ...

  9. ASCII 、GB2312、GBK、GB18030、unicode、UTF-8字符集编码详解(转载)

    ASCII字符集编码 ASCII码是7位编码,字符在计算机中以其ASCII码方式表示,其长度为1个字节, 有符号字符型数.编码范围是0x00-0x7F(0~127).ASCII字符集包括英文字母.阿拉 ...

最新文章

  1. TMB计算的小工具-calculate_TMB.exe
  2. 【转】Java中关于异常处理的十个最佳实践
  3. xmanager 开启X11转发失败问题解决
  4. python是一门什么课程-Python究竟是一门怎样的语言,Python为什么这么火?
  5. php正则替换imgsrc_php如何替换img中src内容
  6. 【深入浅出jQuery】源码浅析--整体架构(转)
  7. C++设计模式之桥接模式
  8. 论文浅尝 | 使用变分推理做KBQA
  9. 全国各高校开学时间汇总!
  10. python圆形按钮_小白用python写个贪吃蛇给小白看
  11. Activemq判断队列存活脚本(一)
  12. Unity3D基础35:五彩砖块
  13. Myeclipse如何使用自带git工具向远程仓库提交代码(转)
  14. 2021-08-22 初识过滤器
  15. windows下安装informix数据库服务端
  16. 平板集热器的集热量和热效率计算的Python程序
  17. GetX概览 — Flutter 开发的百宝箱
  18. 《洞察设计模式的底层逻辑》读后感
  19. 如何快速识别图片中的文字?建议使用者两种方法
  20. 怎么看linux Java版本,查看linux的java版本信息

热门文章

  1. numpy中按条件查找,搜索某些值的方法
  2. SimpleWord 简词开发记录笔记
  3. 黑马程序员_计算机编码技术
  4. Windows浏览器无法联网,提示代理服务器没有响应
  5. 使用Typora编辑器编写md文档插入图片方法
  6. 文件上传到云服务器对象存储oos流程
  7. 饿了么商家开放平台踩坑记录1,php更新商品信息提示业务异常BUSINESS_ERROR by勤勤学长 318692996
  8. Vue elementui 实现表格selection的默认勾选
  9. 企查查之seleium自动化操作
  10. linux开源邮件系统zea,Zmail