关于GB18030汉字编码标准集

  清华大学经济管理硕士,信息产业部电子工业标准化研究所副所长,全国信息技术标准化技术委员会副秘书长,承担多项国家级项目的标准化工作,并曾出版多本著述。

  国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是未来我国计算机系统必须遵循的基础性标准之一。为保证该标准顺利贯彻执行,国家质监总局将在9月1日起首先对影响广泛的计算机操作系统进行执法检查,凡不符合该标准的产品,视为不合格产品。为此,全国信息技术标准化技术委员会将根据有关标准和规范,组织对市场上主要的操作系统产品进行标准符合性检测。

  检测要求及标准的制定

  1.须经检测的产品范围

  GB18030是信息产品必须遵循的基础性标准,考虑到一些客观实际,采取从基础抓起,分步实施的策略。本次对必须经检测产品的范围规定如下:

  ●个人计算机操作系统产品须经标准符合性测试,其他产品暂不做要求;

  ●凡是在GB 18030发布日期(2000年3月17日)前正式发布或出厂的产品,视为历史性产品,不在GB 18030的监督检查范围之内;

  ●在2000年3月17日后对历史性产品的更新版本或升级版本作为新产品对待;

  ●凡是在GB 18030实施过渡期间(即2000年3月17日至2001年8月31日)正式发布或出厂的产品,应符合GB 18030相关要求。不符合标准要求的产品应采用补救措施,以达到符合标准的相关要求。补救措施应得到全国信息技术标准化技术委员会的认可;

  ●凡是在GB 18030过渡期(即2001年8月31日)后正式发布或出厂的产品,必须符合GB 18030相关要求。

  2.关于标准符合性测试

  为了配合GB 18030的实施,信息处理产品标准符合性检测中心(设在信息产业部电子工业标准化研究所)开展了GB 18030各项测试的准备工作,并且对国内外多个产品进行了测试。

  为了指导标准实现者沿着正确的方向尽快在产品上实现GB 18030,信息处理产品标准符合性检测中心于2000年11月提出了《GB 18030标准符合性检测规范》。《检测规范》对检测使用的软件和硬件环境、测试要求、测试步骤、适用范围等做了明确而详细的规定。

  检测一般要求如下:

  ●字汇完整性:产品的字汇范围应是国家标准GB 18030中所有给出字形的字符;

  ●体系正确性:产品必须能够正确识别和处理按照国家标准GB 18030进行编码的文本文件。

  需要说明的是:检测范围不包括嵌入系统,如PDA、手机;单字节货币符号的编码不在检测范围之内;操作系统为近期检查重点。

  3.对少数民族文字的支持

  ●产品应具备支持GB 18030所规定我国少数民族文字编码空间的能力;

  ●销往我国少数民族地区的产品,鼓励安装当地少数民族字体和输入方法。

  4.按国际惯例制定标准

  GB 18030收录了27484个汉字,总编码空间超过150万个码位,为解决人名、地名用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。

  目前,我国大部分计算机系统仍然采用GB 2312编码。GB 18030与GB 2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小。从我国信息技术和信息产业发展的角度出发,考虑到解决我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持,采用GB 18030是我国目前较好的选择,而GB 13000.1更适用于未来国际间的信息交换。考虑到GB 18030和GB 13000的兼容问题,标准起草组编制了GB 18030与GB 13000.1的代码映射表,使得两个编码体系可以自由转换。同时,还开发了GB 18030基本点阵字型库。

  世界许多国家和地区从方便本国和民族应用的角度出发,制定了相应的编码标准和内码体系,如日本的JIS X 0208和JIS X 0212,韩国的KS C 5601和KS C 5657等,这是国际上采用的通行惯例。制定GB 18030同样符合国际惯例,它全面兼容GB 2312,在字汇上兼容GB 13000.1,可以充分利用已有资源,保证不同系统间的兼容性,最大限度地共享资源,为我国软件产业留有巨大的发展空间。可以相信,GB 18030的实施将有利于国产软件的发展并形成规模,使我国的中文信息技术再上一个台阶。

  从沿革看新标准

  1980年我国颁布了第一个汉字编码字符集标准,即GB 2312-80《信息交换用汉字编码字符集基本集》。该标准共收了6763个汉字及常用符号,奠定了中文信息处理的基础。

  随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB 13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需要有一个过程,目前还不能完全解决我国当前应用的迫切需要。

  考虑到GB 13000的完全实现有待时日,以及GB 2312编码体系的延续性和现有资源和系统的有效利用与过渡,我们选择了在GB 2312(GB 2311)的基础上进行扩充,并且在字汇上与GB 13000.1兼容的方案,研制一个新的标准——汉字编码基本集的扩充,进而完善GB 2312,以满足我国邮政、户政、金融、地理信息系统等应用的迫切需要。

  此项目业已列入一九九八年国家标准制定计划。1998年10月,由信息产业部电子四所、北京大学计算机技术研究所、北大方正集团、新天地公司、四通新世纪公司、中科院软件所、长城软件公司、中软总公司、金山软件公司和联想公司的技术人员组成标准起草组。在标准研制过程中,全国信息技术标准化技术委员会多次召集标准起草组和知名公司对标准草案进行充分地研究论证,并且特邀了微软公司、惠普公司、Sun公司和IBM公司等参加,广泛征求意见。标准起草组经过反复斟酌和验证,提出了标准制定原则——与GB 2312信息处理交换码所对应的事实上的内码标准兼容,在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK扩充A的字符,并且确定了编码体系和27484个汉字,形成兼容性、扩展性、前瞻性兼备的方案。

  信息产业部和原国家质量技术监督局于2000年3月17日联合发布了该标准,即GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》。该标准作为国家强制性标准自发布之日起实施,过渡期到2001年8月31日止。

  期间,全国信标委曾制定和发布《汉字扩展规范GBK 1.0》,并在MS Windows 9x/Me/NT/2000、IBM OS/2的系统中广泛应用。GB18030是国家标准,在技术上是GBK的超集,并与其兼容,因此,GBK将结束其历史使命。

  标准的技术要点

  1.总体结构

  标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T 11383的编码结构与规则,使用0×00至0×7F码位(对应于ASCII码的相应码位)。双字节部分,首字节码位从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。码位总体结构见下图。


码位总体结构图

  2.收录的字符

  双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。

  四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。

  GB18030编码空间约为160万码位,目前已编码的字符约2.6万。随着我国汉字整理和编码研究工作的不断深入,以及国际标准ISO/IEC 10646的不断发展,GB18030所收录的字符将在新版本中增加。

Source: 关于GB18030汉字编码标准集_软件_科技时代_新浪网

转载于:https://www.cnblogs.com/joeyliang/archive/2007/02/28/659778.html

关于GB18030汉字编码标准集相关推荐

  1. 汉字编码标准与识别(转)

    汉字编码标准与识别(一) 代码页(Code Page)初识      本节是根据以下文章编写出来的,建议认真研读这些专家的高论.  参考1 <> 张 轴 材   <<计算机世界 ...

  2. oracle 12c rac flex,ORACLE 12CR2 RAC Flex集群与传统标准集群的区别与设置

    ORACLE 12CR2 RAC Flex集群与传统标准集群的区别与设置 本文主要讲述安装配置ORACLE 12C R2 RAC时,需要注意的方面:即是Flex集群还是传统的标准集群,默认安装的情况下 ...

  3. WinCE内核裁减(中文字体)及字库和内核的分离(转)

    每次定制中文系统时,NK总是比英文大10M左右,启动时在bootloader中将内核Copy到内存时也花时间,同时也占用了很多内存,留给系统和应用的内存就少了10M左右,真是浪费呀,看到都心痛!本人研 ...

  4. WinCE内核裁减(中文字体)及字库和内核的分离

    每次定制中文系统时,NK总是比英文大10M左右,启动时在bootloader中将内核Copy到内存时也花时间,同时也占用了很多内存,留给系统和应用的内存就少了10M左右,真是浪费呀,看到都心痛!本人研 ...

  5. wince6.0中文内核定制

    对WinCE体积进行剪裁,并让WinCE支持简体中文和英文显示,默认显示是中文,并以下对字体选取 作详细的说明: 关键操作步骤: 1.先创建一个WINCE内核工程. 2.先打开目标的工程文件,单击&q ...

  6. Win CE 添加微软自带拼音输入法

    微软自带了拼音输入法,只要在定制内核的时候,添加相应的组件即可.下面是添加微软自带拼音输入法的条件: 1.首先,你想实现拼音输入,你的系统怎么也得支持中文吧.所以在右键S3C2440 Catalog ...

  7. 使用计算机绘制景物图像的两个主要步骤是,计算机11考试.doc

    文档介绍: 第五章 [4]. 一张CD盘片上存储的立体声高保真全频带数字音乐约可播放一小时,则其数据量大约是______. A.800MB B.635MB C.400MB D.1GB [6]. 卫星数 ...

  8. 微软的苹果香味——专访微软MacBU组成员

    这是一只游走于微软和苹果两家公司.两大产品平台之间的特殊团队,与使用PC和Windows Phone的微软人不同,他们日常使用的是Mac电脑和iPhone手机,还时不时要向不理解"为什么要为 ...

  9. 大学计算机信息技术教程2020版知识点,大学计算机信息技术教程习题集.doc

    大学计算机信息技术教程习题集 U 大学计算机信息技术教程 一级B实战习题集 南通大学教育技术中心 2008.6 第一部分 理论部分 第一套 一.基础知识必做题 [1]. 在计算机中为景物建模的方法有多 ...

最新文章

  1. bzoj 4710 [Jsoi2011]分特产 组合数学+容斥原理
  2. 不是开发者也能玩得high!科大讯飞1024开发者节,看AI如何改变你的生活
  3. 【计算理论】计算复杂性 ( 3-SAT 是 NP 完全问题 | 团问题是 NP 完全问题 | 团问题是 NP 完全问题证明思路 )
  4. 智力+贪心的过河问题
  5. python字符串转float出错_值错误:无法将字符串转换为float,NumPy
  6. 中职高级计算机操作员,计算机操作员专业排行榜
  7. WZ132源代码舍小家为大家
  8. Spark 的核心 RDD 以及 Stage 划分细节,运行模式总结
  9. 海信CAS计算机辅助手术系统,计算机辅助手术系统(CAS)
  10. 一个故意不通过图灵测试的人工智能
  11. 小程序调用百度api实现图像识别
  12. Xshell 6安装和使用教程
  13. 奔图 Pantum P2206NW 打印机驱动
  14. 程序员为什么多数秃头?看完这15个瞬间,终于懂了
  15. 新兴的计算机设备,澳洲新兴专业-计算机数控,你会心动吗?
  16. 码头tsb_码头工人及其内部
  17. 后盾网-CI框架实例教程-马振宇 - 学习笔记(9)
  18. 软RAID管理命令mdadm详解
  19. Ubuntu更新企业微信
  20. python3的基本数据类型_python3基本数据类型

热门文章

  1. 电阻系列知识(5)-电阻的阻值
  2. 北京地铁线路中心计算机系统,北京地铁DT—1型计算机联锁系统
  3. 余压监控系统在绿建中的应用
  4. HTML5七夕情人节表白网页制作【新年倒计时-红色雪花】HTML+CSS+JavaScript
  5. C#项目中Form1页面属性介绍
  6. C语言中的sprint函数,求sprintf函数的详解
  7. [组图]网络游戏设计(转)
  8. 手机浏览器唤起微信app支付说明
  9. ffmpeg PCM转AMR格式
  10. 数组中find的用法