中日韩统一表意文字

中日韩统一表意文字 中日韩统一表 意文字(英语:CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国 独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录其仿汉字——喃字
版本 ISO 10646 版本Unicode 版本新增置放平面字数累计字数19931.0 中日韩统一表意文字基本多文种平面(BMP)20,90220,914位于“表意文字兼容区”中但实则独一的汉字基本多文种平面1220003.0中日韩 统一表意文字扩展A区基本多文种平面6,58227,49620013.1中日韩统一表意文字扩展B区表意文字补充平面(SIP) 42,71170,2072003第一修订版4.1HKSCS - 2004 及 GB 18030-2000 中仍未加入 ISO 10646 的汉字基本多文种平面2270,229未有6.0(预计)中日韩统一表意文字扩展C区表意文字补充平面(预计)4,25174,480

历史
于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。

字源

最初期统一汉字
最初期的统一汉字(20,902字)字源来自以下字集:

中国大陆的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58个香港字和2个吏读字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
台湾的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9个计量用汉字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韩国的K源
K0:KS C 5601-87:4,888字(含268个重见字)
K1:KS C 5657-91:2,856字
以上的来源字集会实施字源分离原则。

另外还有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese。这些来源字集不会实施字源分离原则。

很多人以为20,902统一汉字中来自台湾的只是Big5的一万三千多字,其实不然。

扩展A区
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。相比起最初期统一汉字,扩展A区多了来自多个来自中国大陆、台湾、新加坡等汉字。

这一节是一个小作品。欢迎您积极编辑或修订扩充其内容。

扩展B区
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据ISO/IEC JTC1/SC2/WG2/IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:

CNS 11643的第4平面到第15平面所收录的30,177个汉字;
在《汉语大字典》中出现的28,914个未收录汉字;
在《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现汉字);
在北朝鲜的国家标准所收录的5,642个汉字;
在越南的国家标准所收录的4,232个字喃;
HKSCS中出现的1,081个未收录汉字;
《汉语大词典》中出现的553个未收录汉字;
《四库全书》中出现的522个未收录汉字;
日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;
1980年代版本的《辞海》中出现的247个未收录汉字;
大韩民国PKS 5700-3:1998中出现的166个未收录汉字;
《中国大百科全书》中出现的86个未收录汉字;
《辞源》中出现的66个未收录汉字;
北大方正排版系统中出现的65个未收录汉字;
这堆汉字中重复的汉字有不少,所以经过整理之后,总数实际上只有42,711个汉字。

另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。

Unicode 4.1汉字
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。

扩展C区 按计划,中日韩统一表意文字扩展C区将收录4,251个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。

字源分离原则
字源分离原则字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇、中国大陆作点、日本作横,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各 种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。于是,字源分离原则因而诞生。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。
已统一的汉字原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是阁下电脑提供的字型,未必代表该地区的标准写法)。
例子:

Unicode 中文 日文 韩文
中国大陆 台湾 香港
U+6D2A
U+6F22
U+76F4
U+7A97
U+89D2
U+8D77
U+9AA8

注:不是所有浏览器均可分辨“中文-香港”(zh-hk)此一HTML的语言代码(Language Code)并使用不同的字形。如阁下看到的字形和中国大陆的字形一样,表示阁下的浏览器不能分辨此标签。截至2005年6月,只有Firefox和 Mozilla浏览器支援此标签。详见Test results: Automatic font assignment for CJK text。
没有统一的汉字有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“把不正统的编入位于基本多 文种平面的‘兼容表意文字区’(Compatibility Ideographs)”起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“兼容表意文字补充区” (Compatibility Ideographs Supplement)中。
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分离原则文件之中有的字。

Unicode Unicode Unicode
U+4E1F U+4E22
U+4E48 U+5E7A
U+4E89 U+722D
U+4EDE U+4EED
U+4F75 U+5002
U+4FA3 U+4FB6
U+4FC1 U+4FE3
U+4FDE U+516A
U+4FF1 U+5036
U+5024 U+503C
U+5077 U+5078
U+507D U+50DE
U+514C U+5151
U+514E U+5154
U+5156 U+5157
U+518A U+518C
U+51C0 U+51C8
U+51E2 U+51E3
U+5203 U+5204
U+520A U+520B
U+5220 U+522A
U+5225 U+522B
U+5238 U+52B5
U+5239 U+524E
U+524F U+5259
U+525D U+5265
U+5292 U+5294
U+52FB U+5300
U+5355 U+5358
U+5373 U+537D
U+5377 U+5DFB
U+53C1 U+53C2
U+53C3 U+53C4
U+5415 U+5442
U+541E U+5451
U+5433 U+5434 U+5449
U+5436 U+5450
U+543F U+544A
U+5527 U+559E
U+55A9 U+55BB
U+5618 U+5653
U+568F U+5694
U+56EF U+56FD
U+5708 U+570F
U+570E U+5713
U+5716 U+5717
U+5759 U+5DE0
U+57D2 U+57D3
U+5848 U+588D
U+5861 U+586B
U+5897 U+589E
U+58EE U+58EF
U+58FD U+5900
U+5910 U+657B
U+5932 U+672C
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+598D U+59F8
U+59CD U+59D7
U+59EB U+59EC
U+5A1B U+5A2F U+5A31
U+5A55 U+5AAB
U+5A7E U+5AAE
U+5AAA U+5ABC
U+5AAF U+5B00
U+5B0E U+5B14
U+5B24 U+5B37
U+5B73 U+5B76
U+5BAB U+5BAE
U+5BDB U+5BEC
U+5BDC U+5BE7
U+5BDD U+5BE2
U+5C02 U+5C08
U+5C06 U+5C07
U+5C13 U+5C14
U+5C19 U+5C1A
U+5C2A U+5C2B
U+5C36 U+5C37
U+5C4F U+5C5B
U+5CE5 U+5D22
U+5DD3 U+5DD4
U+5E21 U+5E32
U+5E2F U+5E36
U+5E76 U+5E77
U+5EC4 U+5ECF
U+5F11 U+5F12
U+5F37 U+5F3A
U+5F39 U+5F3E
U+5F50 U+5F51
U+5F54 U+5F55
U+5F59 U+5F5A
U+5F5B U+5F5C
U+5F5D U+5F5E
U+5F65 U+5F66
U+5FB3 U+5FB7
U+5FB4 U+5FB5
U+6075 U+60E0
U+6085 U+60A6
U+609E U+60AE
U+60B3 U+60EA
U+6120 U+614D
U+613C U+614E
U+6229 U+622C
U+622F U+6231
U+6236 U+6237 U+6238
U+623B U+623E
U+629B U+62CB
U+629C U+62D4
U+6329 U+635D
U+633F U+63D2 U+63F7
U+634F U+63D1
U+635C U+641C
U+63B2 U+63ED
U+63FA U+6416 U+6447
U+63FE U+6435
U+6483 U+64CA
U+654E U+6559
U+6553 U+655A
U+65E2 U+65E3
U+6602 U+663B
U+665A U+6669
U+66A8 U+66C1
U+66FD U+66FE
U+67B4 U+67FA
U+67E5 U+67FB
U+67F5 U+6805
U+68B2 U+68C1
U+6961 U+6986
U+6982 U+69EA
U+6985 U+69B2
U+699D U+6A27
U+69C7 U+69D9
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+6B72 U+6B73
U+6B7F 歿 U+6B81
U+6BBB U+6BBC
U+6BC0 U+6BC1
U+6BCE U+6BCF
U+6C32 U+6C33
U+6C5A U+6C61
U+6C92 U+6CA1
U+6D44 U+6DE8
U+6D89 U+6E09
U+6D97 U+6D9A
U+6D99 U+6DDA
U+6DE5 U+6E0C
U+6DF8 U+6E05
U+6E07 U+6E34
U+6E29 U+6EAB
U+6E88 U+6F59
U+6E89 U+6F11
U+6EDA U+6EFE
U+6F5B U+6FF3
U+7028 U+702C
U+70BA U+7232
U+712D U+7162
U+7155 U+7199
U+7174 U+7185
U+72B6 U+72C0
U+7464 U+7476
U+74F6 U+7501
U+7522 U+7523
U+75E9 U+7626
U+76A1 U+76A5
U+771E U+771F
U+773E U+8846
U+7814 U+784F
U+797F 祿 U+7984
U+79BF 禿 U+79C3
U+7A05 U+7A0E
U+7A42 U+7A57
U+7B5D U+7B8F
U+7BB3 U+7C08
U+7BE1 U+7C12
U+7CA4 U+7CB5
U+7D55 U+7D76
U+7DA0 U+7DD1
U+7DD2 U+7DD6
U+7DE3 U+7E01
U+7DFC U+7E15
U+7E48 U+7E66
U+7FAE U+7FB9
U+7FF6 U+7FFA
U+80FC U+8141
U+812B U+8131
U+817D U+8183
U+8203 U+8204
U+820D U+820E
U+8216 U+8217
U+8358 U+838A
U+83D1 U+8458
U+8480 U+8495
U+848B U+8523
U+848D U+853F
U+8570 U+8580
U+85AB U+85B0
U+85F4 U+860A
U+865A U+865B
U+86FB U+8715
U+885B U+885E
U+886E U+889E
U+88C5 U+88DD
U+8A2E U+8A7D
U+8AAA U+8AAC
U+8ACC U+8AEB
U+8B20 U+8B21
U+8C5C U+8C63
U+8D70 U+8D71
U+8EFF 軿 U+8F27
U+8F1C U+8F3A
U+8F3C U+8F40
U+8FBE U+8FD6
U+8FF8 U+902C
U+9059 U+9065
U+90A2 U+90C9
U+90CE U+90DE
U+90F7 U+9109 U+9115
U+9196 U+919E
U+91A4 U+91AC
U+9203 U+9292
U+92B3 U+92ED
U+9304 U+9332
U+932C U+934A
U+93AD U+93AE
U+95B1 U+95B2
U+9667 U+9689
U+9751 U+9752
U+9759 U+975C
U+976D U+9771
U+9839 U+983D
U+984F U+9854
U+985A U+985B
U+98EE U+98F2
U+9905 U+9920
U+99B1 U+99C4
U+99E2 U+9A08
U+9AA9 U+9AAB
U+9AD8 U+9AD9
U+9AEA U+9AEE
U+9B2C U+9B2D
U+9C1B U+9C2E
U+9CEF U+9CF3
U+9D87 U+9DAB
U+9DC6 U+9DCF
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

注:以上内容来自中文维基百科

CJKVCJKV,是汉语、日语、韩语(朝鲜语)、越南语(Chinese-Japanese-Korean-Vietnamese)的省略,是汉字文化 圈内的这4种语言共同使用的汉字(包含越南的喃字、越文汉字、韩文汉字和日文汉字),以及朝鲜语谚文和日语平假名、片假名。这是有关计算机国际化、地域化 的字符编码的用语。CJKV的顺序是拉丁字母顺序。旧称CJK(即中日韩用字)。

对于较早废止汉字,而曾使用过汉字及本民族类汉字文字—喃字的越南语方块文字进入CJKV编码较晚。用语的使用频度以CJK较多。不过,随着越文汉字、喃字加入该计划,CJKV的称呼开始使用。

Unicode的CJK统一汉字,作为越南的文字编码规格的 TCVN 5773:1993 和 TCVN 6056:1995 与汉字(越文汉字、喃字)作为原规格也合并,实际状态是CJKV。譬如,“U+7551 畑”就是日本国字之“畑”(JIS X 0208-1990之482A)与越南喃字之“畑”(TCVN 5773:1993之3C2F)的统合。

转载于:https://www.cnblogs.com/hunter_gio/archive/2008/04/24/1168829.html

中日韩统一表意文字(CJK Unified Ideographs)[转]相关推荐

  1. unicode 中日韩统一表意文字 java正则表达式

    汉字正则表达式 ^[\u4e00-\u9fa5]{0,}$ 有点过时了 参考wiki:中日韩统一表意文字 : 长度大于4位的unicode 正则 需要 \x{h...h} 形式表示 public cl ...

  2. 字体研发新革命-unicode13.0全新发布,中日韩统一表意文字扩展G大区

    字体研发新革命-unicode13.0全新发布,中日韩统一表意文字扩展G大区,据了解,目前中国汉语地区仅有逐浪字库(f.ziti163.com)做好了准备,并全面扩展为unicode 13,同时他们还 ...

  3. Unicode中日韩统一表意文字列表

    今天连续转载了好多篇文章,上网发现了很多好文,呵呵!这不又有一个网站似乎是台湾的,"闲着没事"把中日韩所有Unicode字符表给张贴出来了,看着蛮长的其实还是很实用的呀,现在转载到 ...

  4. php 正则表达式 匹配中日韩字符(GBK)

    转载链接:http://www.cnblogs.com/ITEagle/archive/2013/01/14/2859775.html 首先是这些非英文字符的编码范围: 这里是几个主要非英文语系字符范 ...

  5. 中日韩大字符集文字编码的比较研究

    http://www.yyxx.sdu.edu.cn/content/guojihuiyi/guojhy-yinbs.htm 中日韩大字符集文字编码的比较研究 尹宝生 潘峰 徐立军 年新 汤蓉 沈阳航 ...

  6. 利用iTextSharp填写中文(中日韩)PDF表单(完整解决方案)

    或者说中日韩文)表单填写的问题,本不想回答这类问题,因为相关的注意事项都已经在我的博客里说了,但现在看来还是有必要再啰唆下了,如果再有问题的话,希望带着Money来问,拜托了. 下面这段代码根据iTe ...

  7. mysql 中日韩 乱码_mysql字符集及乱码问题

    MySQL中涉及的几个字符集 character-set-server/default-character-set:服务器字符集,默认情况下所采用的. character-set-database:当 ...

  8. mysql 中日韩 乱码,mysql字符集乱码问题解决方法介绍

    character-set-server/default-character-set:服务器字符集,默认情况下所采用的. character-set-database:数据库字符集. characte ...

  9. wxpython 如何在windows下同时显示unicode中日韩文

    周海汉 /文 2010.1.6 python版本,python 2.6+,wxpython 2.8+ 问题提出 遇到wxpython 如何在windows下同时显示中文日文韩文越南拼音的问题. win ...

最新文章

  1. python内置库之学习ctypes库(一)
  2. mongodb 安装_1、MongoDB 安装
  3. 用python修改文件内容修改txt内容的3种方法
  4. JS中使用工厂模式创建对象
  5. 商务搜索引擎_2019年中国网民搜索引擎使用情况研究报告
  6. 原生态mysql_MySQL 原生操作-速查
  7. 什么是Windows Azure
  8. phpstudy配置ssl
  9. Shiro(三)——Shiro授权入门案例
  10. Ubuntu 下实现类似Everything的功能
  11. 机器学习_JS散度详解
  12. ffmpeg实现视频切割合并
  13. caffe从秃头到入门 /usr/bin/ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master
  14. 如何定位在测试中遇到的Bug?
  15. 将中文字符串转为拼音
  16. C++中的友元——编程界的老王
  17. nag在逆向中是什么意思_[求助]关于NAG删除资源的问题。
  18. 网约车风云再起:“小窗口”和“大窗口”齐开
  19. 烦人的后台首页index.jsp弄好了
  20. 便宜android8手机,便宜又好的手机_2018年最值得买的手机推荐-太平洋电脑网

热门文章

  1. Threejs_cascad层_树结构
  2. WEB前端学习 (1)HTML复习
  3. Android基础—基于Socket实现上传大文件
  4. java计算时针和分针的夹角_【小米面试题】-给定一个具体时间,计算时针与分针之间的角度...
  5. 把bitmap裁剪成圆形bitmap的方法
  6. zookeeper-查询zk服务器成员列表
  7. 2.6 基于ARDUINO UNO+MC20的路径显示功能
  8. 程序员和齐天大圣的十个共同点
  9. Unity3D中文手册1
  10. OpenJDK1.8 HotSpot编译报错