Unihan（统汉字）常用字段介绍

0 背景
1 文件
- 1.1 IRG Sources
- 1.2 Dictionary Indices
- 1.3 Dictionary-like Data
- 1.4 Other Mappings
- 1.5 Radical-stroke Indices
- 1.6 Readings
- 1.7 Variants
2 相关知识点

0 背景

统汉字数据库是Unicode标准包含的中日韩统一表意文字集体知识的存储库。它包含映射数据来实现与其他编码字符集相互转换，和附加信息来帮助实现对使用汉字表意文字的各种语言的支持。简单来讲就是我们见得Unicode中的CJK部分。

在此介绍的是 Unihan Database 中的一些字段内容。
Unihan.zip : ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip
(网上也是很好找到的)
该zip文件包含8个文本文件，每个文件都是UTF-8，NFC格式，并使用Unix行尾结束符号。每个文件都包含统汉字数据库中某些字段的值。
文件中的分隔符不多介绍。

Unicode Han Database 具体可看 (http://www.unicode.org/reports/tr38/)，这是当前最新版本。
网上有一个部分翻译，有字段的详细介绍，是5.0.0版本的(2006) (https://blog.csdn.net/nivana999/article/details/4247844)

这个数据库包含的信息非常多，自己去发现吧 XD

1 文件

1.1 IRG Sources

对应文件： Unihan_IRGSources.txt

Unihan_IRGSources.txt
kCompatibilityVariant 相容变体 (没太搞清楚这个canonical Decomposition_Mapping value，详细看文档吧)

1.2 Dictionary Indices

主要内容：字典索引
对应文件： Unihan_DictionaryIndices.txt

kMeyerWempe, 罗马化粤语拼音方案
kMatthews, Matthews汉英词典
...

1.3 Dictionary-like Data

对应文件： Unihan_DictionaryLikeData.txt

kFrequency, 使用频度等级（1为最高，最低到5）
kTotalStrokes, 总笔划数

1.4 Other Mappings

主要内容：与其他编码字符集的映射
对应文件： Unihan_OtherMappings.txt

kBigFive Big5编码
...
kTaiwanTelegraph, 台湾电报代码
kXerox, Xerox code

1.5 Radical-stroke Indices

主要内容：部首-(剩余)笔画数
对应文件： Unihan_RadicalStrokeCounts.txt

kRSAdobe_Japan1_6, Adobe-Japan1-6中的字形信息(包含康熙部首序号，部首笔画数，剩余笔画数)
kRSJapanese, Japanese radical/stroke count(radical.additional strokes)
kRSKangXi, 康熙部首序号，剩余笔画数 (radical.additional strokes)
kRSKanWa, Morohashi radical/stroke count(radical.additional strokes)
kRSKorean, Korean radical/stroke count(radical.additional strokes)

1.6 Readings

主要内容：发音
对应文件： Unihan_Readings.txt

kDefinition, 英文解释
kHanyuPinlu, 读音及其使用频率 -- 汉字才有
kMandarin, 普通话发音
kCantonese, 广东话发音
kJapaneseKun, 日语发音，训读(训読み/くんよみ)
kJapaneseOn, 日语中的汉字发音，音读(音読み/おんよみ)
kKorean, 韩语发音，耶鲁拼音(不推荐使用)
kHangul, 韩语字母（韩文）
kVietnamese, 越南语发音
kTang, 唐代发音
kXHC1983, 1983版的《现代汉语词典》给出的汉语拼音

1.7 Variants

主要内容：变体
对应文件： Unihan_Variants.txt

kTraditionalVariant, 繁体中文变体
kSimplifiedVariant, 简体中文变体
kZVariant, Z变体 (en.wikipedia.org/wiki/Z-variant)
kSemanticVariant, 语义变体 (具体看相关里面的介绍)
kSpecializedSemanticVariant, 特殊语义变体

2 相关知识点

Sino-Japanese
在汉语音韵学界,这些被借入邻国的汉字的音韵系统被分别称为日本汉字音(Sino-Japanese),高丽汉字音(Sino-Korean)和越南汉字音(或汉越语 Sino-Vietnames)。Samuel Martin 统称这三种汉字音为 Sinoxenic dialects(1953) —— 《从闽南话到日本汉字音》
唐代发音
《T’ang Poetic Vocabulary》Hugh M. Stimson, Far Eastern Publications, Yale University, 1976 - 142页
kSemanticVariant 和 kSpecializedSemanticVariant
有两个变体字段，kSemanticVariant 和 kSpecializedSemanticVariant，分别用于标记两个字符具有相同意义和重叠含义的情况。
Thus U+514E“兎”和 U+5154“兔”互为Y变体（X、Y、Z变体可看这篇），都是兔子之意。而U+4E3C“丼”和 U+4E95“井”并非纯粹的Y变体，“井” 是其本意 “一口井”，但 “丼”的话，虽然也有“井”的含义，也当做“井”来用，但它也常常用在表示“一碗食物”。对于前一对，我们使用kSemanticVariant，而对于后一对，则使用 kSpecializedSemanticVariant 。在许多情况下，提供的数据列出了指示变体关系的Unihan来源(?)。语法会在下面详细介绍，先来看一个例子， U+792E“礮”有kSemanticVariant 值:U+70AE<kMeyerWempe U+7832<kLau,kMatthews,kMeyerWempe U+791F<kLau,kMatthews. 这意味着 Mathews, Lau, and Meyer-Wempe 词典都认为这是 U+7832“砲”的Y变体，而只有 Mathews 和 Lau 认为是 U+791F“礟”的一个变种，并且只有 Meyer-Wempe 认为是 U+70AE“炮”的变种。
中日汉字
《常用汉字表》共2136字、4388音训 (zh.wikipedia.org/wiki/常用漢字)
《人名用汉字表》在常用汉字之外亦有可用于人名的人名用汉字 —— wiki
《表外汉字字体表》—— wiki
中日汉字异同 (zh.wikipedia.org/wiki/新字体)
新字体中，字形与港澳台取字相同的有“為”、“併”等字。
而与中国大陆的规范汉字相同的有“万”、“医”、“会”、“学”、“礼”、“昼”、“独”、“争”、“国”、“党”、“乱”等；差不多相同的有“恋（恋）”、“画（画）”、“浅（浅）”、“鉄（铁）”、“変（变）”、“ 辺（边）”、“ 圧（压）”、“ 庁（厅）”、“ 継（继）”等，其中“恋（恋）”、“画（画）”、“浅（浅）”、“将（将）”等与简化字拥有相同的Unicode编码。
也有与中文汉字完全不像的，如“図（圖·图）”、“糸（絲·丝）”。
康熙部首
Kangxi radical (en.wikipedia.org/wiki/Kangxi_radical) 214
Unicode扩展汉字
(针对多形的字，有些可能只能显示其对应的，需要安装特殊字体才可显示)
(zh.wikipedia.org/wiki/Wikipedia:Unicode扩展汉字)
字形
国标，新旧字形，《现代汉语通用字表》
(zh.wikipedia.org/wiki/字形)
opencc 繁简体转换的词库
(github.com/BYVoid/OpenCC/tree/master/data/dictionary)
汉字，发音相关字典
(https://ctext.org/instructions/dictionary/zhs)

转载于:https://www.cnblogs.com/Comero/p/8995261.html