• 0 背景
  • 1 文件
    • 1.1 IRG Sources
    • 1.2 Dictionary Indices
    • 1.3 Dictionary-like Data
    • 1.4 Other Mappings
    • 1.5 Radical-stroke Indices
    • 1.6 Readings
    • 1.7 Variants
  • 2 相关知识点

0 背景

统汉字数据库是Unicode标准包含的中日韩统一表意文字集体知识的存储库。它包含映射数据来实现与其他编码字符集相互转换,和附加信息来帮助实现对使用汉字表意文字的各种语言的支持。简单来讲就是我们见得Unicode中的CJK部分。

在此介绍的是 Unihan Database 中的一些字段内容。
Unihan.zip : ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip
(网上也是很好找到的)
该zip文件包含8个文本文件,每个文件都是UTF-8,NFC格式,并使用Unix行尾结束符号。每个文件都包含统汉字数据库中某些字段的值。
文件中的分隔符不多介绍。

Unicode Han Database 具体可看 (http://www.unicode.org/reports/tr38/),这是当前最新版本。
网上有一个部分翻译,有字段的详细介绍,是5.0.0版本的(2006) (https://blog.csdn.net/nivana999/article/details/4247844)

这个数据库包含的信息非常多,自己去发现吧 XD

1 文件

1.1 IRG Sources

对应文件: Unihan_IRGSources.txt

  • Unihan_IRGSources.txt
  • kCompatibilityVariant 相容变体 (没太搞清楚这个canonical Decomposition_Mapping value,详细看文档吧)

1.2 Dictionary Indices

主要内容: 字典索引
对应文件: Unihan_DictionaryIndices.txt

  • kMeyerWempe, 罗马化粤语拼音方案
  • kMatthews, Matthews汉英词典
  • ...

1.3 Dictionary-like Data

对应文件: Unihan_DictionaryLikeData.txt

  • kFrequency, 使用频度等级(1为最高,最低到5)
  • kTotalStrokes, 总笔划数

1.4 Other Mappings

主要内容: 与其他编码字符集的映射
对应文件: Unihan_OtherMappings.txt

  • kBigFive Big5编码
  • ...
  • kTaiwanTelegraph, 台湾电报代码
  • kXerox, Xerox code

1.5 Radical-stroke Indices

主要内容: 部首-(剩余)笔画数
对应文件: Unihan_RadicalStrokeCounts.txt

  • kRSAdobe_Japan1_6, Adobe-Japan1-6中的字形信息(包含康熙部首序号,部首笔画数,剩余笔画数)
  • kRSJapanese, Japanese radical/stroke count(radical.additional strokes)
  • kRSKangXi, 康熙部首序号,剩余笔画数 (radical.additional strokes)
  • kRSKanWa, Morohashi radical/stroke count(radical.additional strokes)
  • kRSKorean, Korean radical/stroke count(radical.additional strokes)

1.6 Readings

主要内容: 发音
对应文件: Unihan_Readings.txt

  • kDefinition, 英文解释
  • kHanyuPinlu, 读音及其使用频率 -- 汉字才有
  • kMandarin, 普通话发音
  • kCantonese, 广东话发音
  • kJapaneseKun, 日语发音,训读(训読み/くんよみ)
  • kJapaneseOn, 日语中的汉字发音,音读(音読み/おんよみ)
  • kKorean, 韩语发音,耶鲁拼音(不推荐使用)
  • kHangul, 韩语字母(韩文)
  • kVietnamese, 越南语发音
  • kTang, 唐代发音
  • kXHC1983, 1983版的《现代汉语词典》给出的汉语拼音

1.7 Variants

主要内容: 变体
对应文件: Unihan_Variants.txt

  • kTraditionalVariant, 繁体中文变体
  • kSimplifiedVariant, 简体中文变体
  • kZVariant, Z变体 (en.wikipedia.org/wiki/Z-variant)
  • kSemanticVariant, 语义变体 (具体看相关里面的介绍)
  • kSpecializedSemanticVariant, 特殊语义变体

2 相关知识点

  • Sino-Japanese
    在汉语音韵学界,这些被借入邻国的汉字的音韵系统被分别称为日本汉字音(Sino-Japanese),高丽汉字音(Sino-Korean)和越南汉字音(或汉越语 Sino-Vietnames)。Samuel Martin 统称这三种汉字音为 Sinoxenic dialects(1953) —— 《从闽南话到日本汉字音》

  • 唐代发音
    《T’ang Poetic Vocabulary》Hugh M. Stimson, Far Eastern Publications, Yale University, 1976 - 142页

  • kSemanticVariant 和 kSpecializedSemanticVariant
    有两个变体字段,kSemanticVariant 和 kSpecializedSemanticVariant,分别用于标记两个字符具有相同意义和重叠含义的情况。
    Thus U+514E“兎”和 U+5154“兔”互为Y变体 (X、Y、Z变体可看这篇 ),都是兔子之意。 而U+4E3C“丼”和 U+4E95“井”并非纯粹的Y变体,“井” 是其本意 “一口井”,但 “丼”的话,虽然也有“井”的含义,也当做“井”来用, 但它也常常用在表示“一碗食物”。对于前一对,我们使用kSemanticVariant,而对于后一对, 则使用 kSpecializedSemanticVariant 。在许多情况下,提供的数据列出了指示变体关系的Unihan来源(?)。语法会在下面详细介绍,先来看一个例子, U+792E“礮”有kSemanticVariant 值:U+70AE<kMeyerWempe U+7832<kLau,kMatthews,kMeyerWempe U+791F<kLau,kMatthews. 这意味着 Mathews, Lau, and Meyer-Wempe 词典都认为这是 U+7832“砲”的Y变体, 而只有 Mathews 和 Lau 认为是 U+791F“礟”的一个变种, 并且只有 Meyer-Wempe 认为是 U+70AE“炮”的变种。

  • 中日汉字
    《常用汉字表》 共2136字、4388音训 (zh.wikipedia.org/wiki/常用漢字)
    《人名用汉字表》在常用汉字之外亦有可用于人名的人名用汉字 —— wiki
    《表外汉字字体表》—— wiki
    中日汉字异同 (zh.wikipedia.org/wiki/新字体)
    新字体中,字形与港澳台取字相同的有“為”、“併”等字。
    而与中国大陆的规范汉字相同的有“万”、“医”、“会”、“学”、“礼”、“昼”、“独”、“争”、“国”、“党”、“乱”等;差不多相同的有“恋(恋)”、“画(画)”、“浅(浅)”、“鉄(铁)”、“変(变)”、“ 辺(边)”、“ 圧(压)”、“ 庁(厅)”、“ 継(继)”等,其中“恋(恋)”、“画(画)”、“浅(浅)”、“将(将)”等与简化字拥有相同的Unicode编码。
    也有与中文汉字完全不像的,如“図(圖·图)”、“糸(絲·丝)”。

  • 康熙部首
    Kangxi radical (en.wikipedia.org/wiki/Kangxi_radical) 214

  • Unicode扩展汉字
    (针对多形的字,有些可能只能显示其对应的,需要安装特殊字体才可显示)
    (zh.wikipedia.org/wiki/Wikipedia:Unicode扩展汉字)

  • 字形
    国标,新旧字形,《现代汉语通用字表》
    (zh.wikipedia.org/wiki/字形)

  • opencc 繁简体转换的词库
    (github.com/BYVoid/OpenCC/tree/master/data/dictionary)

  • 汉字,发音相关字典
    (https://ctext.org/instructions/dictionary/zhs)

转载于:https://www.cnblogs.com/Comero/p/8995261.html

Unihan(统汉字)常用字段介绍相关推荐

  1. Django(五)模型(model)系统 -- 常用字段和字段参数

    Object Relational Mapping(ORM) ORM介绍 ORM概念 对象关系映射(Object Relational Mapping,简称ORM)模式是一种为了解决面向对象与关系数据 ...

  2. Angular Route数据结构里常用字段使用方法一览

    本文介绍Route interface里常用字段的使用方法. https://angular.io/api/router/Route#description path Can be a wild ca ...

  3. sqlite bool mysql_MySQL/SQLite-数据库常用字段类型使用

    本文分两部分: 第一部分:MySQL 常用数据字段类型介绍 第二部分:SQLite 常用数据字段类型介绍 永远不要在背后批评别人,尤其不能批评你的老板无知.刻薄和无能.(因为这样的心态,会使你走上坎坷 ...

  4. Django models常用Field介绍以及常见错误解决

    原文地址:https://www.cnblogs.com/limaomao/p/9255148.html ORM:object relational mapping,对象关系映射 django中使用原 ...

  5. 前后端及常用语言介绍

    前后端及常用语言介绍 珞闻 来自: 珞闻(知行.) 2015-04-19 23:25:13 前后端的划分,可以简单地理解为凡是运行在用户设备上的技术都可以称为前端技术( 比如 HTML / CSS / ...

  6. matlab系统辨识工具箱原理,matlab常用工具箱介绍

    怎么使用matlab系统辨识工具箱 如果是系统自带的,你可以直接用,如果是外部的或者是自编的你需要先把文件夹拷贝到tools文件夹下,再设置路径. Matlab常用工具箱介绍(英汉对照)Matlab ...

  7. 2.2.太极平台框架—组件的字段介绍与使用

    1.字段介绍 一个组件对应一个数据库表,表有字段,那么组件也有字段.通过设置组件的字段,就可以对应到数据库表的字段. 2.通用设置项 2.1.字段标题 在数据列表页面,字段的标题就是表头名称:在添加编 ...

  8. 字符编码的常用种类介绍

    字符编码的常用种类介绍 第一种:ASCII码 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一 ...

  9. oracle常用函数number,Oracle 常用函数介绍

    Oracle常用函数介绍,包括日期函数.类型转换函数 常用日期函数 1.add_months()函数可以得到指定日期之前或之后n个月的日期 date_value:=add_months(date_va ...

  10. Helm模板常用语法介绍与简单应用场景

    Helm模板常用语法介绍与简单应用场景 文章目录 Helm模板常用语法介绍与简单应用场景 什么是Helm _help.tpl子模版 应用场景 预定义对象 关于变量 关键字及应用 函数 流程与控制 什么 ...

最新文章

  1. R语言ggplot2可视化改变图中线条的透明度级别实战
  2. 如何为 Python 添加远程调试能力而不修改系统代码
  3. 苹果2010新品发布会图文实录
  4. Windows 技术篇-桌面图标全部消失问题解决方法,windows资源管理器重启实例演示
  5. Linux常用命令——useradd,usermod
  6. 「微信小程序免费辅导教程」24,基础内容组件icon的使用探索与7月26日微信公众平台的更新解读...
  7. java面试题大全答案版文库_java高级面试题带答案
  8. php中define的参数_php中define的用法有哪些
  9. JavaScript-callapply方法
  10. 55. Yii import class 与 对象创建
  11. Tensorflow训练渐渐变慢,迭代一段时间卡死
  12. java.util.Arrays$ArrayList addAll报错
  13. c语言版输出2-200以内的素数
  14. 保险核保、理赔|门诊住院发票识别||医疗单据医疗票据识别技术
  15. 阿里云科学家丁险峰:万物互联的价值在哪里?
  16. nrf51822+rfx2401c系统板(开源原理图、PCB)
  17. GO语言-数据结构-队列
  18. cpuz测试分数天梯图_处理器CPU性能天梯图表CinebenchR15Ranking2016
  19. 用计算机视觉描述机器人,计算机视觉和机器人视觉概述
  20. 适用于计量站电子测量仪器自动检定系统设计

热门文章

  1. html+css模拟京东商城登陆首页
  2. 学习纹理格式(DXGI_FORMAT 和 VkFormat)
  3. autosub字幕自动识别生成-最新windows配置方法
  4. ImageAI训练自定义数据总结
  5. JavaScript判断数组是否为空、 判断数据类型
  6. 自然语言处理——基于预训练模型的方法——第2章 自然语言处理基础
  7. Android可达性分析,基于时间距离的机会网络可达性分析及应用
  8. IP地址规划设计技术
  9. 中国生产力促进中心”十四五”规划与发展规模分析报告2022~2028年
  10. 冒泡排序图解并通过Java实现