汉语拼音音节的歧义指数
汉语拼音音节的歧义指数
冯志伟
如果不计声调,基本的汉语音节只有405个,这405个汉语音节可以表示全部汉字的读音。而《通用规范汉字表》包含了8105个通用汉字,在这种情况下,在一般使用中,一个汉语音节平均要表示20个以上的汉字(8,105/405 = 20.01)。
例1 在《通用规范汉字表》(2013)中,/bei/这个音节可以表示如下31个汉字:
北 杯 卑 背 椑 悲 碑 鹎 贝 孛 邶 狈 备 钡 倍 悖 被 棓 辈惫焙蓓碚鞁褙糒鞴鐾呗臂
例2 在《通用规范汉字表》(2013)中,/jing/这个音节可以表示如下50个汉字:
京 茎 泾 经 猄 荆 菁 旌 惊 晶 腈 䴖 睛 粳 兢 精 鲸 麖 鼱 井阱汫刭肼颈景儆憬璥璟警劲径净迳经胫倞 痉竞竟竫婧靓敬靖静境獍 镜
这意味着,在表示汉字的时候,汉语拼音音节是存在歧义性的。
歧义指数是汉语拼音音节的歧义程度的数学描述。
一个汉语拼音音节的歧义指数 (I) 等于该拼音音节可以表示的汉字数 (N) 减 1。
计算公式如下:
I = N – 1
这个公式说明,如果一个拼音音节可以表示 N 个汉字,那么,它的歧义指数等于 N – 1。
如果一个拼音音节可以表示一个汉字,那么它的歧义指数为零。如果一个拼音音节可以表示两个汉字,那么,它的歧义指数为 2 – 1 = 1。如果一个拼音音节可以表示三个汉字,那么,它的歧义指数为 3 – 1 = 2. ......等等。
在上述例1中,拼音音节/bei/可以表示31个汉字,它的歧义指数为 31 – 1 = 30;在上述例2中,拼音音节/jing/可以表示50个汉字,它的歧义指数为 50 – 1 = 49。
但是,如果把单音节 /bei/和单音节/jing/结合形成一个双音节的单词 /beijing/,其歧义指数将明显地减少,因为 /beijing/ 只能表示三个双音节的单词:
例3 北京, 背景, 背静
其歧义指数减少为 3 –1 = 2。
如果把 /beijing/的第一个字母进一步大写为/Beijing/,那么,其歧义指数将减少到零:1 – 1 = 0。这说明,/Beijing/是一个没有歧义的单词,它的意思只有1个,这就是中国首都的名称:
例4 北京
因此,如果把不同的单音节的拼音音节连接成多音节的汉语单词,那么,拼音音节的歧义指数将明显地减少。这是把不同的单音节连接成为多音节的汉语单词的优越之处。
正因为汉语拼音音节存在很高的歧义指数,使用汉语拼音作为一种正规的文字是不现实的,汉语拼音永远不能取代汉字。中文的全盘拼音化只不过是一种幻想而已。
但是,在使用拼音时按照《汉语拼音正词法》进行音节连写,有助于减少拼音音节的歧义指数,可以使拼音发挥更好的作用。所以,我拥护《汉语拼音正词法》,拥护在文献工作中推广《汉语拼音正词法》。
汉语拼音音节的歧义指数相关推荐
- [转]Kaldi语音识别
Kaldi语音识别1.声学建模单元的选择1.1对声学建模单元加入位置信息2.输入特征3.区分性技术4.多音字如何处理?5.Noise Robust ASR6.Deep Learning[DNN/CNN ...
- LuceneSolr框架之第一篇
2.信息检索信息检索是计算机世界中非常重要的一种功能.信息检索不仅仅是指从数据库检索数据,还包括从文件.网页.邮件.用户手输入的内容中检索数据.通过怎样的高效方式将用户想要的信息快速提取出来,是计算机 ...
- *8.哈希冲突是什么?以及如何解决哈希冲突
哈希表:又叫散列表.是根据关键码值而直接进行访问的数据结构哈希表一个映射表,就是通过哈希函数算法,有的一个多对一的映射. 那哈希表有什么用呢? 很明显能加快查找速度.举个例子,你在查字典的时候,如果不 ...
- Python 条件语句
1. if结构 其语法结构为: if 条件: 语句组 如何运算:如果条件为真(True)就执行语句组,为假(False)则执行if结构后面的语句. 例: weather = input('请输入今天的 ...
- 王老师拼音输入法的算法
N元语言模型的解码算法 分类: 微软拼音输入法开发工程师专栏2011-02-28 16:11 8155人阅读 评论(11) 收藏 举报 -------------------------------- ...
- matlab中字母重音符号,支持重音合成的汉语语音合成系统
摘要:针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略.首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注:其次,利用重音标注数据库,训练得到 ...
- mysql建立学号与课程编号的索引_数据库mysql 四约束 三范式 六索引
mysql 四约束 三范式 六索引 1.MySQL 约束 1.约束的作用 分类 表列的primary key主键,unique唯一键,not null非空等修饰符常常被称作约束(constraint) ...
- python音标是什么_python转换工具之汉语拼音与国际音标的实现
#!/usr/bin/env python # This file has following encoding: utf-8 ######################## 模块导入 ###### ...
- 常用汉语声母韵母及汉语拼音表
常用汉语声母韵母及汉语拼音表 声母23个: b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,y,w 韵母24个: 由于汉语拼音与英语不同,在实际编制程序时需去 ...
- 26个音序的正确写法和占格_部编语文汉语拼音音序表,示范朗读+视频教学
部编语文<汉语拼音音序表> ♬点击上方绿标收听音频 这位老师教的有点喜感,但读得基本是正确的. <汉语拼音方案>给每个字母规定了名称音读法,这是朗读字母表.小学汉语拼音字母表教 ...
最新文章
- centos 安装 py pyhs2
- android listpreference 自定义,Android – 我的ListPreference中的自定义行布局
- 2023. 连接后等于目标字符串的字符串对
- UE4 连接自定义服务器
- 实验2.5 用递归的方法编写函数求Fibonacci 级数,观察递归调用的过程
- Python中默认参数self的理解
- 操作系统核心原理-3.进程原理(上):进程概要
- PyTorch:tensor-数学API
- 第二次公共考试,判断错题集
- 通俗易懂去讲解反射(Reflect)
- 电子祝福贺卡小程序有哪些?
- 【历史上的今天】1 月 28 日:Sun 联合创始人诞生;图灵奖数据库先驱逝世;雅虎收购 GeoCities
- excel单元格下拉选项怎么设置_单元格下拉效果怎么实现?
- 其实,我对你是有一些失望的。
- The request client is not a secure context and the resource is in more-private address ...
- alibaba.jym.item.external.goods.batch.offsale( 交易猫外部商家批量下架商品接口 )
- Hadoop的序列化和反序列化
- 人群捕捞:你的隐私无处遁形
- TC Games教你如何在电脑上玩手游梦幻西游,无需模拟器
- MATLAB实现地球表面上两点之间的仰角和方位角计算