汉语拼音音节的歧义指数

冯志伟

如果不计声调,基本的汉语音节只有405个,这405个汉语音节可以表示全部汉字的读音。而《通用规范汉字表》包含了8105个通用汉字,在这种情况下,在一般使用中,一个汉语音节平均要表示20个以上的汉字(8,105/405 = 20.01)。

例1  在《通用规范汉字表》(2013)中,/bei/这个音节可以表示如下31个汉字:

北 杯 卑 背 椑 悲 碑 鹎 贝 孛 邶 狈 备 钡 倍 悖 被 棓 辈惫焙蓓碚鞁褙糒鞴鐾呗臂

例2  在《通用规范汉字表》(2013)中,/jing/这个音节可以表示如下50个汉字:

京 茎 泾 经 猄 荆 菁 旌 惊 晶 腈 䴖 睛 粳 兢 精 鲸 麖 鼱 井阱汫刭肼颈景儆憬璥璟警劲径净迳经胫倞 痉竞竟竫婧靓敬靖静境獍 镜

这意味着,在表示汉字的时候,汉语拼音音节是存在歧义性的。

歧义指数是汉语拼音音节的歧义程度的数学描述。

一个汉语拼音音节的歧义指数 (I) 等于该拼音音节可以表示的汉字数 (N) 减 1。

计算公式如下:

I = N – 1

这个公式说明,如果一个拼音音节可以表示 N 个汉字,那么,它的歧义指数等于 N – 1。

如果一个拼音音节可以表示一个汉字,那么它的歧义指数为零。如果一个拼音音节可以表示两个汉字,那么,它的歧义指数为 2 – 1 = 1。如果一个拼音音节可以表示三个汉字,那么,它的歧义指数为 3 – 1 = 2. ......等等。

在上述例1中,拼音音节/bei/可以表示31个汉字,它的歧义指数为 31 – 1 = 30;在上述例2中,拼音音节/jing/可以表示50个汉字,它的歧义指数为 50 – 1 = 49。

但是,如果把单音节 /bei/和单音节/jing/结合形成一个双音节的单词 /beijing/,其歧义指数将明显地减少,因为 /beijing/ 只能表示三个双音节的单词:

例3            北京, 背景, 背静

其歧义指数减少为 3 –1 = 2。

如果把 /beijing/的第一个字母进一步大写为/Beijing/,那么,其歧义指数将减少到零:1 – 1 = 0。这说明,/Beijing/是一个没有歧义的单词,它的意思只有1个,这就是中国首都的名称:

例4    北京

因此,如果把不同的单音节的拼音音节连接成多音节的汉语单词,那么,拼音音节的歧义指数将明显地减少。这是把不同的单音节连接成为多音节的汉语单词的优越之处。

正因为汉语拼音音节存在很高的歧义指数,使用汉语拼音作为一种正规的文字是不现实的,汉语拼音永远不能取代汉字。中文的全盘拼音化只不过是一种幻想而已。

但是,在使用拼音时按照《汉语拼音正词法》进行音节连写,有助于减少拼音音节的歧义指数,可以使拼音发挥更好的作用。所以,我拥护《汉语拼音正词法》,拥护在文献工作中推广《汉语拼音正词法》。

汉语拼音音节的歧义指数相关推荐

  1. [转]Kaldi语音识别

    Kaldi语音识别1.声学建模单元的选择1.1对声学建模单元加入位置信息2.输入特征3.区分性技术4.多音字如何处理?5.Noise Robust ASR6.Deep Learning[DNN/CNN ...

  2. LuceneSolr框架之第一篇

    2.信息检索信息检索是计算机世界中非常重要的一种功能.信息检索不仅仅是指从数据库检索数据,还包括从文件.网页.邮件.用户手输入的内容中检索数据.通过怎样的高效方式将用户想要的信息快速提取出来,是计算机 ...

  3. *8.哈希冲突是什么?以及如何解决哈希冲突

    哈希表:又叫散列表.是根据关键码值而直接进行访问的数据结构哈希表一个映射表,就是通过哈希函数算法,有的一个多对一的映射. 那哈希表有什么用呢? 很明显能加快查找速度.举个例子,你在查字典的时候,如果不 ...

  4. Python 条件语句

    1. if结构 其语法结构为: if 条件: 语句组 如何运算:如果条件为真(True)就执行语句组,为假(False)则执行if结构后面的语句. 例: weather = input('请输入今天的 ...

  5. 王老师拼音输入法的算法

    N元语言模型的解码算法 分类: 微软拼音输入法开发工程师专栏2011-02-28 16:11 8155人阅读 评论(11) 收藏 举报 -------------------------------- ...

  6. matlab中字母重音符号,支持重音合成的汉语语音合成系统

    摘要:针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略.首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注:其次,利用重音标注数据库,训练得到 ...

  7. mysql建立学号与课程编号的索引_数据库mysql 四约束 三范式 六索引

    mysql 四约束 三范式 六索引 1.MySQL 约束 1.约束的作用 分类 表列的primary key主键,unique唯一键,not null非空等修饰符常常被称作约束(constraint) ...

  8. python音标是什么_python转换工具之汉语拼音与国际音标的实现

    #!/usr/bin/env python # This file has following encoding: utf-8 ######################## 模块导入 ###### ...

  9. 常用汉语声母韵母及汉语拼音表

    常用汉语声母韵母及汉语拼音表 声母23个: b,p,m,f,d,t,n,l,g,k,h,j,q,x,zh,ch,sh,r,z,c,s,y,w 韵母24个: 由于汉语拼音与英语不同,在实际编制程序时需去 ...

  10. 26个音序的正确写法和占格_部编语文汉语拼音音序表,示范朗读+视频教学

    部编语文<汉语拼音音序表> ♬点击上方绿标收听音频 这位老师教的有点喜感,但读得基本是正确的. <汉语拼音方案>给每个字母规定了名称音读法,这是朗读字母表.小学汉语拼音字母表教 ...

最新文章

  1. centos 安装 py pyhs2
  2. android listpreference 自定义,Android – 我的ListPreference中的自定义行布局
  3. 2023. 连接后等于目标字符串的字符串对
  4. UE4 连接自定义服务器
  5. 实验2.5 用递归的方法编写函数求Fibonacci 级数,观察递归调用的过程
  6. Python中默认参数self的理解
  7. 操作系统核心原理-3.进程原理(上):进程概要
  8. PyTorch:tensor-数学API
  9. 第二次公共考试,判断错题集
  10. 通俗易懂去讲解反射(Reflect)
  11. 电子祝福贺卡小程序有哪些?
  12. 【历史上的今天】1 月 28 日:Sun 联合创始人诞生;图灵奖数据库先驱逝世;雅虎收购 GeoCities
  13. excel单元格下拉选项怎么设置_单元格下拉效果怎么实现?
  14. 其实,我对你是有一些失望的。
  15. The request client is not a secure context and the resource is in more-private address ...
  16. alibaba.jym.item.external.goods.batch.offsale( 交易猫外部商家批量下架商品接口 )
  17. Hadoop的序列化和反序列化
  18. 人群捕捞:你的隐私无处遁形
  19. TC Games教你如何在电脑上玩手游梦幻西游,无需模拟器
  20. MATLAB实现地球表面上两点之间的仰角和方位角计算

热门文章

  1. Latex自由设置虚线的作用区间及间距
  2. 你真的熟练运用 HTML5 了吗,这10 个酷炫的 H5 特性你会几个?
  3. 巴菲特-芒格-彼得林奇的经典观点梳理
  4. 自制流媒体播放器(Qt+ffmpeg+SDL)小结
  5. 上海电力大学计算机专业考研好考么,上海电力大学(专业学位)计算机技术考研难吗...
  6. XBOX360游戏目录
  7. Jupyter更改默认浏览器
  8. 真实!数据分析师到底是做什么的?
  9. 计算机软件的输出设备有哪些,计算机输出设备有哪些
  10. OSChina 周五乱弹 ——大叔我还小,放过我吧