多语种发音词典制作方法分享

本文分享者:数据堂 AI-Lab & 数据产品中心 王丽媛

一、为什么制作发音词典
(一)、因为发音词典使用广泛
语音识别、语音合成。在语音合成数据制作中,文本标注环节需着重处理音素标注问题。

(二)、独立数据资产
数据产品市场的热门数据资源产品
发音词典和语种一一对应:一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词
可以一直添加新词汇及对应的音标,不断扩充词典规模

二、什么是发音词典
(一)、标音系统
IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音标、 CMU音标 …

1、IPA
每一个可分辨的读音使用一个符号来表示
107个单独字母用于表示辅音和元音;
31个变音符号用于修饰辅音和元音;
19个用于表示超音段成分(包括音长、声调、重 音、语调等)的特殊符号;
举例:马来语单词:pʰə̆ŋə̆mbaɾɐ

每种语言都有专门的音位系统

怎么打印音标符号?
- 选择合适字体:包含标音系统中的所有符号
- 下载IPA输入法:将EN键盘模式转换成IPA模式

  • 转换标音系统:使用ASCII符号标音系统

支持IPA音标的可用字体

下载IPA输入法

2、SAMPA
以IPA为基础,只使用 ASCII值在 [32,126] 区间的可打印的符号。
解释:在邮件、博客、论坛等网站上支持的字体非常有限,且在跨平台、跨语言传输时许多符号不可以被正确接收。比如,从英国键盘传送过来的英镑符号(£,ASCII 156)在其他国家可能被接收为!、#等符号。

符号
包括大小写字母A-Za-z、数字0-9、标点符号! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符号# $ % & * + < = > @ \ ^ _ ` | ~、空格。

与IPA的映射

  • 小写字母a-z保持不变
  • 其他字符由上述符号
    重新编码

    大多数欧洲语言都已发展了SAMPA表,每张表中都包含了该语言里的所有语音

3、X-SAMPA & Kirshenbaum
SAMPA
SAMPA表有多种语言版本,每种版本设计时都只针对该语言所用到的音标,因此不同版本的SAMPA表互不相容。
X-SAMPA
X-SAMPA是为了统一各种SAMPA字母表而产生的,并且扩展至包含所有国际音标符号,能够把所有音标转写成可打印符号。
Kirshenbaum
也称作ASCII-IPA,是另一种ASCII标音系统

4、多样性
K.K.音标
CMU音标

  • 很多语言学家把国际音标做局部修改以标记他们所研究的语言,所以国际音标也有很多种。
  • K.K.音标是将国际音标中符合美式英语的符号截取出来,再加上美音特有的儿音组成的音标符号。
  • 可以把国际音标当作英式音标,把K.K.音标当作美式音标,但注意, K.K.音标也是国际音标的一种。
  • CMU音标更便于语音识别的训练和解码。

(二)、标音方法
国际音标【音标】只有一种,但用法【标音法】有两种
根据语音标示的严谨程度,可分为严式标音和宽式标音
1、严式标音
[方括号]
通常包括较多的语音细节,即使那些细节在该语言中并不被用于区分语义。
2、宽式标音
/斜线/
通常仅记录能区分语义的语音特征,而忽略无关的细节。

小结
严式标音法在标注时较不会有模棱两可的情况
严式标音法过于追求细节而导致过于复杂
在通常使用中,使用宽式标音法比较合适
为什么宽式标音法也正确?

【音位系统】
音位并不是一种实际的语音,一种音位可以有数种不同的发音,但人们在心理上认为它们是相同的。
比如在现代汉语中,音位/a/可以表示[ɛ]、[ʌ]、[a]、[ɑ]、[œ]、[æ]等
比如在英语中,音位/p/可以表示[p]、[pʰ]等
在宽式标音中,同一音位内的音素变化,在一门语言中是自然而然发生的。

三、怎么制作发音词典
(一)、流程

1、语料搜集
自有语料
开源语料
以韩语为例:
自有语料 —> 444372条词汇
zeroth_korean 开源项目 —> 486727条词汇
维基词条 —> 63745条词汇
||
总语料 —> 883724条词汇

2、文本处理

3、发音规则整理
请教专家、调研论文、维基查询

4、字形-音标转换



5、发音词典
以韩语为例:
两个文件:姓名词汇.xlsx 非姓名词汇.xlsx
三列数据:韩语词汇 IPA音标 罗马音标

四、思考
清晰的发音规则
干净的语料
程序的开发

五、总结
关键点:
在开始之前,必须了解该语言的字形结构、音韵结构
为达到98%以上的准确率,必须充分理解专家意见、确保发音规则的准确性

如何制作多语种发音词典?多语种发音词典的制作方法!相关推荐

  1. 有道 - 词典在线发音API链接(日语)

    <div class="card-header"><h2 th:text="${word.getWordName()}">日语N3 &l ...

  2. jieba 词典 词频_在Hanlp词典和jieba词典中手动添加未登录词

    在使用Hanlp词典或者jieba词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢, ...

  3. 【American English】美式发音,英语发音,美国音音标列表及发音

    1 [American English]美式发音,英语发音,美国音音标列表及发音 2 [American English]美语的连读规则 3 [American English]美语口语中常见的 Go ...

  4. Stanford Corenlp中文分词自定义词典(扩展词典)

    Stanford Corenlp是斯坦福大学的自然语言处理工具,其中中文分词是基于条件随机场CRF (Conditional Random Field) ,不是基于字典的直接匹配.最近调用Stanfo ...

  5. 【实训日记9】Ansj5.1.3版本自定义词典、歧义词典的使用

    之前的资料说的都不太明白,这次也是自己找了很久之后,做一个总结,以便以后再用到. 我们这里使用的都是资源配置. 零.Maven <dependency><groupId>com ...

  6. 独家开发-快译通掌上词典-自建词典生成软件

    独家开发-快译通掌上词典-自建词典生成软件 快译通掌上词典--是一种性价比较高的电子词典工具!至少我觉得我选的V80N是不错的!但是一直以来只能使用快译通提供的内置词典和有限的几种附加词典,这让我觉得 ...

  7. 计算机辅助发音,计算机辅助普通话发音评测关键技术研究

    摘要: 语言是人类沟通最便捷的手段,随着社会的发展,计算机辅助语言学习越来越受到人们重视.计算机辅助语言学习系统中的核心技术之一就是高性能的发音评测技术.发音评测技术可以使学习者随时了解自己的发音水平 ...

  8. jieba--做最好用的中文分词组件详解【2】(载入词典与调整词典)

    写在最前面: 今天有时间,再讲一讲jieba分词的词典. 载入词典: 首先,这是原来的分词方式及其结果: 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词.虽然 jieba 有新词 ...

  9. python:mdict + flask = web 查询英汉词典,汉英词典

    pip install pinyin; pip install snownlp; pip install flask pip install readmdict ; 参见:使用Python调用mdx字 ...

  10. 网页制作代码模板_简单的学生个人网页制作教程

    现在制作个人网页越来越流行,你会发现很多设计师.媒体人.职场人都建立了自己的网站,用来积累粉丝.展示作品.或者找工作.那么不懂技术知识.也没有太多资金的学生,可以建立自己的网站吗? 当然也是可以的!其 ...

最新文章

  1. 云计算如何重塑和简化大规模IT资产
  2. java 文件 迭代_C迭代文件和目录
  3. linux+后台运行+nohup,Linux后台运行命令集(、fg、bg、jobs、nohup、ctrl + z)
  4. C/C++ 中变量的声明、定义、初始化的区别
  5. java服务器崩溃的原因_请求大神帮忙分析一下服务器崩溃原因
  6. MySql:函数总结
  7. Redis学习---(15)Redis 脚本
  8. 《VC++深入详解》学习笔记 第十六章 线程同步与异步套接字编程
  9. android 编译 sdl,SDL编译 - Android本地视频播放器开发_Linux编程_Linux公社-Linux系统门户网站...
  10. Web Performance Test: 如果使用Plugin过滤Dependent Request
  11. java json 本身_JSON以及Java转换JSON的方法(前后端常用处理方法)
  12. 使用Supervisor让你的Swift Perfect服务器项目后台运行
  13. co作为前缀的意思_智课雅思词汇---十五、前缀co-com-con-col-cor-是什么意思
  14. Word文档最后一页总是删除不掉怎么办?
  15. Oracle数据库管理(一):创建和删除数据库
  16. OpenGL开启Gouraud明暗处理,减少马赫夫效应
  17. 百万亚瑟王无法连接服务器请在信号良好的地方重试,叛逆性百万亚瑟王
  18. 装修后才知道的79件事
  19. 某知名OA命令执行方法探索(续)
  20. 友元 异常 RTTI 类型转换符

热门文章

  1. 驱动开发:实现驱动加载卸载工具
  2. Linux内核驱动目录功能说明
  3. 从零开始学android:认识Android
  4. 传奇开服很难吗?教你怎么给Hero传奇引擎添加NPC
  5. 什么是黑链?常见的黑链代码?
  6. eop 文件打包下载大全 - 9000多首歌曲打包免费百度云下载
  7. dex2jar android,dex2jar
  8. html怎么防止扒站点,扒站工具-扒取站点js css的工具
  9. java课程设计员工信息管理系统,javaweb课程设计之员工信息管理系统
  10. 勒让德多项式学习笔记