0. 说明

工具在: https://github.com/ruclion/G2P_Kb

英文用

  1. CMUDict
  2. 0,1,2重音

找了个不用搭环境的, 确实不错, 谢谢作者: https://github.com/Kyubyong/g2p

但是具体的原理和标准还没有特别关注, 以下摘抄自Git

0.1. 简介

此模块旨在将英语字素(拼写)转换为音素(读音)。在语音合成等多项任务中,它被认为是必不可少的。不像西班牙语或德语这样的许多语言可以通过拼写来推断单词的发音,英语单词通常远没有人们期望的那样。因此,如果我们想知道某个单词的发音,最好参考字典。但是,这种方法至少要考虑两个问题。首先,您不能消除同形异义词(具有多个发音的单词)的发音的歧义。 (请参阅下文。)其次,您无法检查单词是否不在词典中。 (请参阅下面的b。)

例子

a. I refuse to collect the refuse around here. (rɪ|fju:z as verb vs. |refju:s as noun)
b. I am an activationist. (activationist: newly coined word which means n. A person who designs and implements programs of treatment or therapy that use recreation and activities to help people whose functional abilities are affected by illness or disability. from WORD SPY

0.2. 方案

对于第一个同形异义词问题,幸运的是,许多同形异义词可以使用其词性(即使不是全部)来消除歧义。但是,当涉及到词典中没有的单词时,我们应该利用我们的知识做出最佳猜测。在此项目中,我们采用了基于的深度学习seq2seq框架

  1. 拼写出阿拉伯数字和一些货币符号。 (例如$ 200-> 200美元)(这是从Keith Ito的代码中借来的)
  2. 尝试根据POS检索异义词的正确发音
  3. 查找非单应符号的CMU发音词典(这个不太懂, TODO...)
  4. 对于OOV,我们使用神经网络模型预测其发音
  5. https://arxiv.org/abs/1811.09364 工具应用于这篇论文中

1. 安装

  1. pip install g2p_en
  2. 启动python测试, python
  3. 照着下面的代码测试
from g2p_en import G2ptexts = ["I have $250 in my pocket.", # number -> spell-out"popular pets, e.g. cats and dogs", # e.g. -> for example"I refuse to collect the refuse around here.", # homograph"I'm an activationist."] # newly coined word
g2p = G2p()
for text in texts:out = g2p(text)print(out)
>>> ['AY1', ' ', 'HH', 'AE1', 'V', ' ', 'T', 'UW1', ' ', 'HH', 'AH1', 'N', 'D', 'R', 'AH0', 'D', ' ', 'F', 'IH1', 'F', 'T', 'IY0', ' ', 'D', 'AA1', 'L', 'ER0', 'Z', ' ', 'IH0', 'N', ' ', 'M', 'AY1', ' ', 'P', 'AA1', 'K', 'AH0', 'T', ' ', '.']
>>> ['P', 'AA1', 'P', 'Y', 'AH0', 'L', 'ER0', ' ', 'P', 'EH1', 'T', 'S', ' ', ',', ' ', 'F', 'AO1', 'R', ' ', 'IH0', 'G', 'Z', 'AE1', 'M', 'P', 'AH0', 'L', ' ', 'K', 'AE1', 'T', 'S', ' ', 'AH0', 'N', 'D', ' ', 'D', 'AA1', 'G', 'Z']
>>> ['AY1', ' ', 'R', 'IH0', 'F', 'Y', 'UW1', 'Z', ' ', 'T', 'UW1', ' ', 'K', 'AH0', 'L', 'EH1', 'K', 'T', ' ', 'DH', 'AH0', ' ', 'R', 'EH1', 'F', 'Y', 'UW2', 'Z', ' ', 'ER0', 'AW1', 'N', 'D', ' ', 'HH', 'IY1', 'R', ' ', '.']
>>> ['AY1', ' ', 'AH0', 'M', ' ', 'AE1', 'N', ' ', 'AE2', 'K', 'T', 'IH0', 'V', 'EY1', 'SH', 'AH0', 'N', 'IH0', 'S', 'T', ' ', '.']

2. 应用到标贝数据

数据路径: /ceph/home/hujk17/TTS.DataBaker.zhcmn.enus.F.DB6.emotion/EN/100001-102000.txt

2.1. Phoneme目标标准

实例如下

100001   When I found- out about her death% I was shocked%, but not surprised%, she said%.W EH1 N / AY1 / F AW1 N D / AW1 T / AH0 . B AW1 T / HH ER1 / D EH1 TH / AY1 / W AA1 Z / SH AA1 K T / B AH1 T / N AA1 T / S ER0 . P R AY1 Z D3 / SH IY1 / S EH1 D
100002  The latter serve as a worm% aphrodisiac/, getting the hermaphroditic worms% to breed more often%.DH AH0 / L AE1 . T ER0 / S ER1 V / AE1 Z / AH0 / W ER1 M / AE2 . F R AH0 . D IY1 . Z IY0 . AE0 K / G EH1 . T IH0 NG / DH AH0 / HH ER0 . M AH2 . F R AH0 . D AY1 . T IH0 K / W ER1 M Z / T UW1 / B R IY1 D / M AO1 R / AO1 . F AH0 N3

2.1.1. 输入的英文格式

先将- %, 丢掉, 只保留正常的标点符号

100001   When I found out about her death I was shocked, but not surprised, she said.

2.1.2. 输出的phoneme格式

todo...

英文G2P模块和标准-KbGit相关推荐

  1. VB中窗体模块、标准模块、类模块的区别

    VB的代码存储在模块中.在VB中提供了三种类型的模块:窗体模块.标准模块和类模块. 简单的应用程序可以只有一个窗体,所用的程序都驻留在窗体模块中,而当应用程序庞大复杂时,就要另外附加窗体.最终可能有几 ...

  2. 计算机英语怎么读音读,电脑的英文怎么发音按照标准的

    电脑的英文怎么发音按照标准的 电脑是我们目前普遍使用的,相信很多人也知道电脑的英文读音是什么.如果不知道,那就随着百分网小编一起来看看标准的电脑的英文发音. 电脑的英文发音 computer 发音请看 ...

  3. Python学习记录——英文名修改成标准格式

    Python学习记录--英文名修改成标准格式 功能需求 把用户输入的不规范的英文名字,变为首字母大写,其他小写的规范名字.输入:['adam', 'LISA', 'barT'],输出:['Adam', ...

  4. VBA中窗体模块、标准模块和类模块的区别

    Office VBA 参考 VBA类模块完全教程(完结篇) VBA类模块完全教程(下篇) VBA类模块完全教程(中篇) VBA类模块完全教程(上篇) VBA中窗体模块.标准模块和类模块的区别

  5. 2022 年全国职业院校技能大赛(中职组) 网络安全竞赛试题A 模块评分标准

    2022 年全国职业院校技能大赛(中职组) 网络安全竞赛试题 A 模块评分标准 模块 A 基础设施设置与安全加固 A-1 任务一 登录安全加固(Windows, Linux) 请对服务器 Window ...

  6. 100g光模块厂家排名_100G光模块主流标准都有哪些

    今天跟大家谈谈数据中心100G光模块主流标准,传统数据中心主要基于10G网络架构,为了适应AI.深度学习.大数据计算等业务的规模部署,下一代数据中心架构正在向25G/100G网络架构演进,在国内已经看 ...

  7. 企业里没有TPM(可信赖平台模块)标准的安全芯片计算机,如何开启BitLocker锁定磁盘,如何备份系统,当系统出现问题又如何恢复,快速恢复又兼顾系统安全

    环境: Win 10专业版 SGIMINI4.8.126.0 联想E14 问题描述: 企业里没有TPM(可信赖平台模块)标准的安全芯片计算机,如何开启BitLocker锁定磁盘,如何备份系统,当系统出 ...

  8. Python学习笔记011_模块_标准库_第三方库的安装

    容器 -> 数据的封装 函数 -> 语句的封装 类 -> 方法和属性的封装 模块 -> 模块就是程序 , 保存每个.py文件 # 创建了一个hello.py的文件,它的内容如下 ...

  9. python string模块template_Python标准库笔记(1) — string模块

    String模块包含大量实用常量和类,以及一些过时的遗留功能,并还可用作字符串操作. 1. 常用方法 常用方法描述str.capitalize()把字符串的首字母大写str.center(width) ...

  10. python itertools模块_Python标准模块--itertools

    1 模块简介 Python提供了itertools模块,可以创建属于自己的迭代器.itertools提供的工具快速并且节约内存.开发者可以使用这些工具创建属于自己特定的迭代器,这些特定的迭代器可以用于 ...

最新文章

  1. 2021高校毕业生薪酬Top100出炉!清华指数TOP,薪酬却排名第二
  2. android 中文件操作模式
  3. 怎么找回失踪的NTLDR文件
  4. nodejs 快速搭建接口
  5. wxWidgets:wxTaskBarIcon 演示
  6. gcn在图像上的应用_每日摘要|基于CNN 特征的图像卷积网络识别杂草和作物
  7. 创建项目提交至GitHub
  8. easypoi之IExcelVerifyHandler自定义校验使用
  9. console.log的问题
  10. 《机器视觉算法与应用》第3章 机器视觉算法之几何基元的分割和拟合——学习笔记
  11. java newtonsoft.json_Newtonsoft.Json(Json.Net)学习笔记
  12. 税务会计实务【18】
  13. 洛克菲勒写给儿子的38封信
  14. 软件企业税收优惠政策2022
  15. c/c++判断数组中元素的个数
  16. AFPM100/B消防电源在南京基地模检具业务搬迁改造项目的应用
  17. 知乎关注度人数最多的问题排行榜 TOP10
  18. H5网页头部的声明应该是用 lang=zh 还是 lang=zh-cn?
  19. VVC代码学习之自定义数据结构阅读4
  20. PDF解除密码怎么操作?这个方法可以帮到你

热门文章

  1. img标签图片居中显示
  2. AXD 调试经验,使用及问题
  3. 手机投屏到电脑的5种方式,你学到了吗!
  4. 检索下载中/英文论文的方法
  5. python计算平均值画折线图_【中年阿姨python入门】绘制折线图
  6. java 求黄金分割点
  7. Redis数据结构之list对象
  8. html、input隐藏内容占空间与隐藏内容不占空间
  9. Storm运行原理探索
  10. 风力、风向角度 换算