音素对齐在语音识别,语音合成等领域都可能会用的到,当你不想自己训练个模型来处理对齐任务时,最好的办法是找个工具。

用了一圈下来,发现Montreal-Forced-Aligner(MFA)比较好用,不仅支持汉语(普通话)还支持英语和一堆其他的语言(还可以自己训练声学模型),所以接下来主要写的是MFA的用法。另外还有一个专门处理汉语音素对齐的工具speech-aligner,地址在这里https://github.com/open-speech/speech-aligner 另外专栏为什么不支持插入站外链接,除了不支持代码高亮以外又多了个槽点= =

第一件事是把MFA下载下来https://montreal-forced-aligner.readthedocs.io/en/latest/installation.html

Mac,Linux,Windows都可以用,下载后记得解压缩。

首先在与训练模型找到普通话(Mandarin),链接在这里https://montreal-forced-aligner.readthedocs.io/en/latest/pretrained_models.html

然后找一个字典(可以自己训练,参考这里https://montreal-forced-aligner.readthedocs.io/en/latest/example.html?highlight=mandarin#example-2-generate-mandarin-dictionary),没在文档里面找到现成的,不过逛Github的时候在一个停止维护的项目MTTS里面找到了一份字典https://github.com/Jackiexiao/MTTS/blob/master/misc/mandarin-for-montreal-forced-aligner-pre-trained-model.lexicon

然后处理数据,一个wav文件(采样频率在16k以上,不是的话用sox或其他的转换一下)对应一个lab文件,lab里的内容是wav的拼音

接下来就是对齐啦,大概是这样

bin/mfa_align biaobei mandarin-for-montreal-forced-aligner-pre-trained-model.lexicon mandarin.zip result

biaobei指的是数据所在文件夹路径,因为用的是标贝的数据所以用了这个名字,对齐的时候读者小伙伴们记得自己改路径,不要复制粘贴一气呵成~

mandarin-for-montreal-forced-aligner-pre-trained-model.lexicon 是之前下载的字典文件。

mandarin.zip 是之前下载的普通话声学模型,记得不要解压。

result是输出路径。

正常工作的话大概会是这样:

没有正常工作的话,会输出错误信息。

输出内容是这样的:

oov指的是字典里没有的拼音,对齐文件在biaobei文件夹里。

长这样:

item1是拼音的持续时间

item2是音素的持续时间

然后自己写一个脚本读取就好啦w

作者:茯苓猫不黑
https://www.bilibili.com/read/cv6815691
出处: bilibili

汉语(普通话)的音素对齐相关推荐

  1. 方言听力测试软件,汉语普通话噪声中听力测试材料在不同方言正常人中的应用研究...

    摘要: 目的 研究汉语普通话噪声中听力测试(hearing in noise test,HINT)句子测试材料在不同方言听力正常人中的测试效果.方法 使用BLIMP测试软件对不同方言地区和北京市正常听 ...

  2. chain模型音素对齐

    假设已经训练好了chain模型,想用chain模型对齐的话(正常都是用GMM对齐),这个对齐要有y哦 1 准备数据 这里是参考 steps/nnet3/align.sh中的脚本,首先要的数据必须是&l ...

  3. MFA音素对齐版本降级

    见https://pypi.org/project/Montreal-Forced-Aligner/2.0.0b3/ # 个人感觉这个版本好用

  4. 汉语音频文本对齐(Forced Alignment)-MFA

    github:G-Meteor/Forced-Alignment-MFA (github.com) 里面有已下载好的模型与字典. 音素对齐在语音识别,语音合成等领域都可能会用的到.Montreal-F ...

  5. MFA强制对齐音频和音素的用法

    目录 环境 准备工作 音素对齐 环境 ubuntu 18.04.4 LTS 准备工作 下载Linux版本的MFA库montreal-forced-aligner_linux.tar.gz(这里下的版本 ...

  6. 机器翻译中的古汉语现代汉语句子对齐研究

    第十一届全国机器翻译研讨会(CWMT 2015)                                                                中国 · 合肥 2015 ...

  7. 基于Tacotron汉语语音合成的开源实践

    语音合成(Text to Speech Synthesis)是一种将文本转化为自然语音输出的技术,在各行各业有着广泛用途.传统TTS是基于拼接和参数合成技术,效果上同真人语音的自然度尚有一定差距,效果 ...

  8. ####好好好好####基于Tacotron汉语语音合成的开源实践

    2017年初,Google 提出了一种新的端到端的语音合成系统--Tacotron.Tacotron打破了各个传统组件之间的壁垒,使得可以从<文本,声谱>配对的数据集上,完全随机从头开始训 ...

  9. 最小的语言符号是A词B语素C音素D义素,[转载]语言学概论试题 答案

    2003年10月高等教育自学考试 语言学概论试题 课程代码:00541 一.单项选择题(本大题共26小题,每小题1分,共26分) 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题 ...

最新文章

  1. MATLAB_7-彩色图像【长长的笔记!】车牌放在文章末尾有链接
  2. C++ assert 断言使用
  3. TabHost与RadioGroup结合完成的菜单【带效果图】5个Activity
  4. 图解iPhone开发新手教程
  5. nbiot开发需要掌握什么_什么是前端工程师?前端工程师需要掌握什么技能?
  6. java 反射data类型_java反射机制系列之初识Java Reflection
  7. 如何使用pyspark
  8. python学习---字符串
  9. Atitit 眼科医学之道 attilax总结
  10. Spring(二)控制层梳理
  11. “海天”们推新、“饭爷”们加速;调味料升级战谁能突围?
  12. 谷俊丽分享之基于深度学习的大数据挖掘
  13. 2017-2018 ACM-ICPC, Asia Daejeon Regional Contest F.Philosopher’s Walk
  14. “庄家”:腾讯的投资“六合彩”
  15. CSR8670 开始
  16. java poi之操作ppt\pptx
  17. sticky的基本使用
  18. 2021高考汕头一中成绩查询,2021汕头市地区高考成绩排名查询,汕头市高考各高中成绩喜报榜单...
  19. java 字符串签名_Java-方法签名
  20. 洛谷P2556 [AHOI2002]黑白图像压缩(简单模拟题)

热门文章

  1. mq系列传感器的程序_深圳现代通信系列实训系统
  2. srs audio sandbox 注册机_Windows10自带 Sandbox软件测试必备技巧
  3. 【c语言】蓝桥杯算法提高 一元一次方程
  4. linux efi启动,可启动USB Linux的EFI/ UEFI
  5. Nodejs教程30(完结):PM2入门
  6. Mac笔记本中是用Idea开发工具在Java项目中调用python脚本遇到的环境变量问题解决...
  7. Maven中的profile和spring boot中的profile进行结合
  8. 设置div中的div居中显示
  9. 测试Animation大型动画文件拆分播放的可行性
  10. 强人工智能基本问题:全局控制与自组织