语音分析与合成,目前主要的分析合成手段:

  1. 谐波加噪声模型(HNM):将信号分成谐波成分和噪声成分,谐波成分代表信号中的低频部分,可以由基频、幅度、相位三个参数表示;噪声代表信号的高频部分,可由高斯白噪声通过高通滤波器来表示,再利用具体算法求出幅度和相位值。
  2. STRAIGHT(使用加权频谱自适应插值的语音变换和表示):提出了一种基音自适应时频频谱平滑算法模型,能够减轻信号周期和频谱之间的干扰
  3. 语音特征参数提取,目前语音转换中所提取的映射参数特征主要是音段信息的局部特征和超音段信息的上下文特征两类。局部特征主要是谱包络、倒谱和共振峰等参数,较为常用的还有线谱对(LSF)参数和考虑了人耳听觉特性的梅尔频率倒谱系数(MFCC),上下文特征主要是指语音帧间的动态信息。
  4. 语音时间对齐:
    1. 对于平行语料:最常用的方法是动态时间规整(DTW),计算每个话语对或在每个音素对之间的最佳时间对准。动态时域规整后,最终产生的是一对相等长度的源和目标特征序列。
    2. 对于非平行语料:可使用基于 WaveNet 的无声码器语音转换方法,该方法不需要处理中间特征,而是利用wavenet直接将语音后验器映射到波形样本,这样就避免了声码器和特征转换引起的估计误差。
  5. 转换效果评价:
    1. 客观评价:建立在语音数据失真测度基础上,利用某种距离准则来测量转换后语音和原始目标语音间的相似程度,并由此得出对转换方法优劣的评价方法。主要的客观评价指标有均方误差(MSE)、谱 失 真 ( SD)和 梅 尔 倒 谱 失 真 (MCD),MSE、SD 和 MCD 的值越小,说明失真越小,转换精度越高。
    2. 主观评价:以人为主体,通过人的主观感受来对语音进行测试。相对于客观评价来说,主观评价结果更具有可信度。主观方法一般从语音质量和说话人特征相似度 2 个角度进行,采用的方法主要是平均意见分(MOS)和 ABX:
      1. MOS 测试:让测评人根据 5 个等级划分对测试语音的主观感受进行打分,既可以用于对语音质量进行主观评价,也可以用于对说话人特征相似度的评价。MOS 分是对所有测试语句和所有测评人的综合平均结果。
      2. ABX 测试:主要针对转换后语音的说话人特征相似度进行转换效果评价,借鉴了说话人识别的原理。测试过程中,测评人分别测听 3 段语音 A、B 和 X,并判断在语音的个性特征方面语音 A 还是 B 更接近于 X。(X 是转换后得到的语音, A 和 B 分别为源语音和目标语音。最后统计所有测评人员的判决结果,计算出听起来像目标语音的百分比。

语音转换主要涉及技术记录相关推荐

  1. 科大讯飞成为北京 2022 年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商

    2019 年 9 月 16 日,北京 2022 年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商发布会在北京冬奥组委园区举行.科大讯飞股份有限公司正式成为北京 2022 年冬奥会和冬残奥会官方自动语 ...

  2. 在微信的视频通话中将语音转成文字并显示在通话界面中,可以使用语音识别技术,将语音转换成文本,再通过编程技巧将文本显示在通话界面中。实现方法...

    在微信的视频通话中将语音转成文字并显示在通话界面中,可以使用以下步骤进行实现: 使用语音识别技术将语音转换成文本.这可以使用现有的语音识别API,如百度语音识别API等. 通过编程技巧将文本显示在通话 ...

  3. 基于GAN的语音转换技术及语音合成TTS

    https://www.toutiao.com/a6714089773171999244/ 介绍 到目前为止,我主要致力于生成人物的图像(或视频),但我希望他们一旦在屏幕上可见就会用对应的声音说话.所 ...

  4. 实用系列1 —— 视频中的语音转换成文字

    实用系列1 -- 视频中的语音转换成文字python版本 背景说明 疫情原因,家里的老师亲戚需要对着电脑上网课,晋升为十八线小主播- 备课的内容来源都是当地教育局的公开课,为了学习公开课的上课方法,只 ...

  5. batchsize和数据量设置比例_1. 项目涉及技术

    1.1 Linux&Shell相关总结 1.1.1 Linux常用命令 序号命令命令解释 1top查看内存 2df -h查看磁盘存储情况 3iotop查看磁盘IO读写(yum install ...

  6. 12个免费的从文本到语音转换 的在线服务和工具

    你知道吗?你说的话或者写的字可以直接转换成语音MP3然后下载,是不是很棒,今天我收集了一些免费的基于网络的服务,将让您将文字转换成语音文本.在网上人们通常喜欢听文章而不是读文字.此外,听力可以节省时间 ...

  7. 盲人方便的使用计算机输入文字,中文信息学报盲人用计算机软件系统中的语音和自然语言处理技术Ξ.PDF...

    中文信息学报盲人用计算机软件系统中的语音和自然语言处理技术Ξ 中 文 信 息 学 报 第 18 卷 第 4 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo ...

  8. 语音转换截取N个文字进行转换

    语音转换截取90个字以逗号隔开变成小句,多出来以少于90个字的最后一个逗号结束 //按90截句转换public String[] fromjson90(String url) throws Excep ...

  9. 利用python将长视频、长语音转换成文字教程 ,非常好用

    原本自己想弄一个语音转文本的,但是发现很多博客都说的不是自己想要的,原因有以下几点:1.因为百度接口支持的语音是pcm格式,而自己的是.mp3格式的文件. 2.百度只支持60s内的文件格式,而自己想要 ...

最新文章

  1. 常见 Datagrid 错误
  2. tensorflow算法实战:普通的数据训练和迁移学习之后的数据训练进行图像的识别(包括前端页面)
  3. Quantitative Researcher Summer Internship (for Overseas Schools)
  4. python的xpath用法_Python爬虫杂记 - Xpath高级用法
  5. php返回并中断,php – 如何从回调函数返回控件或中断array_filter处理中的数组处理...
  6. 【Oracle经典】132个oracle热门精品资料——下载目录收藏 (转载)
  7. 钉钉api 获取 accesstoken_钉钉开放平台第三方 Python SDK,快速实现钉钉API开发
  8. 电子科技大学计算机学院王刚,电子科技大学-团体程序设计天梯赛.PDF
  9. Linux交叉编译+粤嵌LCD实现三色图
  10. 如何安装2个版本的python
  11. 【折腾】GitHub Actions 反代 RSSHub + 多实例轮询
  12. C语言——文件操作(读取文件保存到结构体)
  13. 1068 万绿丛中一点红 (20 分)
  14. QML类型:Window
  15. 计算机网络研究进展,计算机网络信息空间(Cyberspace)的人文地理学的研究进展和展望.pdf...
  16. c语言美元转换人民币的程序,【其它】编程题: 1.编写一个人民币和美元的双向汇率转换程序,实现美元和人民币转换,汇率:1美元=6.92人民币...
  17. 如何手动更新mac的固件
  18. 微信小程序——简单饮食推荐(二)
  19. 一起吃苦的时光,那一碗馄饨
  20. 特特特别详细的HTTP状态码总结

热门文章

  1. CVPR2022-SemanticStyleGAN
  2. 日记侠:都是精准引流的文章,前3名阅读量怎么差这么多
  3. 博客移至https://huhu0706.github.io
  4. 机器学习coursera 第三章编程作业
  5. 电路仿真软件LTspice 使用教程
  6. python下载谷歌地图瓦片_python抓取天地图瓦片
  7. 汇编语言基础之七- 框架指针的省略(FPO)
  8. Linux 系统函数
  9. 计算机奖项含金量排名,大家一起拍下NBA常规赛各项奖项含金量排名,都是个人观点,讨论讨论...
  10. Empirical Covariance 经验协方差 sklearn