总结一下近两周做的事情。
目标:有3个说话人,以4种不同的情感,分别说相同的200句话,建立模型供语音情感识别使用
过程:1、选择建立模型需要的特征及可用工具
         2、处理数据
         3、算法
具体内容:
1、建立模型:对3个人分别建立model,这就需要分别准备这3个人的训练数据
   提取特征:先提取mfcc,使用HTK工具
   训练:采用libsvm工具箱
2、仅给出对于 people1 的数据处理过程:
for  i  in (情感1,情感2,情感3,情感4):
     (1)把200句话分为190 + 10,前190句作为训练集,后10句作为测试集
     (2)分别对190 + 10句wav文件提取mfcc特征(190句的mfcc可以放在一个txt里,后10句因为要做测试用,所以分别放在10个txt里)
      注:HTK提取出的mfcc文件显示为2进制,需自己写代码转换成10进制表示
     (3)处理以上 11 个txt,需要得到这样的格式:[lable]  1:[feature1] 2:[feature2] .... n:[feature n]
例如(情感1可以这样处理): 1  1:0.324 2:0.265 3:0.54 4:0.34 ....  39:0.495 
情感2可定义label为 2,情感3定义label为 3,情感4定义label为 4。
(4)把4种情感的 4*190=760 句wav的mfcc特征写入一个txt,作为 train_data.txt
(5)把4种情感的 4*10=40 句wav的40个mfcc文件放在一起,可标号从1.txt 到 40.txt
3、(用python写的一些代码)
libsvm的 python 文件夹里,有svmutil.py 及 svm.py 文件,看下代码,知道可以用于train和test
得到训练模型:people1.model 
把训练集里的1.txt 至 40.txt 分别进行测试,譬如 1.txt 测试的时候,是按帧来测试得到每帧的label,统计最多的label所属作为 1.txt 的类别即可。
训练结果,正确率高达 98.33% ,低至 83.33% (原因在于自己抽了一部分数据进行的训练,而不是全部的数据,可能抽的不好或者数据冗余)。

过程总结:1、处理数据超级麻烦,主要原因还是自己缺乏实践动手经验。

                2、编程能力不足,本该用C++写的代码,最终拿python敲了,还写的很累赘
                3、思路!思路!思想很重要
现在very tired , 回头再写

(2014/7/16—28)当不同说话人讲相…相关推荐

  1. 【资讯博客翻译】----通过序列转导实现联合语音识别和说话人二值化

    [翻译]通过序列转导实现联合语音识别和说话人二值化 原文网址:https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speake ...

  2. 说话人验证论文翻译:Generalized end-to-end loss for speaker verification

    论文地址:2018_说话人验证的广义端到端损失 论文代码:Generalized End-to-End Loss for Speaker Verification 地址:说话人验证论文翻译:Gener ...

  3. AD-NeRF:用于说话人头部合成的音频驱动神经辐射场

    作为构建未来虚拟世界诸多应用的主干,如何创造栩栩如生的虚拟数字人,一直是计算机视觉.计算机图形学与多媒体等人工智能相关学科密切关注的重要研究课题.近日,中国科学技术大学联合的卢深视科技有限公司.浙江大 ...

  4. AI读懂说话人情绪,语音情感识别数据等你Pick!

    近日,小米推出了全面支持情感化语音交互的小米小爱音箱Art,小米也成为业内首家情感化TTS大规模落地的企业. 基于开心.关心.害羞等有限但类型不同的情感音频数据,通过不同技术训练并迭代声学模型,这款音 ...

  5. 端到端说话人验证系统中长度归一化的分析

    Analysis of Length Normalization in End-to-End Speaker Verification System 端到端说话人验证系统中长度归一化的分析 摘要 经典 ...

  6. 论文分享 | MnTTS2: 开源的多说话人蒙古语TTS数据集

    本次分享内蒙古大学蒙古文信息处理重点实验室.蒙古文智能信息处理技术国家地方联合工程研究中心及语音理解与生成实验室 (S2LAB) 共同发布的开源多说话人蒙古语语音合成数据集及其基线模型.相关论文< ...

  7. 挑战赛 | ISCSLP2022对话短语音说话人日志挑战赛决出三甲

    2022年7月4日起,由中国科学院声学研究所.西北工业大学.新加坡A*STAR信息通信研究所.上海交通大学以及Magic Data联合主办的 "ISCSLP2022对话短语音说话人日志挑战赛 ...

  8. 鞍钢价值低估系列(21)狂想曲(上) 2006-7-19 16:28:26

    鞍钢价值低估系列(21)狂想曲(上) 2006-7-19 16:28:26     <script>function doZoom1(size){document.getElementBy ...

  9. C段 192.168.1.15/28与192.168.1.16/28的区别

    先看几个图: /28代表变化的数量,2^(32-28)=8, /前面的数定位到区间. 0/28,1/28,--15/28 对应一个区间 16/28,17/28,--,31/28对应一个区间 以此类推. ...

最新文章

  1. SpringBoot+Docker+Git+Jenkins实现简易的持续集成和持续部署
  2. 为什么java线程池的submit的不抛出异常
  3. .Net Core Cors中间件解析
  4. java if赋值语句_Java基础第3天+运算符(算术运算符、赋值运算符、比较运算符、逻辑运算符、位运算符、三元运算符)、Scanner键盘录入、if语句...
  5. python中mysqldb模块_python中MySQLdb模块用法实例
  6. JS弹出DIV并使整个页面背景变暗功能的实现代码
  7. ES6-Set集合的创建
  8. 计算机完成了加法操作执行的是,cpu是通过运算器中的什么来完成加法运算的
  9. yolov3前向传播(三)-- 坐标转换,iou计算,权重加载,图片显示
  10. MySQL 开启慢查询日志
  11. spss进行偏相关分析
  12. python如何批量导出数据_【Python】批量导出数据并处理——第一弹
  13. 苹果如何修改无线DNS服务器,苹果手机修改无线wifi的DNS是否能够提升网速?
  14. 洛谷P2757 [国家集训队]等差子序列
  15. 高德地图ajax距离,高德地图 API 计算两个城市之间的距离
  16. 商汤的AI伴游小精灵
  17. php几个时间段去除重复,一个时间段内各地区数据和,发现重复地区不相加
  18. 中国三相开关磁阻电动机行业市场供需与战略研究报告
  19. table表头行固定
  20. 华为linux版能用ps,华为matebookd14能用ps吗

热门文章

  1. pycharm调试时出现十分缓慢,变量数据没法预览的解决方法
  2. 简述计算机网络测试和故障诊断的发展趋势,网络测试和故障诊断
  3. Oracle数据库经典案例之学生选课四表联合查询
  4. [微积分笔记]第二类曲线/面积分总结
  5. android 绘制正方形图片,是Android的自定义View-绘制流程-正方形图片控件(SquareImageView)...
  6. 【很逗,很经典】【与靠谱IT男的浪漫闪婚记】——转个很可爱的帖子,貌似男女猪脚是咱IT人士呢
  7. python编程圆面积_python如何求圆的面积
  8. 隐藏删除 gitbook Published with GitBook 的方法
  9. java中synchronized锁的升级(偏向锁、轻量级锁及重量级锁)
  10. 关于SQL server 2000 在安装过程中遇到文件挂起的解决办法