**1.**SRILM训练语言模型结果出不来

网络上:
http://www.mamicode.com/info-detail-1944347.html
https://blog.csdn.net/u011500062/article/details/50780935

下面说一下,如果网上的方法训练不出语言模型,可考虑我说的方法(直接在srilm文件下输入下面的命令):

1.统计语料库生成n-gram统计文件
./bin/i686-m64/ngram-count-text text.txt -roder 3 -write yy.count #词频统计
2.生成语言模型
./bin/i686-m64/ngram-count -read yy.count -order 3 -lm word-3gram.lm -interpolate -kndiscount #训练三音子模型

**2.**特征提取过程中出现cc:174错误

steps/make_mfcc.sh --nj 8 --cmd run.pl data/mfcc/train exp/make_mfcc/train mfcc/train
utils/validate_data_dir.sh: Successfully validated data-directory data/mfcc/train
steps/make_mfcc.sh: [info]: no segments file exists: assuming wav.scp indexed by utterance.
run.pl: 8 / 8 failed, log is in exp/make_mfcc/train/make_mfcc_train.*.log

进入所说的.log文件后

即出现ERROR (compute-mfcc-feats[5.4]:Read():wave-reader.cc:174) WaveData: can read only PCM data, format id in file is: 3

  • 解决方案:

【经咨询后发现是音频格式的问题,此处偶用的音频为32bit,48000hz的采样率,而语音识别应该用16bit,16000hz采样率】
这里需要改变音频的格式,用到了SOX(音频瑞士军刀)

安装参考:(先看看自己的服务器配置有没有sox)
http://www.mamicode.com/info-detail-1393517.html
使用参考:
1.https://blog.csdn.net/y_xianjun/article/details/73245482
2.https://www.jianshu.com/p/be8977de4a6b

修改采样率(sample rate):sox file1.wav -r 16000 file2.wav
修改采样大小(sample size 或 Precision):sox file1.wav -b 16 file2.wav

在数据文件夹下 写一个脚本fs.sh

#!/bin/bash
for x in ./*.wav
dob=${x##*/}sox $b -r 16000 tmp_$b  #先运行‘#号前 && sox $b -b 16 tmp_$brm -rf $bmv tmp_$b $b
done

运行bash ./fs.sh
结束后,查看头信息 sox -V *.wav -n
修改前:

修改后:

注:

如果出现这种错误,则等运行结束后,再运行一次

**3.**AttributeError: ‘str’ object has no attribute ‘decode’


出现问题的原因:
属性错误:“str”对象没有属性“decode”
python3.5和Python2.7在套接字返回值解码上的区别
参考链接:https://blog.csdn.net/qq_41185868/article/details/82079079
解决办法:
去掉decode(‘utf8’)
进入s5/local/wer_output_filter 注释掉line 15

kaldi跑自己数据遇到的问题合集(持续更)相关推荐

  1. 阿里P8架构师谈:大数据架构设计(文章合集)

    架构师进阶有一块很重要的内容,就是需要掌握大数据的架构设计,主要涵括: MySQL等关系式数据库,需要掌握数据库的索引.慢SQL.以及长事务的优化等. 需要掌握非关系式数据库(NoSQL)的选型,以及 ...

  2. 「凹凸数据」历史文章合集,更新中

    ↑ 关注 + 星标 ~ 有趣的不像个技术号 每晚九点,我们准时相约   大家好,我是朱小五 给大家整理了一下「凹凸数据」截止到2020年4月5日的历史文章合集.点击文章题目就可以跳转到相应文章,后续会 ...

  3. 15篇大数据精品文章大合集

    简介: 这一次,开发者社区为正在"宅家办公"的小伙伴们献上福利~这次的合集整理了一些比较受开发者欢迎的关于大数据技术领域的优质文章. 不管是初涉该领域,还是已经有一定了解,相信都能 ...

  4. 超全面 pandas 数据预处理+数据概览 处理技巧整理(持续更新版)

    这篇文章主要是整理下使用pandas的一些技巧,因为经常不用它,这些指令忘得真的很快.前段时间在数模美赛中已经栽过跟头了,不希望以后遇到相关问题的时候还去网上查(主要是太杂了).可能读者跟我有一样的问 ...

  5. 十大图像数据标注工具大合集

    给大家推荐十大标注工具 1.常见的标注方法 **人工数据标注:**的好处是标注结果比较可靠 **自动数据标注:**一般都需要二次复核,避免程序错误 **外包数据标注:**很多时候会面临数据泄密与流失风 ...

  6. 数据要素市场研究资料合集

    编 辑:彭文华 来 源:大数据架构师 彭友们好,我是老彭.最近有个博士彭友在为论文挠头,到处找数据要素市场的资料. 正好,国家工业信息安全发展研究中心刚刚发布<中国数据要素市场发展报告(2021 ...

  7. 干货 | 2019 数据竞赛TOP方案合集

    2020一起学习 特意准备一份数据竞赛大礼包送给大家! 呕心沥血.不眠不休整理了 2019 经典赛事TOP方案大汇总 助力大家在新的一年奖金拿到手软! 疫情当前 注意防护.不要生病! CCF大数据与计 ...

  8. 给大家介绍几个数据分析,数据可视化的网站合集

    对于初学者和进阶者准备了10+让人眼前一亮的网站,可以说是很全了,建议收藏~ 一.数据来源 1.艾瑞数据 http://index.iresearch.com.cn/ 该网站免费公开的部分可以提供一些 ...

  9. 2021年物流仓储市场数据行业报告专题研究合集

    "十四五"推进西部陆海新通道高质量建设实施方案 <2021年货车司机从业状况调查报告> 2020Q4中国物流市场价格与全年发展动态报告 2021年物流企业营商环境调查报 ...

最新文章

  1. php怎么输出以前的时间,php输出指定时间以前时间格式的方法_PHP
  2. python元胞自动机模拟交通_结构专栏 | 解析DEFORM软件中的元胞自动机法
  3. 【java学习之路】(mysql篇)001.mysql基本介绍、常用命令及简单查询
  4. java zip 文件夹_Java Zip文件文件夹示例
  5. 自回归模型(Autoregressive model)(auto)
  6. IO和IO设备和IO指令和IO通道 以及 IO的分类(只要涉及 IO,这4个就绑定在一起都会使用到)
  7. 圣思园【深入JVM】笔记-第一课-论学习方法
  8. Java连接wincc_WinCC中访问SQL SERVER数据库
  9. 《72个促成交易的经典技巧:…
  10. ios 抓娃娃开发_可爱抓娃娃ios版_可爱抓娃娃手机版1.0.4 - 系统城
  11. 微信小程序开发框架搭建
  12. 达梦出席湖北银行业金融机构信息科技风险管理研讨会
  13. 在ISE下分析约束时序
  14. 王半仙儿的日记-0003
  15. 一篇解决:Ubuntu安装配置、软件、工具、快捷键
  16. 推荐系统基础(2):个性化推荐系统简述
  17. Day01-Dos命令
  18. TLP:一个可以延长 Linux 笔记本电池寿命的高级电源管理工具
  19. Symantec Endpoint Protection 14最新卸载教程(亲测好用,无需密码,暴力删除)
  20. 联想G480—win8.1安装Centos7双系统

热门文章

  1. python批量下载邮件附件
  2. YBT 6 数学基础
  3. java实现手写签名,Android实现手写签名
  4. 瑞萨单片机CS+ for CC 与Renesas Flash Programme软件的使用-学习记录
  5. k神讲故事-金融的结局
  6. 深入浅出JS—18 手把手实现一个Promise类
  7. 玩转云端(云服务器使用详解)
  8. QT根据父窗口子窗口自适应大小
  9. 大一学生HTML期末作业 【html体育排球5页面带注册】学生网页设计作业源码
  10. javaweb JSP JAVA 电影院在线订票系统(电影购票系统 电影售票 电影票预订系统)(支持在线选座)