乱码 讯飞 语音识别_科大讯飞离线语音识别安装与运行
先从官网下载sdk.
文件解析:
bin/inc下有四个头文件:msp_errors.h msp_types.h qisr.h qtts.h
msp_errors.h msp_types.h为通用数据结构的头文件,qisr.h是语音识别用的头文件,qtts.h是语音合成用的头文件。
这是sdk中原代的解释:
1.doc目录下存放开发文档等;2.lib目录下存放SDK需要调用的动态库以及需要引用的头文件。3.example目录下存放提供的示例demo,每个例子下都有Makefile文件,在当前目录make即可;4.bin目录下存放符合标准的语音文件样例、配置文件和资源文件等,make之后的example可执行程序也会拷贝至此,请在此目录下运行,否则会运行失败;5.prj目录下提供make脚本,可以快速编译例子。
然后我按照它的指示,在example下的asrdome下make,然而报错:找不到 lasound,去看它的makefile文件,其中需要这个库,在网上搜了一下,解决方案如下:
sudo apt-get install alsa-base alsa-utils alsa-source libasound2-dev
重新编译,又报错,警告:检测到时钟错误。您的创建可能是不完整的。
将之前编译创建的 “asrdemo.o” 删除 继续,编译成功。
然后再bin下生成了"asrdemo"可执行文件,在bin目录下运行(./asrdemo)
运行成功。
然而 输出的结果是一堆代码,里面夹杂识别的话。在网上查了一下,代码的函数逻辑大概如下
1.先要调用QISRInit()函数,参数是自己的appid,每个SDK都是注册才能下载的,所以是唯一的,用来区分用户的,不同级别的用户每天可以使用SDK的次数有限制,毕竟人用的多了语音识别的性能肯定会下降;
2.之后就是把GrammarID,输入输出的参数param和调用状态返回值ret作为参数传入QISRSessionBegin()函数中进行初始化,返回值是sessionID,这个是后面所有函数的主要参数之一;
3.打开自己的音频文件,调用QISRAudioWrite()函数写入,可以分段也可以一次,第一个参数是sessionID,上面初始化函数返回的值,第二个参数是音频数据头指针,第三个参数是音频文件大小,第四个参数是音频发送的状态,表示发送完了没有,剩下两个是服务器端检测语音状态和识别状态的返回值;
4.调用QISRGetResult()函数获取识别的结果,第一个参数还是sessionID,第二个参数是输出识别的状态,第三个参数是与服务器交互的间隔时间,官方建议5000,我取为0,第四个参数是调用状态返回值ret,最后这个函数的返回值就是上面结果的json数据了
录制语音时,使用“ffmpeg”录音,简单方便,符合语音识别的要求。
讯飞语音对语音的要求如下:采样率16K或8KHz,采样位是16位,单声道,格式是PCM或WAV。自带的录音软件都是默认32位采样,只能用ffmpeg或自己写代码录制,ffmpeg命令如下:
ffmpeg -f alsa -ar 16000 -ac 1 -i hw:0 lib.wav
乱码 讯飞 语音识别_科大讯飞离线语音识别安装与运行相关推荐
- 科大讯飞语音识别_科大讯飞 语音识别_科大讯飞语音识别系统 - 云+社区 - 腾讯云...
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 到目前为止科大讯飞的javasdk不支持客户端和服务端分开的情况,也就是说,语音合 ...
- GEC6818开发板JPG图像显示,科大讯飞离线语音识别包Linux_aitalk_exp1227_1398d7c6运行demo程序,开发板实现录音
GEC6818开发板JPG图像显示 | 开发板实现录音 一.GEC6818开发板JPG图像显示 1.jpg图片特性 2.如何解压缩jpg图片 1.对jpegsrc.v8c.tar.gz进行arm移植 ...
- 集成讯飞SDK,实现离线命令词、离线语音合成、离线唤醒,语音在线/离线听写
关于讯飞开发平台的注册以及SDK下载:## ##请参考: http://blog.csdn.net/weixin_39923324/article/details/78924892 强烈推荐 分享一个 ...
- 乱码 讯飞 语音识别_一段讯飞、百度等语音识别API无法识别的语音最终解决办法...
最近在做语音识别.字幕扒词相关的工作,遇到了一段录音(https://download.csdn.net/download/u014220286/12169183,各位有兴趣的可以下载下来试试),音质 ...
- 基于讯飞语音云的Android语音识别与朗读
语音云开放平台是科大讯飞股份有限公司旗下的全球首个面向互联网开发者的智能语音交互平台,为开发者免费开放语音识别.语音合成.智能语义等服务.自2010年首度在北京香格里拉饭店发布以来,吸引了各个领域的优 ...
- 长语音识别_长文本语音识别_语音 识别 - 云+社区 - 腾讯云
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 录音文件识别请求,数据结构,android sdk,ios sdk,自学习模型,使 ...
- 科大讯飞离线语音识别安装与运行
先从官网下载sdk,有点不懂下载的逻辑.. 文件解析: bin/inc下有四个头文件:msp_errors.h msp_types.h qisr.h qtts.h msp_errors.h msp_t ...
- 讯飞语音包实现Android语音识别
1.先要到讯飞官网去注册并且获取相对应的appid,申请地址:http://www.xfyun.cn/ 2 将开发工具包中libs目录下的Msc.jar和armeabi复制到Android工程的lib ...
- springboot 讯飞语音_讯飞智能语音鼠标实际体验感受
这几天入手一个科大讯飞智能语音鼠标,我的实际体验感受就是"用嘴打字的体会,你体会不了!简称"嘴强王者"" 我拿到手的是lite版本,讯飞一共出了三款智能鼠标,分 ...
- linux离线语音识别程序,linux离线语音识别安装运行总结
今天我们要来看的是linux离线语音识别的安装和运行,在开始说之前,我想问一下,很多人都玩过小游戏吧,我之前的一个朋友自己做了一个贪吃蛇小游戏,然后给他加上了语音识别系统,更加增添了游戏的趣味,对于语 ...
最新文章
- 什么时候用activity什么时候用fragment
- WCF入门(六)——回调
- TCL with SNPS sizeof_collectionget_object_namefindget_libslist_attributes
- HDU Problem - 4289 Control(最大流)
- wampserver的mysql启动与环境变量设置
- Apollo自动驾驶入门课程第⑩讲 — 控制(下)
- ajax header的bearer token验证
- Security+ 学习笔记30 云计算构建模块
- maven pom 文件的 scope,scope=system 时打包打不进
- Maven打包三种方法和常用命令大全
- 奇葩!小米手机自带浏览器css兼容问题,强制屏蔽、隐藏类名为 top_box 的元素。
- 软件测试面试宝典(杂乱)
- IE6 IE7 并存
- java 直播rtmp推流_如何设置rtmp推流直播(斗鱼,腾讯云,yy等直播)?
- RH10M漏电故障保护继电器
- IOST节点计划全面升级: 全球寻找1000位IOST合伙人
- 《热风》愿中国青年都摆脱冷气 摘抄记录
- 嘿!大三了怎么找到对象?膜拜!
- origin绘图基础1
- SAP DOI实现小记