百度在线语音识别接入经验
由于最近项目需要语音识别,所以去接了一下语音识别的SDK。
分别接了讯飞的语音识别,和百度的。至于优缺点嘛,感觉讯飞的实时识别速度比较快,然后百度的是一次性上传,如果你一次识别的语音太多,就会识别比较慢,特别是在线识别。当然了百度的优点就是可以自己控制语音断点,讯飞的暂时还没有找到这个方法(有找到的麻烦告诉我)。
当然了,最后选择百度的原因在于,讯飞的审核,要求app小于50M。好吧!我的包没法变小了!
进入正题,接入的方法就不说了,按照官方的文档,肯定是可以接上的!
现在说说我遇到的几个坑,主要是IOS下面的
1.语音识别后应用的声音变小了
解决方法:在语音识别之后将Audiosession设置回来,百度语音识别的时候讲Audiosession设置为了录音状态,代码如下:
//将声音模式调回正常状态AVAudioSession *audioSession = [AVAudioSession sharedInstance];NSError *err = nil;[audioSession setCategory :AVAudioSessionCategoryAmbient error:&err];if(err){// NSOSStatusErrorDomainNSLog(@"audioSession: %@ code = %d %@", [err domain], [err code], [[err userInfo] description]);return;}
2.在IOS8之后,使用语音识别之后,整个应用静音。
解决方法:在百度语音中有这样一个接口:
//- - - - - - - - - - - - - - - -功能设置- - - - - - - - - - - - - - - - - - - -
// 定制功能
// 定制语义解析功能请传入key=BDVR_CONFIG_KEY_NEED_NLU,如果开启此功能,将返回带语义的json串,含义详见开发文档说明
#define BDVR_CONFIG_KEY_NEED_NLU @"nlu"
// 定制通讯录识别功能请传入key=BDVR_CONFIG_KEY_ENABLE_CONTACTS,如果开启此功能,将优先返回通讯录识别结果
#define BDVR_CONFIG_KEY_ENABLE_CONTACTS @"enable_contacts"
// 定制SDK是否对AudioSession进行操作,如果外部需要操作AudioSession,应当通过此接口禁止SDK对AudioSession进行操作
#define BDVR_CONFIG_KEY_DISABLE_AUDIO_SESSION_CONTROL @"disable_audio_session_control"
- (void)setConfig:(NSString *)key withFlag:(BOOL)flag;
我们使用最后一个,然后自己控制Audiosession,这样就可以解决这个问题。代码如下:
// 定制SDK是否对AudioSession进行操作,如果外部需要操作AudioSession,应当通过此接口禁止SDK对AudioSession进行操作[[BDVoiceRecognitionClient sharedInstance] setConfig:BDVR_CONFIG_KEY_DISABLE_AUDIO_SESSION_CONTROL withFlag:true];
然后,其中还碰到了一些其他的问题,不过都是小事,相信大家都能搞定,这里就不再详细的说了。
百度在线语音识别接入经验相关推荐
- Android 百度在线语音识别
首先需要在百度进行用户注册,然后新建一个应用,选择你需要的服务,并且设置好创建的apk的包名. 然后在AndroidManifest.xml中配置: <?xml version="1. ...
- Android 调用百度在线语音识别功能
换了好几个语音转文字的工具,主要跟百度上大家的方法一样,最开始用的科大讯飞的语音,真的还蛮好用的,整体来说demo的接口比较清晰吧~准确率也很高,但是量大就要收费.所以,换了第二种,Android原生 ...
- ESP32接入百度智能云语音识别,实现在线语音识别
一.概述 使用ESP32接入百度智能云实现在线语音识别.实现最基本的语音识别功能还是很简单的,但还是遇到了一些小问题,在这记录一下. 使用了max9814麦克风模块用做语音输入,一个按键来控制 ...
- 百度Android在线语音识别SDK用法
百度Android语音识别SDK分在线与离线两种,这篇文章介绍在线SDK的用法. 在线SDK是以JAR包和动态链接库形式公布和使用,能够从百度开放云平台站点中下载SDK及使用说明文档. 完毕语音SDK ...
- 三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的
前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别).刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(G ...
- tensorflow 语音识别_调研报告|在线语音识别改进方法之序列区分性训练
这篇文章主要调研的是一种常见的改进在线语音识别的方法:序列区分性训练(Sequence Discriminative Training).相信有很多人已经在 CTC/CE 的训练上遇到了瓶颈,而一些新 ...
- AI加持 百度输入法语音识别准确率相对提升15%
7月3日,在2019百度AI开发者大会上,百度首席技术官王海峰在介绍百度大脑AI技术时谈到百度AI能力应用落地的重要产品之一"百度输入法",截止目前,百度输入法日均语音请求量峰值已 ...
- ESP32在线语音识别 词法解析
文章目录 在线语音识别的优势 一,语音识别流程图 二,录音 三,词法分析 在线语音识别的优势 在线语音识别结合语义分析,具有识别精准,灵活性高的特点,但是,其处理速度不如离线识别. 一,语音识别流程图 ...
- 视频合成剪辑者的福音-百度在线语音合成
AI人工智能为大家介绍百度语音识别的系列产品在线语音合成,它是基于业界领先的深度神经网络技术,提供高度拟人.流畅自然的语音合成服务,让您的应用.设备开口说话,更具个性,下面我们来看下它的功能.优势.应 ...
最新文章
- RTC 音频质量评价和保障
- Spark _25.plus _使用idea读取Hive中的数据加载成DataFrame/DataSet(四)
- release8_如何在Windows 8 Release Preview中将Chrome用作Metro浏览器
- .NET Core HttpClient请求异常思考
- 测试基础【第七篇】测试报告
- 从「模拟」理解零知识证明:平行宇宙与时光倒流—— 探索零知识证明系列(二)
- Windows中的工作组(Work Group)、域(Domain)、域控(DC)、活动目录(AD)介绍
- 怎么把图片内存变小尺寸保持不变呢。
- 实用网址(永久更新中)
- linux 安装pkg文件,Linux的pkg-config命令
- perl pack和unpack的使用详解
- Leetcode-二分+递归/回溯-1723. 完成所有工作的最短时间
- PC端页面适应不同的分辨率的方法
- 条码打印机换碳带的方法
- RDS电台 TA 与 AF解释
- 计算机ccf试题答案,【计算机本科补全计划】CCF 2017-03 试题初试
- 一种gps速度漂移过滤的方法
- 计算机休眠状态播放音乐,怎么设置win10中关村系统进入睡眠状态后音乐继续播放...
- 网易2018校园招聘:字符串碎片 [python]
- 4-tensorflow中张量的数学运算