由于最近项目需要语音识别,所以去接了一下语音识别的SDK。

分别接了讯飞的语音识别,和百度的。至于优缺点嘛,感觉讯飞的实时识别速度比较快,然后百度的是一次性上传,如果你一次识别的语音太多,就会识别比较慢,特别是在线识别。当然了百度的优点就是可以自己控制语音断点,讯飞的暂时还没有找到这个方法(有找到的麻烦告诉我)。

当然了,最后选择百度的原因在于,讯飞的审核,要求app小于50M。好吧!我的包没法变小了!

进入正题,接入的方法就不说了,按照官方的文档,肯定是可以接上的!

现在说说我遇到的几个坑,主要是IOS下面的

1.语音识别后应用的声音变小了

解决方法:在语音识别之后将Audiosession设置回来,百度语音识别的时候讲Audiosession设置为了录音状态,代码如下:

 //将声音模式调回正常状态AVAudioSession *audioSession = [AVAudioSession sharedInstance];NSError *err = nil;[audioSession setCategory :AVAudioSessionCategoryAmbient error:&err];if(err){//        NSOSStatusErrorDomainNSLog(@"audioSession: %@  code = %d %@", [err domain], [err code], [[err userInfo] description]);return;}

2.在IOS8之后,使用语音识别之后,整个应用静音。

解决方法:在百度语音中有这样一个接口:

//- - - - - - - - - - - - - - - -功能设置- - - - - - - - - - - - - - - - - - - -
// 定制功能
// 定制语义解析功能请传入key=BDVR_CONFIG_KEY_NEED_NLU,如果开启此功能,将返回带语义的json串,含义详见开发文档说明
#define BDVR_CONFIG_KEY_NEED_NLU @"nlu"
// 定制通讯录识别功能请传入key=BDVR_CONFIG_KEY_ENABLE_CONTACTS,如果开启此功能,将优先返回通讯录识别结果
#define BDVR_CONFIG_KEY_ENABLE_CONTACTS @"enable_contacts"
// 定制SDK是否对AudioSession进行操作,如果外部需要操作AudioSession,应当通过此接口禁止SDK对AudioSession进行操作
#define BDVR_CONFIG_KEY_DISABLE_AUDIO_SESSION_CONTROL @"disable_audio_session_control"
- (void)setConfig:(NSString *)key withFlag:(BOOL)flag;

我们使用最后一个,然后自己控制Audiosession,这样就可以解决这个问题。代码如下:

// 定制SDK是否对AudioSession进行操作,如果外部需要操作AudioSession,应当通过此接口禁止SDK对AudioSession进行操作[[BDVoiceRecognitionClient sharedInstance] setConfig:BDVR_CONFIG_KEY_DISABLE_AUDIO_SESSION_CONTROL withFlag:true];

然后,其中还碰到了一些其他的问题,不过都是小事,相信大家都能搞定,这里就不再详细的说了。

百度在线语音识别接入经验相关推荐

  1. Android 百度在线语音识别

    首先需要在百度进行用户注册,然后新建一个应用,选择你需要的服务,并且设置好创建的apk的包名. 然后在AndroidManifest.xml中配置: <?xml version="1. ...

  2. Android 调用百度在线语音识别功能

    换了好几个语音转文字的工具,主要跟百度上大家的方法一样,最开始用的科大讯飞的语音,真的还蛮好用的,整体来说demo的接口比较清晰吧~准确率也很高,但是量大就要收费.所以,换了第二种,Android原生 ...

  3. ESP32接入百度智能云语音识别,实现在线语音识别

    一.概述   使用ESP32接入百度智能云实现在线语音识别.实现最基本的语音识别功能还是很简单的,但还是遇到了一些小问题,在这记录一下.   使用了max9814麦克风模块用做语音输入,一个按键来控制 ...

  4. 百度Android在线语音识别SDK用法

    百度Android语音识别SDK分在线与离线两种,这篇文章介绍在线SDK的用法. 在线SDK是以JAR包和动态链接库形式公布和使用,能够从百度开放云平台站点中下载SDK及使用说明文档. 完毕语音SDK ...

  5. 三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的

    前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别).刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(G ...

  6. tensorflow 语音识别_调研报告|在线语音识别改进方法之序列区分性训练

    这篇文章主要调研的是一种常见的改进在线语音识别的方法:序列区分性训练(Sequence Discriminative Training).相信有很多人已经在 CTC/CE 的训练上遇到了瓶颈,而一些新 ...

  7. AI加持 百度输入法语音识别准确率相对提升15%

    7月3日,在2019百度AI开发者大会上,百度首席技术官王海峰在介绍百度大脑AI技术时谈到百度AI能力应用落地的重要产品之一"百度输入法",截止目前,百度输入法日均语音请求量峰值已 ...

  8. ESP32在线语音识别 词法解析

    文章目录 在线语音识别的优势 一,语音识别流程图 二,录音 三,词法分析 在线语音识别的优势 在线语音识别结合语义分析,具有识别精准,灵活性高的特点,但是,其处理速度不如离线识别. 一,语音识别流程图 ...

  9. 视频合成剪辑者的福音-百度在线语音合成

    AI人工智能为大家介绍百度语音识别的系列产品在线语音合成,它是基于业界领先的深度神经网络技术,提供高度拟人.流畅自然的语音合成服务,让您的应用.设备开口说话,更具个性,下面我们来看下它的功能.优势.应 ...

最新文章

  1. RTC 音频质量评价和保障
  2. Spark _25.plus _使用idea读取Hive中的数据加载成DataFrame/DataSet(四)
  3. release8_如何在Windows 8 Release Preview中将Chrome用作Metro浏览器
  4. .NET Core HttpClient请求异常思考
  5. 测试基础【第七篇】测试报告
  6. 从「模拟」理解零知识证明:平行宇宙与时光倒流—— 探索零知识证明系列(二)
  7. Windows中的工作组(Work Group)、域(Domain)、域控(DC)、活动目录(AD)介绍
  8. 怎么把图片内存变小尺寸保持不变呢。
  9. 实用网址(永久更新中)
  10. linux 安装pkg文件,Linux的pkg-config命令
  11. perl pack和unpack的使用详解
  12. Leetcode-二分+递归/回溯-1723. 完成所有工作的最短时间
  13. PC端页面适应不同的分辨率的方法
  14. 条码打印机换碳带的方法
  15. RDS电台 TA 与 AF解释
  16. 计算机ccf试题答案,【计算机本科补全计划】CCF 2017-03 试题初试
  17. 一种gps速度漂移过滤的方法
  18. 计算机休眠状态播放音乐,怎么设置win10中关村系统进入睡眠状态后音乐继续播放...
  19. 网易2018校园招聘:字符串碎片 [python]
  20. 4-tensorflow中张量的数学运算

热门文章

  1. 头晕头痛是植物神经紊乱了吗?
  2. 末梢区域与完全末梢区域
  3. 百度智能小程序这只蝴蝶正在掀起新一轮AI风暴
  4. linux下ffmpeg 手机视频转换总结
  5. 东风悦达起亚、腾讯广告、英雄联盟手游职业联赛 三方合作共建新电竞生态
  6. 用聚合数据API快速写出小程序 1
  7. Pywin32打开指定窗口
  8. 无废话xml下载_废话之盾
  9. mysql查询职位大于3_Mysql查询语句
  10. 程设:魔兽世界装备之二