这里写自定义目录标题

  • 语音离线SDK
    • 科大讯飞
      • 测试结果
    • 百度云
      • 录音环境要求
        • 吵杂的环境
    • 阿里云
    • 腾讯云
    • 有道云
    • 谷歌
    • 微软
      • 国外版本
        • 语音转文本
        • 文本转语音
        • 语音助手
        • 关键字识别
        • 对话听录
        • C++/Windows 和 Linux
        • C++/Windows
      • 呼叫中心听录
        • 编解码器压缩的音频输入
        • 批量听录
        • 自定义
        • 自定义语音转文本
        • 自定义文本转语音

语音离线SDK

能够不联网,或者在初始化过程中仅链接一次网络实现离线资源的调用,翻译准确率,功能集成难易程度,自定义词库功能

科大讯飞

  • 离线语音听写

  • 离线语音唤醒

  • 离线命令词识别

  • 离线语音合成

测试结果

  • 离线语音识别
    通过阅读开发文档与下载识别程序运行,发现离线语音识别在数字转换上面,按照说明上面的设置无法实现数字设别倾向于小写:
     // 0 -> 倾向大写数字   1 -> 倾向阿拉伯数字mIat.setParameter("nunum","1");
  • 离线语音合成
    离线语音合成能够在离线状态下较好的运行,可以通过设置自定义文本和语音转换为特定语音输出
  • 离线命令词识别
    按照官方提供的语法规则设置语音命令,例如打电话给xx这种
  • 离线唤醒
    通过设置唤醒词:“小x小x”,“你好小x”能够唤起程序,并且支持命令词唤醒

百度云

  • 语音识别:只有在线版的语音识别功能,不提供离线版本

  • 命令词识别:离线命令识别,通过设置的命令词识别(首次必须联网)

  • 离线唤醒:通过命令词唤醒,同时支持唤醒后执行命令

  • SDK下载

支持语音自训练,训练自己的语音集

录音环境要求

百度短语音识别(含唤醒)要求安静的环境,真人的正常语速的日常用语,并且不能多个人同时发音。

以下场景讲会导致识别或者唤醒效果变差,错误,甚至没有结果:

吵杂的环境
  1. 有背景音乐,包括扬声器在播放百度合成的语音。
  2. 离麦克风较远的场景应该选择远场语音识别。
  3. 以下场景的录音可能没有正确的识别结果:

音频里有技术专业名称或者用语 (技术专业名称请到自训练平台改善)
4. 音频里是某个专业领域的对话,非日常用语。比如专业会议,动画片等
5. 百度识别和合成sdk相互独立,没有类似“相互抵消“的功能。 建议先收集一定数量的真实环境测试集,按照测试集评估及反馈。

阿里云

腾讯云

腾讯语音识别

安卓SDK语音识别仅提供在线语音识别

  • 待研究

有道云

谷歌

微软

国外版本

语音转文本

语音转文本(也称为“语音识别”)可将音频流听录为应用程序、工具或设备可以使用或显示的文本。 结合语言理解 (LUIS) 使用语音转文本可以从听录的语音中派生用户意向,以及处理语音命令。 使用语音翻译通过单个调用将语音输入翻译为另一种语言。 有关详细信息,请参阅语音转文本基础知识。

可在以下平台上使用语音识别 (SR)、短语列表、意向、翻译和本地容器:

  • C++/Windows 和 Linux 和 macOS
  • C#(Framework 和 .NET Core)/Windows 和 UWP 和 Unity 和 Xamarin 和 Linux 和 macOS
  • Java(Jre 和 Android)
  • JavaScript(浏览器和 NodeJS)
  • Python
  • Swift
  • Objective-C
  • Go(仅 SR)
文本转语音

文本转语音(也称为“语音合成”)将文本转换为类似人类语言的合成语音。 输入文本是字符串文字或使用语音合成标记语言 (SSML)。 有关标准语音或神经语音的详细信息,请参阅文本转语音语言和语音支持。

可在以下平台上使用文本转语音 (TTS):

  • C++/Windows 和 Linux
  • C#/Windows 和 UWP 和 Unity
  • Java(Jre 和 Android)
  • Python
  • Swift
  • Objective-C
    TTS REST API 可以在所有其他情况下使用。
语音助手

语音助理使用语音 SDK,让你可为你的应用程序和体验创建自然的、类似于人类的对话界面。 语音 SDK 提供快速、可靠的交互,其中包括单一连接上的语音转文本、文本转语音和对话数据。 你的实现可以使用 Bot Framework 的 Direct Line Speech 通道或集成的“自定义命令”服务来完成任务。 此外,语音助理可以使用在“自定义语音”门户中创建的自定义语音来添加独特的语音输出体验。

以下平台上提供了“语音助理”支持:

  • C++/Windows 和 Linux 和 macOS
  • C#/Windows
  • Java/Windows 和 Linux 和 macOS 和 Android(语音设备 SDK)
  • Go
关键字识别

语音 SDK 支持关键字识别的概念。 “关键字识别”是在语音中识别关键字的操作,后跟一个在听到该关键字时执行的操作。 例如,“你好,Cortana”会激活 Cortana 助理。

“关键字识别”在以下平台上可用:

  • C++/Windows 和 Linux
  • C#/Windows 和 Linux
  • Python/Windows 和 Linux
  • Java/Windows 和 Linux 和 Android(语音设备 SDK)
    关键字识别功能可能适用于任何麦克风类型,不过,官方关键字识别支持目前仅限于 Azure Kinect DK 硬件或语音设备 SDK 中的麦克风阵列
    会议场景
    无论是在单设备对话中还是在多设备对话中,语音 SDK 都非常适用于“会议听录”场景。
对话听录

对话听录实现了实时(和异步)语音识别、说话人识别,并可以将句子归属到每个扬声器(也称为 分割聚类)。 它非常适合用于听录能够区分说话人的面对面会谈场景。

对话听录 在以下平台上可用:

C++/Windows 和 Linux

C#(Framework 和 .NET Core)/Windows 和 UWP 和 Linux
Java/Windows 和 Linux 和 Android(语音设备 SDK)
多设备对话
借助多设备对话,可在一个对话中连接多个设备或客户端以发送基于语音或文本的消息,并轻松支持听录和翻译。

多设备对话 在以下平台上可用:

C++/Windows

C#(Framework 和 .NET Core)/Windows
自定义/代理场景
语音 SDK 可用于“呼叫中心听录”场景,其中会生成电话服务数据。

呼叫中心听录

呼叫中心听录是语音转文本的一个常见应用场景,用于听录可能来自各种系统(例如交互式语音应答 (IVR))的大量电话服务数据。 语音服务的最新语音识别模型非常擅长听录这些电话数据,即使是人类也难以识别的数据。

呼叫中心听录 通过批量语音服务(经由其 REST API)提供,可以在任何情况下使用。

编解码器压缩的音频输入

一些语音 SDK 编程语言支持编解码器压缩的音频输入流。 有关详细信息,请参阅使用压缩的音频输入格式 。

可在以下平台上使用编解码器压缩的音频输入:

  • C++/Linux
  • C#/Linux
  • Java/Linux、Android 和 iOS
  • REST API
    虽然语音 SDK 涵盖了语音服务的许多功能,但对于某些方案,你可能需要使用 REST API。
批量听录

使用批量听录能够以异步方式对大量的数据进行语音转文本听录。 只能通过 REST API 使用批量听录。 除了将语音音频转换为文本,批量语音转文本还允许进行分割聚类和情感分析。

自定义

语音服务在语音转文本、文本转语音和语音翻译方面提供了强大的功能和默认模型。 有时,你可能希望提高基线性能,以便更好地处理你的独特用例。 语音服务有各种各样的无代码自定义工具,这些工具使上述事项变得简单,并使你能够使用基于你自己的数据的自定义模型获得竞争优势。 这些模型将仅供你和你的组织使用。

自定义语音转文本

使用语音转文本在独特的环境中进行识别和听录时,可以创建并训练自定义的声学、语言和发音模型,以解决环境干扰或行业特定的词汇的问题。 可通过自定义语音识别门户来创建和管理无代码自定义语音识别模型。 自定义语音识别模型在发布后可以由语音 SDK 使用。

自定义文本转语音

自定义文本转语音(也称为“自定义语音”)是一组在线工具,用于为你的品牌创建可识别的独一无二的语音。 可通过“自定义语音”门户来创建和管理无代码“自定义语音”模型。 “自定义语音”模型在发布后可以由语音 SDK 使用。

国内版本缺少语音助手,关键字识别等

离线语音识别与语音转写初探相关推荐

  1. Android平台使用PocketSphinx做离线语音识别,小范围语音99%识别率

    为什么80%的码农都做不了架构师?>>>    最近语音识别很火,但是都是用的在线语音识别,研究了一下离线语音识别,小范围内的语音识别率还不错,在此记录一下 首先本文要说的两个前提1 ...

  2. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

  3. python离线语音唤醒算法_python实现离线语音识别

    1.先安装PyAudio python -m pip install PyAudio-0.2.11-cp37-cp37m-win_amd64.whl 2.安装语音识别 pip install Spee ...

  4. python实现手写笔迹,手写识别,语音识别,语音生成

    文章目录 1,先说思路 2,实现截图 3,祭出源代码 1,先说思路 1,应该实现对于手写笔迹的记录,生成字迹截图 1.1怎么实现呢?在定点和移动中的鼠标所在处画一条线,鼠标按住移动的话,线也会跟着移动 ...

  5. qq语音识别_qq语音红包自动识别_qq语音红包一直未识别 - 云+社区 - 腾讯云

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 接口描述本接口服务对实时音频流进行识别,同步返回识别结果,达到" ...

  6. 本地语音识别_语音 识别_语音识别 - 云+社区 - 腾讯云

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 录音文件识别请求,数据结构,android sdk,ios sdk,自学习模型,使 ...

  7. 语音识别软件_语音识别软件是什么_离线语音识别软件_企业服务汇

    编者按:随着人工智能技术的发展,客服领域的语音识别软件类型也越来越多,那么到底语音识别软件是什么,怎么对语音识别软件进行区分,语音识别软件主要包含什么功能?本文为大家详细介绍语音识别软件相关信息. 语 ...

  8. android 语音识别 离线,Android离线语音识别 PocketSphinx

    本文将使用PocketSphinx来实现Android平台的离线语音识别 优点: 离线,不用联网 识别较准(大家都说99%  我觉得只有80%) 缺点: 自定义语音命令麻烦  只能小范围识别 网上看了 ...

  9. 国产离线语音识别芯片哪家强?未来谁才是语音识别芯片NO.1

    离线语音识别芯片作为智能家居语音交互最成功的技术之一.在"语音识别.信号处理.发声机理和听觉机理.AI智能等等"为人工智能的支撑,语音识别,语音控制以及和WiFi/蓝牙组合是应用的 ...

  10. CK6855M1蓝牙离线语音识别灯控模组使用说明书

    CK6855M1蓝牙离线语音识别灯控模组使用说明书        一.功能说明  CK6855M1模块是一款专为灯具照明产品设计的离线蓝牙语音识别模组.模组支持红外遥控接收,支持RGB+W+Y灯控制, ...

最新文章

  1. 比 Spring Boot 快 10 倍的 Bootique 框架
  2. 基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程
  3. ai怎么画循环曲线_AI插画设计,用AI制作一个只可爱的短腿柯基插画
  4. 结合案例深入解析:抽象工厂模式
  5. Ubuntu下安装arm-linux-gcc-4.4.3.tar.gz (交叉编译环境)
  6. 【Linux】一步一步学Linux——arpd命令(184)
  7. NSString的比较专栏
  8. 点击调试时提示MFC不包含调试信息
  9. java 学习之List 的 add 与set方法区别
  10. 格林时间转yyyy-MM-dd hh:mm:ss
  11. 滚动吸顶效果--四种方式实现
  12. 读取文件时,文本文件的UTF-8格式带来的问题
  13. 【协同任务】基于matlab多无人机协同任务【含Matlab源码 1273期】
  14. java sql插入_java 中如何使用sql插入语句?
  15. 视频教程-鼎捷易飞ERP视频教程-ERP
  16. **无人机水平方向四环串级控制,竖直方向三环串级控制
  17. 华为重启交换机命令_华为交换机常用命令
  18. 自动生成条形码软件如何批量打印可变条码
  19. 速度测试(speed test)
  20. html中怎样做成相册的效果,CSS相册简单实现方法(功能分析及代码)

热门文章

  1. 接口:基于FPGA的HDMI接口设计
  2. FroalaEditor使用方法汇总
  3. Froala Editor HTML Editor Crack
  4. 从why到how,双态IT的落地联想为何能走在最前列
  5. java菜鸟驿站_RxJava菜鸟驿站(一)
  6. 【毕业设计】stm32智能语音识别系统 - 单片机 嵌入式 物联网
  7. toolchain - 工具链
  8. vmware安装win7 vmware tools
  9. NASM汇编教程翻译01 第一讲 Hello, World!
  10. 计算机无法识别语音输入,我的电脑每次启动语音识别总是显示“由于语言配置不受支持,无法启动语音识别”;...