关于这个问题,开发者朋友后期可以在esp32.8ms.xyz.平台上进行二次开发,方便定制,目前正在完善测试中,很快发布。
目前市面上的离线语音大多无法做到自定义控制指令,用户如果需要按照业务场景自行编辑,就无法实现;
WT516P6Core离线语音模块暂时是出厂前都会烧上固件程序,配上麦和喇叭就可以了。方便开发爱好者做测试应用。

离线语音模块麦和喇叭的选择
A: 灵敏度 -32dbm 信噪比65db
驱动Speaker 1.8W x 1 @ 8Ω; 2.9W x 1 @ 4Ω

模块默认波特率:115200

语音控制方式因为简单、自然、高度符合人类的交互习惯,已经越来越受到用户的青睐。之前为大家介绍了启明云端通过ESP32不需要连接中间环节直连天猫精灵和亚马逊AWS的方案,今天重点推介本周新品–WT516P6Core 离线语音模块。

推荐理由:

低功耗、低成本、高集成嵌入式音频模块,串口传输,方便与主MCU通讯
支持100条语音命令,支持唤醒词、命令词、回复播报语自定义
可自由设置发音人音色配置
支持双语控制,普通话、英语随你选
内嵌智能降噪算法,语音识别距离可支持5M远讲
语音识别响应时间200~600ms

最重点的是:AI语音算法是基于深度学习,已经做过多标签多场景训练学习,用户在应用中,不需要重新对定义的指令进行训练学习。

语音算法:语音识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并作出相应的反应。语音算法是根据语音来检索和识别词语的算法,语音算法一般建立在声学模型上,通过语音算法学习的知识,对语音进行识别并进行检索。

声学模型是语音识别系统中最底层的模型并且也是识别系统最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量系列与每个发音模板的距离,因为发音在每个时刻都受到其前后发音的影响,为了模仿自然连续语音中的协同发音的作用和鉴别这些协同发音,通常要使用复杂的声学模型,声学模型单元的大小(字发音模型、半发音模型或音素模型)对语音训练数据量大小、系统识别率、以及灵活性有较大的影响。对大词汇量语音识别系统来讲,通常识别单元小,则计算量也小,所需的模型存储量也小,但带来的问题是对应语音段的定位和分割较困难,识别模型规则也变得更复杂。通常大的识别单元在模型中应包括协同发音(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异),这有利于提高系统的识别率,但要求的训练数据相对增加。

检测到语音的起点后就可以开始对检测出来的语音信号段进行分析处理。从中抽取语音识别所需的信号特征,即对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,以获得影响语音识别的重要信息。语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。

启明云端WT516P6Core离线语音模块发布后,开发者朋友提出的问题最多的是:是否可以自己编译指令相关推荐

  1. 用WT516P6Core离线语音模块在烧录和连接MCU时要注意避开的坑,要不挠掉头发也钻不出来!我差点套进去了,还好他们技术人员给力!把我给扯出来了!做了一个踩坑记录分享给大家

    为什么会选择用WT516P6Core离线语音模块呢?原因有几点,一是他支持自定义语音,虽然说现在是针对开发爱好者给的是一个公共帐号,也就是同一个入口,使用的是同一个帐号,都可以在上面建项目.发布项目, ...

  2. 一键离线地图发布工具(教程)

    一键离线地图发布工具(教程) 发布时间:2018-01-17 版权: 1.简介 BIGEMAP一键离线地图发布服务器主要帮助企业内部(局域网)环境搭建私有地图服务.支持一键快速发布,无需二次开发,无需 ...

  3. BIGEMAP一键离线地图发布工具(教程)

    1.简介 BIGEMAP一键离线地图发布服务器主要帮助企业内部(局域网)环境搭建私有地图服务.支持一键快速发布,无需二次开发,无需配置环境,安装即可发布离线地图,可应用在局域网地图发布,内网地图发布, ...

  4. 【VB-01】离线语音模块,无需语音算法开发,直接嵌入式用。

    目录 前言 测试方法 语音调试 AT串口调试 方案推广 总结 前言 应越来越多的小伙伴离线语音控制的需求,我们最近出了一款,VB590系列语音芯片模块--VB-01此模块支持离线语音的识别和响应,配合 ...

  5. 启明云端分享| 继ESP32-S3点屏480*480分辨率的2.1寸屏后,目前在8ms平台又发布了480*480分辨率的4寸屏、480*272分辨率的4.3寸屏、800*480分辨率的4.3寸屏SDK

    提示: 作为Espressif(乐鑫科技)大中华区合作伙伴及sigmastar(厦门星宸)VAD合作伙伴,我们不仅用心整理了你在开发过程中可能会遇到的问题以及快速上手的简明教程供开发小伙伴参考.同时也 ...

  6. 支持自定义的离线语音模块WT516P6Core 串口协议使用说明

    很多开发爱好者在应用启明云端的WT516P6Core自定义离线语音模块时,遇到最多的就是串口问题:接好线没反应,串口数据没有等等 ,这里为大家整理了一份串口协议使用说明文档供大家参考! 离线语音-支持 ...

  7. 前天看了sigmastar新品发布,双核,1.2GHZ,真香!更多你想要了解的SSD201/202技术问题,看过来!启明云端MM帮你整理了!拿走不谢

    sigmastarSSD201/202官方正式发布了,实际上在这之前,深圳启明云端已经签了代理,早早就开玩了,并且已成功落地了几个项目! 这周对开发者玩家提供的开发板也可以开玩了,sigmastarS ...

  8. 启明云端感谢热心开发者分享SSD20x直接编译lvgl7.10带双缓(附源码)

    热心开发者分享内容: 如题,上周末应晕哥邀请解决下小问题. 启明云端的sigmastar技术群聊有挺多群友需要这个东西.硬件平台是7寸 1024x600 的ssd202 开发板,自带一个点菜系统的de ...

  9. 启明云端基于乐鑫ESP32-S2的智能86盒新品发布--WT-86-32-3ZW1

    产品型号 WT-86-32-3ZW1 应用的MCU ESP32-S2 彩屏分辨率 320*320 86盒尺寸 该产品采用乐鑫ESP32-S2 MCU,使用了3.92寸彩屏,分辨率为320*320,支持 ...

最新文章

  1. 在ASP.NET中值得注意的两个地方
  2. Selenium3自动化测试——20.使用HTMLTestRunner获取测试报告
  3. Samba服务器的安装配置和应用
  4. 数据结构与算法 -- 链表
  5. 关系数据库设计理论(函数依赖、异常、范式)、ER图
  6. 第 5-7 课:Java 中的各种锁和 CAS + 面试题
  7. 第三章 寄存器(内存访问)
  8. golang语言渐入佳境[29]-math包核心方法
  9. RabbitMQ 学习开发笔记
  10. JS一秒区分clientX,offsetX,screenX,pageX之间关系
  11. PHP怎么获得斗鱼TV源地址,如何获取视频的直播源地址
  12. C语言学习—运算符—“~”取反符号的理解
  13. Echarts饼状legend如何自动显示值和百分比
  14. 抖音/快手/火山热门技术---抖音微商引流之抖音实战引流技巧
  15. ChromeFK插件推荐系列二十三:在线文字转语音/语音朗读插件推荐
  16. 关闭 Hadoop 集群
  17. Win7 IE桌面图标消失 修复方法
  18. 8*8点阵引脚图 行列定义
  19. Maltego详细安装及使用教程
  20. vb outlook发邮件

热门文章

  1. cacti 整合nagios,以及总是off处理办法!
  2. linux,mac,unix 系统下cd 进入有空格的目录或者打开有空格的文件
  3. axis的对象交由spring管理的配置
  4. SemSorGrid4Env
  5. python read_csv chunk_Python 数据分析之逐块读取文本的实现
  6. 【收藏】SonarQube-插件-离线安装PMD+阿里P3C
  7. k8s安装之Linux centos7升级内核到4.18以上
  8. Python Django URL传参代码示例
  9. VMWare NAT模式和桥接模式的区别
  10. 以太坊智能合约编程之带菜鸟入门教程