文/姜菁玲

编辑/石亚琼

12月26日,探境科技举办“黑科技发布会”,正式对外公布AI语音识别芯片产品矩阵,并推出具备AI双麦降噪功能的语音识别方案——Voitist音旋风612。

36氪曾多次报道过,探境科技成立于2017年3月,是一个以语音、图像AI芯片为核心产品的AI芯片设计公司,提供软硬件一体化整体方案,产品采取的核心架构为SFA(Storage First Architecture,存储优先架构),主张以存储驱动计算。

对于SFA架构,,这是一种面对AI芯片里存储墙(AI计算资源丰富,但存储及数据搬运效率低下)的问题而设置的架构,从数据层和计算层中间,通过数据航线,进行节点间的数据搬移。控制器通过知道在动态运行过程中,哪些数据和哪些算子需要有一定的相关性,从而构建更加合理的网络路径。

探境科技表示,与比“类CPU架构”相比,在同等条件下, SFA架构数据访问可降低10~100倍;28nm工艺条件下,系统能效比达到4T OPS/W,计算资源利用率超过80%,DDR带宽占用率降低5倍。

探境科技CEO鲁勇表示,SFA架构具有通用性,可支持目前所有的深度学习神经网络,对神经网络参数以及数据类型没有限制,并且,提供零基础用户可使用的工具链,无需用户网络重训即可使用,能够降低算法移植带来的数据精度降低情况。

AI降噪算法+高计算强度的神经网络

音旋风611是探境科技推出的首款语音芯片解决方案,于2019年9月开始量产,目前出货量已超百万。此次推出的Voitist音旋风612是在音旋风611的基础上,完成了语音识别算法上的升级,主要体现在在AI降噪算法以及端到端算法两方面。

在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。

探境科技副总裁李同治认为,以智能家居场景为例,目前在语音研发领域遇到的挑战有:

  • 低信噪比问题。信噪比,是衡量需要识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于15dB的称为噪声环境。信噪比越低,识别难度越大。在现实场景中,如果目标声源强度过小,噪声干扰强度大就会造成信噪比低的情况,另外,由于人类声音传播还受距离的影响,距离越远,声音强度丢失越多。综合各种原因,低信噪比问题被认为是最重大的挑战。

  • 非稳态的噪声影响。日常生活中,可能会出现做饭的敲击声、音乐的突然节奏变化等,这些对于降噪处理而言,由于有突然性和不可预见性,具有一定难度。

  • 多声源问题,由于传统的信号处理算法的原理是增强波束内的信号强度,当干扰源方向比较接近的时候,传统的处理算法也无法解决。

针对以上痛点,探境科技推出AI降噪算法、高计算强度的神经网络以及双麦算法,希望降噪和识别两个环节解决。

在降噪方面,采用AI降噪算法,基于深度学习,可对稳态和非稳态的噪声进行处理。

在识别方面,推出高计算强度的神经网络模型HONN,增加更多卷积操作,减少传统DNN/TDNN算法中全连接的次数,达到提高算力的目的,最终提高识别方面的性能。

李同治解释,与传统的DNN/TDNN算法相比,卷积操作更接近大脑的感知系统,增加了一个维度,每个处理单元变成了立体的。

探境科技表示,高强度神经网络所需参数量约为传统DNN算法的五分之一,所需算力则达到106M,高于DNN3.2M的算力约30倍,这带来的影响是,参数量少可以节省芯片的存储空间,降低成本,相当于用更少的储存空间,带来了更高的算力,提升了整体的性能。

基于FCSP的端到端AI双麦算法,可提高算力

另外,李同治还提到了一种情况,即信噪比为0dB和负dB,意味着噪声和信号强度一样,甚至噪声比语音信号还要强。

针对这种情况,传统的解决方案为利用麦克风阵列信号增强算法,不过,探境科技认为有这种算法有四个方面的问题:

  • 首先在语音信号增强模块,波束成形依赖于声源定位(DOA),DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测使用单麦信号不用增强后的信号,会影响最终的唤醒率。

  • 其次,传统的阵列处理算法包含降噪、信号增强和识别多个环节,这些环节并不以降低识别率为优化目标,优化目标为提高人耳听觉的舒适度和最终的识别率并不完全等价,会出现不适配的情况。

  • 再次,由于整套流程对麦克风以及电容元器件的一致性要求非常高,提高了物料成本。“有时候大家在实验室做得很好,但是量产后发现识别率变差,就是因为波束成形和声源定位的要求高,一旦出现了波动,会影响识别效果。”

  • 另外,波束成形算法原理是增强特定方向波束内的信号强度,衰减波束外的信号幅度。当干扰声源和目标声源方向非常接近的时候,两者在同一个波束内,信号和噪声同时被增强,无法提升信噪比。

因此,传统的麦克风阵列处理算法效果并不理想。

探境科技提出的解决思路是把增强和识别一体化处理,实现端到端的识别,推出基于FCSP的端到端AI双麦算法,放弃了传统的数字信号处理算法来做语音增强,而采用基础于神经网络的AI算法来做信号增强。同时,在模型训练期间,采取“注意力增强”的学习方法,能够灵敏地检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。类似于在一个嘈杂的环境里面,如果有人喊自己的名字,那么可能就很快反应过来。

整体上来说,音旋风612方案对提高了多麦的信号处理能力以及高噪声环境下的识别率和有效算力。鲁勇表示,612主要面向智能家居领域,预期出货量在千万级。

2年实现商业化落地,量产已破百万

探境科技从2017年成立,2018年初步完成SFA架构雏形,2018年Q3语音芯片611流片,2019年Q1实现量产,截止目前,语音识别方案已出货突破百万级,整个商业化落地时间约在2年。

探境科技副总裁李同治告诉36氪,2018年初推出SFA架构以后,公司选择首先推出语音芯片主要出于研发难度和市场因素考虑。

从研发难度上来说,李同治称,在储存上语音芯片不超过200M,但图像芯片通常需要1G以上,这加大了芯片的设计复杂性。其次由于图像信息量较大,需要更多的接口,在集成度上要求更高。在算力需求方面,图像芯片的算力在4T Ops,而语音芯片在几十G,相差几十倍。综合考虑下来,语音芯片的研发难度比图像芯片要低,图像芯片的周期投入约是语音芯片的2-3倍。

另外,一个很重要的原因是,探境科技认为语音芯片的市场相较于图像更加明朗,可以清晰对标IOT市场,需求上会比主要走TO B路线的图像领域更加多,规模更大。

除此之外,在会上,探境科技提及了离在线一体化解决方案,以及公布了面向不同场景的产品矩阵。

目前,探境科技盈利规模在千万级,合作伙伴超过30家,有美的、海尔、世强科技、阿凡达智控等。另外,据鲁勇透露,探境科技图像芯片已在2019年Q4流片成功,核心能效比达800 IPS/w,图像芯片也在某些领域开始产生营收。

鲁勇提到,未来探境科技将面向更多场景,推进端云一体化战略,推出更多离在线一体化方案。

延伸阅读

36氪首发 | 同时解决AI芯片计算与存储问题,探境科技获“大基金”旗下子基金数千万美元融资

「探境科技」发布存储优先架构SFA,28nm工艺条件下系统能效比可达4TOPS/W

AI芯片持久战:是好故事,但不是好生意?

AI芯片之争白热化的当下,如何设计一款真正适用于终端的AI芯片?

dnn降噪_芯片量产已超百万,「探境科技」发布AI双麦降噪语音识别方案相关推荐

  1. 欢颜机器人编程软件_研发视觉和人工智能应用,「敏越科技」为焊接机器人装上“眼睛和大脑”...

    机器人正在各行各业替代人力,焊接领域也不例外. 焊接作为工业界的"裁缝",重要程度不言而喻.但是焊接现场往往环境恶劣,烟尘.弧光.金属飞溅严重伤害工人身体健康,同时工人也需要长时间 ...

  2. 睿熙科技完成Pre-A融资,用于VCSEL芯片量产

    8月17日消息,据相关媒体报道,睿熙科技于2018年8月获得达晨.天创PreA轮融资. 睿熙科技曾于2017年9月获得舜宇V基金天使轮融资.据悉,两轮融资将主要用于芯片量产. 目前公司已经完成适用于手 ...

  3. 【US5S104 时钟缓冲器芯片量产】

    标题 4. US5S104 时钟缓冲器芯片量产 日前,国产时钟芯片厂商极景微(UltraSilicon)发布一款新的低偏斜率且配备CMOS输出的1:4时钟扇出缓冲器US5S104,可以完美替换TI L ...

  4. 芯片量产测试常用“黑话”

    以下内容不分先后关系,笔者想到哪写到哪,供参考,欢迎大家互相讨论交流. 1.TO Tape Out,流片,指提交最终GDSII文件给到Foundry进行fab加工. 2.MPW Multi Proje ...

  5. 双麦降噪回音消除芯片-NR2047技术讲解和测试视频

    NR-2047芯片技术讲解和测试视频,请点击收看 兼具双工免提通话消回音(AEC)及环境噪音压制(ENC)的 语音处理芯片 NR2047 一, 概述 NR2047 是一款强效的多功能语音及音频 DSP ...

  6. matlab 高斯迭代代码_主动降噪与双麦降噪原理与实现前篇——LMS算法的matlab实现...

    LMS算法作为主动降噪与双麦降噪的基础算法,还是非常重要的,这里不多说原理了,后面我慢慢更这一部分. 直接上代码,建议感兴趣的朋友先看看原理再看代码: clear

  7. 探境科技如何设计一款适用于终端的AI芯片?

    文章来源:ATYUN AI平台 2017年,人工智能最火的风口一定是AI芯片. AI芯片的出现,与深度学习技术的成熟及应用密不可分.深度学习的过程可以简化理解为利用大量标注的数据进行训练,训练出一个行 ...

  8. python语音合成 标贝_让机器的声音听起来更像人声,专注语音合成前端技术的「标贝科技」完成千万级人民币融资...

    语音是人工智能和人类的一种主要交互方式:所以AI不仅要有足够聪明的大脑,也需要有足够的表达能力.语音交互包含三个方面:听得清(语音识别).听得懂(语义分析)和说得好(语音合成).这些年在科大讯飞的带领 ...

  9. 中国芯片迎难而上,4纳米芯片量产,美媒:美国或肠子都悔青了

    日前美国媒体<财富>杂志发表相关文章,认为对中国的芯片限制对美国是弊大于利,倒逼中国芯片加快芯片产业发展进程,而美国芯片却蒙受了太大的损失,与美国方面打擂台. 美媒发表这篇文章之际,恰恰是 ...

最新文章

  1. iOS - XML 数据解析
  2. 2019.7.9 校内测试题 史密斯数
  3. void类型和void *的用法
  4. TClientDataSet使用要点
  5. c 调用上层类中函数_Matlab系列之函数嵌套
  6. java foreach顺序_Java中的LongStream forEachOrdered()方法
  7. spring单例的bean是单例还是原型
  8. matlab数控加工,关于MATLAB复杂型面数控加工编程.pdf
  9. 《经济机器是怎样运行的》笔记(二)
  10. python安装第三方库超时
  11. 关于oppo和vivo这两年强势崛起的反思
  12. 张建宁:“海阔天空”的物联网必须脚踏实地
  13. 阳历日期转阴历工具类
  14. 百度地图——多点标记及路线
  15. 计算机硬盘储存怎么增加,如何扩大存储空间?电脑扩大新添加的硬盘的方法
  16. python 利用python处理excel文件
  17. php spry文本域_SPRY验证文本域之时间及浏览器设置
  18. dhcp服务器设置(路由器dhcp服务器怎么设置)
  19. 苹果原壁纸高清_绝美 | 风景手机壁纸图片
  20. 成功解决ImportError: cannot import name ‘spline‘ from ‘scipy.interpolate‘—利用make_interp_spline函数绘制平滑的曲线

热门文章

  1. Python画图之饼图
  2. WEB方面面试题详解
  3. 编译电驴v1.1.15 with vs2010
  4. KubeSphere 社区双周报 | 2022-10-28
  5. 互联网行业入门必读书籍
  6. 90后负债100万,零成本创业“卖切糕”,一年收入1100万!
  7. wifi打印机打印(二维码,条形码等)
  8. php中do..while的用法,do while语句的用法是什么
  9. NIST PQC候选方案 SIKE 以及 Rainbow签名 破解
  10. php 字符串m5加密解密_PHP加密解密字符串汇总