声智科技是一家人工智能交互与声学解决方案服务商,从事语音交互芯片、模组和设备研发、设计、制造并提供整体声学技术解决方案。简单理解,他们跟思必驰、云知声类似,不直接提供面向TO C的产品,而是做产品公司背后的语音技术支持,是一个技术驱动型公司。

声智科技创始合伙人总共6个人,其中5个来自中科院声学所,陈孝良博士是创始人兼CEO,从2003年进入声学所,在2016年4月离职,创办声智科技。区别于苏州思必驰团队、合肥科大讯飞团队、云知声团队,声智科技创立是最晚的,团队人数目前是31人,负责技术研发、算法工程人员有28人,在人员配置上,也是最少的,那么如何突出自有的优势?

陈孝良认为,区别于其他语音技术交互公司,他们来自声学所,最擅长就是声学前端模块,所以就聚焦在这一点上,其他方面会以开放的姿态合作共赢。

上图可以看出来,一个语音产品方案由三部分组成,硬件前端涵括麦克风阵列、降噪算法、芯片、硬件平台等,云端包括语音识别和语义理解、语音数据、内容合作有音乐、天气、短信、通话等应用工具,声智科技只专注于前端的开发和研究,而云端和内容以开放的姿态取得共赢合作。

陈孝良认为,目前的使用场景分两种,一种是近场语音(手机语音交互,嘴巴贴近麦克风交互)这种识别率达到90%以上,而远场语音(3-5米、车载环境下、智能家居环境下)的识别其实不高,很多连50%的识别率都达不到,所以市面上的语音产品体验并不好。

声智科技是国内外极少数的专注声学技术的创业公司,国内真正能同台竞技的公司包括科大讯飞、思必驰等公司,而能够完整提供单麦/双麦,4+1, 6+1等麦克风阵列方案的公司,目前只有声智科技,所以声智科技走的是极致、专注路线。

创始人陈孝良和李智勇在销售战略上共识“不做为了品牌推广而免费的产品,ALL in投入到硬件研发上,拉开与其他竞品的技术差距,回归商业的本质,凡是声智的产品都需要付费”。

不为了融资而贪求与大品牌合作,不为了融资而冲销量,陈孝良将这种调性的公司定位是硬科技企业,他认为深度学习的过度火热让大家忽视了这样一个显然无法跳跃的过程,算法无疑是强大的,但在语音交互、自动驾驶、AR这样的领域里,若没有 “Intel、思科”这类硬科技公司,那AI互联网不会真的启动。所以说,目前正是属于硬科技公司的时代。

硬科技公司的典范是Intel、MTK等,其特征非常简单:在某个技术点上树立并保持明显的技术优势。其商业模式通常也简单:出售具有高技术附加值的产品或方案。更理想的状况则是像Intel和高通,把技术优势延展为一种生态优势。

麦克风阵列核心能力是收集语音数据,没有好的语音数据收集器,何谈语音识别和交互呢?为了更好地论述上面观点,陈孝良博士举例了两个巨头公司的智能音箱产品Amazon Echo和Google Home。他将Echo和Home两款音箱拆开来看,区别最大的还是麦克风阵列技术。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home只采用了2麦克风阵列。

不同麦克风阵列方式决定收音质量

麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

单麦克风系统可以在低噪声、无混响、距离声源很近的情况下获得符合语音识别需求的声音信号。但是,若声源距离麦克风距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这会严重影响语音识别率。而且,单麦克风接收的信号,是由多个声源和环境噪声叠加的,很难实现各个声源的分离。

当语音交互的场景过渡到以Echo、机器人或者汽车为主要场景的时候,单麦克风的局限就凸显出来。为了解决单麦克风的这些局限性,利用麦克风阵列进行语音处理的方法应时而生。

事实上,仅靠麦克风阵列也很难保证语音识别率的指标。麦克风阵列还仅是物理入口,只是完成了物理世界的声音信号处理,得到了语音识别想要的声音,但是语音识别率却是在云端测试得到的结果,因此这两个系统必须匹配在一起才能得到最好的效果。

若想更好地去除部分噪声,可以选用2麦方案,但是这种方案比较折衷,以Siri为代表的智能手机,这个场景一般都是采用2个麦克风系统。主要优点就是ID设计简单,在通话模式(也就是给人听)情况下可以去除某个范围内的噪音。若希望产品能适应更多用户场景,则可以类似亚马逊Echo一样直接选用4麦以上的麦克风阵列。这里简单给个参考,机器人一般4个麦克风就够了,音箱建议还是选用6个以上麦克风,至于汽车领域,最好是选用其他结构形式的麦克风阵列,比如分布式阵列。

上述案例内容摘选自陈孝良博士撰写《聊一聊麦克风阵列技术:语音交互应该选用怎样的方案?》一文中,大致可以了解陈孝良博士对语音交互前端硬件的探索深度以及麦克风阵列在语音远场识别作为核心模块的重要意义。

延伸一下,上面列举的Google Home和Amazon Echo都是智能音响,国内还有京东和科大讯飞合作的叮咚音箱,大家会疑惑为什么巨头居然做音箱单品,语音产品更多基于场景经济,将场景简单分类,可以分为路上(行车环境)、办公环境、家居环境。这三个环境分别对应三种语音需求,行车环境(车载语音)、办公环境(医疗、客服语音等)、家居环境(智能家居语音模块),智能音箱的战略意义是成为智能家居中控版块,而音箱只是现阶段赋予的更容易接受的认可物,而最后音乐或许只是智能音箱占比很少的一个模块。

声智科技目前落地的是智能音箱一体化解决方案,这套方案处于合作方对接阶段,在春节后会推广一波,2017年下半年将进入量产阶段。

陈孝良博士谈到语音行业的现阶段最大发展瓶颈莫过于人才十分稀缺,人才的缺口不是某个岗位缺,而是横纵向都出现缺人局面。横向来说,市场、运维、产品岗位对语音技术了解太少,基础研发人员培养跟不上发展的节奏,公司发展规模严重受限,纵向的产业链条,合作单位家居、机器人、车载硬件厂商缺乏既懂语音又懂产品的复合型人才,所以语音的行业发展速度不仅受市场需求推动,还受复合型人才缺口的限制。

2016年,语音产品往往出现在展厅、出现在沟通会、体验会上,2017年,随着行业的链条专业化,更优质的语音产品将会更低成本进入生活方方面面,而基于语音产品将带来的消费升级和提质增效将为我们的生活和工作带来妙不可言的快乐,期待更优质的产品落地。

作者精品系列:

本文来源于亿欧,原创文章,作者:极客王子。转载或合作请点击转载说明,违规转载法律必究。

声智科技陈孝良:没有好的语音数据收集,语音识别和交互不可能做好相关推荐

  1. 专访声智科技陈孝良:把自己嫁给公司,伟大都是熬出来的

    陈孝良是一个健谈的人,在雷锋网新智造抛出任何一个问题后,他就此可以围绕声智科技和当下行业发展状况侃侃而谈:他也是个很有耐性的人,在采访的四个多小时里,他甚至都没停下来多喝几口水.如果创业是一场长跑的话 ...

  2. 回顾声智科技助力联想智能音箱MINI亮相CES Asia

    作为唯一专注亚太市场的行业盛会,第四届亚洲消费电子展(CES Asia)在2018年6月13-15日上海新国际博览中心盛大开幕,采用声智科技3麦克风阵列远场语音交互方案的联想智能音箱MINI首次亮相C ...

  3. 声智科技亮相小米新品发布会

    文章来源:ATYUN AI平台 7月26日,小米新品发布会如期而至,小米联合创始人王川在现场感谢了每一个合作伙伴,其中特别提到了声智科技(SoundAI).为了让智能音箱反应更快.听得更准,把体验做到 ...

  4. 定位AI交互技术服务商,声智科技完成近亿元A轮融资,将拓展安防、汽车等新场景

    来源:36Kr 摘要:"语音交互是人工智能相关技术的重要应用场景,而语音交互的核心和关键突破点在于远场.而国内真正有实力做好远场技术的团队是非常稀少的." 定位人工智能交互技术服务 ...

  5. 声智科技完成B轮2亿元融资,AI方案遍布百度小米华为阿里产品

    雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又一家AI公司在寒冬中获得资本加持. 又一个源自中国科学院的AI创新项目. 声智科技,B轮,2亿元,由毅达资本领投,峰瑞资本.正居资本跟投 ...

  6. 陈孝良:为什么国内做不好智能音响?

    由 CCF 中国计算机学会主办,雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的全球人工智能与机器人峰会 CCF-GAIR 大会进入第二天.在智能助手专场,中国科学院声学研究所副研究员.声智科技创 ...

  7. 声智科技完成2亿元B轮融资,将持续拓展语音交互产品的规模化落地

    整理 | 一一 出品 | AI科技大本营 寒冬之下,不少创业公司依然得到了资本青睐. AI科技大本营消息,12 月 29 日消息,声智科技(SoundAI)已于近期完成 2 亿人民币 B 轮融资,本轮 ...

  8. 熠智科技CTO汤载阳:筑牢隐私计算基础底座,打通数据要素流通的任督二脉 | 数据猿专访...

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 2020年4月,中共中央.国务院正式发布<关于构建更加完善的数据要素市场化配置体制机制的意见>,将数据与土地.资本.劳动力并列为关键生 ...

  9. 陈国良、孙永强教授获中国计算机学会「终身成就奖」,为国内并行算法和编译技术先驱...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国计算机学会"终身成就奖",今年花落深大.上交. 这个奖项,只颁给"在计算机领域工作40年以上"的 ...

最新文章

  1. 生成器、生成器函数、推导式、生成器表达式
  2. iOSAPP配置多环境
  3. Spring EL运算符实例
  4. 产品原型制作_早期制作原型如何帮助您设计出色的数字产品
  5. netty SimpleChannelInboundHandler类继承使用
  6. 2021-06-01 深入分析偏向锁、轻量级锁和重量级锁
  7. sass之mixin的全局引入(vue3.0)
  8. 2019年web前端全集_2019年最佳30+ Web工具
  9. r语言 求平方和_R语言 第3章 R语言常用的数据管理(10)
  10. 3.IIC总线介绍及使用
  11. 数学建模美赛2019 人生经验
  12. JS中经纬度的正则表达式(亲测有效)
  13. Linux Namespace Veth虚拟网卡
  14. 捕捉95%的习惯思维,让用户对你的产品上瘾
  15. 资本资产定价模型(CAPM)与套利定价理论(API)比较
  16. mysql中创建数据表
  17. 小米摄像机升级失败,小米摄像机黄灯常亮修复,全网最硬核修复
  18. 怎么查看电脑是多少位的
  19. 如何停止VBS永久循环
  20. python rgb转yuv_YUV与RGB互转各种公式 (YUV与RGB的转换公式有很多种,请注意区别!!!)...

热门文章

  1. 201621123031 《Java程序设计》第8周学习总结
  2. laravel框架学习(三)
  3. 24小时学通LINUX内核系列
  4. mysql服务器的字符集
  5. webConfig详细跳转配置.[转]
  6. 我的ssis和ssas报错记录
  7. 关于silverlight主题皮肤(一)
  8. Bailian2915 字符串排序【排序】
  9. 2018-2019 ACM-ICPC, Asia Jiaozuo Regional Contest题解
  10. AOP 基本术语及其在 Spring 中的实现