KikaGO:一条数据线的AI之旅
李根 发自 Vegas
量子位 报道 | 公众号 QbitAI
万万没想到,一条数据线火了。
在2018 CES现场,这根线成为关注的热点之一,它被华尔街日报评价“Best of CES 2018”,还拿到了智能家居、智能车载、智能应用软件以及科技促进生活等4项2018 CES创新大奖。
不说你也猜到了。AI时代下,这肯定不会是一条普普通通的手机数据线。
那它有何不同之处?可以先看看这段网上流传挺广的视频。
class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7647058823529411" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=w05322e3p9w&width=670&height=376.875&auto=0" style="display: none; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=w05322e3p9w&width=670&height=376.875&auto=0"/>
KikaGO
这个数据线,真名叫做KikaGO。
除了给手机充电,KikaGO还能以语音交互的方式,帮助用户完成很多操作。包括接打电话、即时通信软件的收发信息、导航以及播放音乐。
更为特别之处在于,KikaGO能在非常嘈杂的驾驶环境中,准确识别用户的语音指令,而且通过声纹识别技术,可以只听令于自己的“主人”。
其实KikaGO不只是一个数据线,更是一个“全语音车载助手”。在CES现场,Kika对量子位表示,这个产品软硬一体打磨的挑战并不小。
△KikaGO外观
但从硬件上,KikaGO为什么选择这种方案?
最主要的原因还是车内噪音较大,驾驶环境下,手机与司机之间的距离约有50cm。要在这个距离与手机语音交互,需要比较大的声音。
为了解决这个问题,KikaGO选择在常见的数据充电线上,创造性的加装了2个朝向相反的收音麦克风。因为要解决降噪的问题,至少需要两路音频信号。
数据线上还有一个芯片,用来进行信号转换和增益。随后,这些声学信号传送到手机端的KikaGO应用中,继续完成语音识别、语义理解等程序。
用户的指令,会被KikaGO进一步推送到第三方App中。据介绍,有了KikaGO的协助,司机在驾驶全程中,操作手机只需动嘴、不需动手。
△KikaGO场景应用图
如果你想试用KikaGO,还得英文好才行。但可能你不知道,Kika起源于中国。
这家全员都以英文名片示人的公司,目前公司在北京和硅谷设立双总部,分别在印度和台北设立了研发中心。
Kika也不是一家刚创立的公司。早在2014年就推出了首款输入法产品Kika Keyboard,还在2015年拿到了“Google Play顶尖开发者”称号。
不过由于主打海外,国内用户直接感知接触有限。
目前,这家来自中国的公司在海外进入了140多个国家,支持173种语言,全球用户数量达4亿,月活6000多万。
也就是说,Kika做的事情跟国内的搜狗类似。这或许能解释Kika能够推出KikaGO的原因,用户、数据量、语音输入、人机交互等等之前的储备,都为现在做好了准备。
全语音解决方案
KikaGO背后到底有什么技术挑战?量子位从Kika CTO姚从磊博士口中获得了答案。
首先最直接的挑战是口音。与国内语音交互中的方言类似,英语场景也会面临口音问题。姚从磊说,通行的解决方法是收集更大规模的口音数据,然后进行训练优化模型,或者用更少的数据,但利用更多的深度神经网络,实现更好的效果。
在具体解决中,Kika两条腿走路。一边是靠数据底子,因为输入法有强大的用户基础,打造了一个千万量级的语音和文本数据集进行模型训练;另一边也在不断优化技术,同时与约翰霍普金斯大学进行合作,既做半监督的语音声学模型训练,也把输入法中的上下文信息理解应用到语言模型中,大幅提高语音识别的准确度。
其次还有理解。区别于文字输入,语音交互中缺失了标点符号、emoji等反映人类情感的信息,于是容易造成理解偏差,甚至谬以千里。
在情感理解方面,Kika也做了两手方案。
一手方案是构建情感数据集,涵盖各种情绪表达,在用户输入语音和emoji系列之间找到联系,利用深度学习网络训练,该数据集规模上接近亿级,主要来自Kika用户输入的匿名化脱敏数据。
虽然也曾经尝试过Twitter上的公开数据,但最后发现用户场景和日常IM聊天还不尽相似,数据效果不算好。
另一手方案是通过技术功能完善用户体验。比如支持用户用语音编辑、修正已经输入内容,降低用户使用语音输入的门槛。
此外,软硬件结合方面也有交叉整合带来的问题。
比如数据线本身功能是充电,但作为语音方案硬件载体,还需要考虑数据信号传输方面的效果。
还有安卓手机如何通过充电口,完成充电线与App之间声音信号流传输联动,且不干扰其他App,个中问题也不少。
最后还有车型号本身,大车、小车、SUV等不同空间的车,对于收音效果可能都会有影响,如何做到不同空间距离的识别效果最佳,以及车速较快、开窗、车内音乐播放等场景下的降噪表现,都是一道道需要亲自打磨测试才能解决的难题。
这也是Kika首次推出硬件相关产品,CTO姚从磊坦言:吃了不少苦头,趟过了不少明坑暗坑。在软件技术上准备好后,又经历了6个月的时间打磨产品。
不过,从当前市场反馈来看,无论是CES 4项大奖的奖励,还是社交媒体上用户的刷屏反馈,不仅击中了用户痛点,也是种瓜得瓜。
实际上,对于Kika这样的公司而言,生长壮大于移动互联网浪潮中,现在又面临大数据基础上的AI机遇,进入新领域、诞生新物种,也属于情理之中。
而且对于机器学习出身的姚从磊而言,深度学习为核心的AI革命,还提供了一种提升产品能力、完善产品体验的方法,是一把得心应手的锤子。
对于技术研发人员而言,可以通过问题(钉子)寻找,运用得力大锤解决问题。
这位Kika CTO甚至将此称为:AI思维。
AI思维
姚从磊举例说,对于输入法为代表的人机交互产品来说,核心标准是:全、准,快三个方面,这三大挑战在深度学习革命之前并没有解决得很好。
但如果基于AI技术,“全”方面可以通过多媒体内容库中的索引、分析和推荐,用户从输入感知层面能感到词库更全;而“准”方面,识别和理解方面更是大幅度突破,是60分到90分的提升;“快”的问题上也能抛开传统统计模型的缺点,对联想词的准确度有更精准的提升,甚至是数倍的提升。
除了核心产品本身的能力提升,姚从磊也在内部鼓励团队到产品线的全链条中寻找“钉子”,然后试着用AI这把得心应手的工具提升用户体验。
或者也能在核心发展AI引擎的主线上,不断拓展边界,推出之前没机会尝试的产品,比如当前推出的KikaGO.
姚从磊透露说,基于之前技术和数据的积累,现在Kika已经建立起了自己的AI技术库,将围绕输入法引擎(Engine Alps)、语音引擎(Engine Appalachian),以及内容推荐引擎(Engine Andes)推出更多AI落地方案/产品。
△ Kika的AI技术库
但也不是没有挑战,比如供不应求的AI人才。
不过这位Kika CTO回应说:并不是非常担心,即便竞争激烈,但Kika在数据、技术提升方面的实力会日益彰显,并且Kika也形成了吸引和培养AI人才的成熟机制。
“如果你的某一个技术提升就能让数千万人的生活更美好,想想就很激动人心。”
OMT
最后补充一句,这款拿了一堆奖的KikaGO,还没有正式发售,连售价也没有确定。而且主要的销售市场也是海外并非国内。
TO B是一个更重要的方向,基于场景方面的考虑,KikaGO也在寻求更多的合作伙伴,也许未来Uber、Lyft的司机都会用上这款产品。
— 完 —
加入社群
量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
KikaGO:一条数据线的AI之旅相关推荐
- c语言知识地图,AI之旅(5):正则化与牛顿方法
前置知识 导数,矩阵的逆 知识地图 正则化是通过为参数支付代价的方式,降低系统复杂度的方法.牛顿方法是一种适用于逻辑回归的求解方法,相比梯度上升法具有迭代次数少,消耗资源多的特点. 过拟合与欠拟合 回 ...
- 一条数据的HBase之旅,简明HBase入门教程-Write全流程
如果将上篇内容理解为一个冗长的"铺垫",那么,从本文开始,剧情才开始正式展开.本文基于提供的样例数据,介绍了写数据的接口,RowKey定义,数据在客户端的组装,数据路由,打包分发, ...
- 一条数据的HBase之旅,简明HBase入门教程-开篇
常见的HBase新手问题: 什么样的数据适合用HBase来存储? 既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉? 存放于HBase中的数据记录,为何不直接存放于HDFS之 ...
- 从李飞飞、吴恩达、安德鲁的年度总结中,我们发现了三条2018年AI行业发展趋势...
"AI梦想远大,但它还只是一门年轻的科学.只有在深思熟虑.兼容并包的探索下,2018的AI才会取得更多的进步."李飞飞在其年终总结的最后写到. 首先,祝大家圣诞节快乐!(当然如果你 ...
- AI一分钟 | 豪华太空酒店预计2022年前开业;彭蕾卸任蚂蚁金服董事长,井贤栋接任;京东推出一秒能写千条文案的AI系统
整理 | 明明 一分钟AI 豪华太空酒店 Aurora Station 预计在 2022 年前开业. 让商品自己写文案,京东推出'莎士比亚'AI系统. 彭蕾卸任蚂蚁金服董事长,井贤栋接任. 国内 ...
- AI发展的桎梏在于理解能力?大咖开出的十一条建议「AI前沿」
关注:决策智能与机器学习,深耕AI脱水干货 作者 | 盖瑞·马库斯 来源 | 人机与认知实验室 前言: 认知是最难改变的,但却是最值得改变的,AI这些年通过深度学习(神经网络等)获得了长足的进步和 ...
- android数据线带宽,一条数据线售价三位数,但是很值,超高速的 Pasidal 新品雷电 4 充电数据线评测...
Pasidal 是一家专注于高速线缆和各式扩展坞的专业供应商,来自中国台湾.近日,充电头网收到三条来自 Pasidal 的雷电 4 (Thunderbolt 4 或 雷雳 4)数据线,目前市面上成熟的 ...
- 10大机器学习算法速览,带你开启AI之旅
原文作者:Sunil Ray 译者:TalkingData 张永超 简介 从广义上讲,机器学习算法有三种类型: 监督学习 该算法是由一个目标/结果变量(也成为因变量)组成,该变量可以从一组给定的预测变 ...
- 一条数据的HBase之旅,简明HBase入门教程1:开篇
[摘要] 这是HBase入门系列的第1篇文章,主要介绍HBase当前的项目活跃度以及搜索引擎热度信息,以及一些概况信息,内容基于HBase 2.0 beta2版本.本系列文章既适用于HBase新手,也 ...
最新文章
- swagger2中UI界面接口点击无法展开问题解决
- 生命的力量:萝卜开花
- reStructuredText学习
- CVPR | BASNet:边缘感知的显著性物体检测
- Cannot resolve xxxx(依赖名):unknown
- 2017.9.26 于神之怒加强版 失败总结
- matlab 解非齐次方程组,各位看一下为什么这里的LU解不出非齐次线性方程组?
- 三年级能用计算机吗,三年级上册第6课:我用计算机写作文
- 今年最值得期待的JavaScript传奇绿皮书登场!
- java方面的文献综述怎么写_java论文参考文献
- Paxos算法的一个简单小故事
- org.eclipse.jdt版本更新导致包引入问题
- 最后一公里极速配送(三)
- Lasso 和 Ridge回归中的超参数调整技巧
- jmeter测试服务器性能测试报告,Jmeter的性能测试
- 百度大脑EasyDL多人标注重磅上线啦
- Unity3d UnityEditor编辑器定制和开发插件
- android apk汉化与破解
- CSDN 数据访问可视化,写给CSDN 群友们用用
- 全国计算机软考程序员考试大纲
热门文章
- 华为高管涉嫌受贿已被带走调查
- 在sql server中用正则表达式替换html标签,SQL Server中利用正则表达式替换字符串
- elk-可视化图标(nginx)
- Oracle故障:Breaking the connection before proto/dty negotiation, error raised 3136
- kafka(五)服务器配置优化
- android radiobutton底部导航,android中Fragment+RadioButton实现底部导航栏
- python 写入excel 日期_详解:Python实现大数据收集至excel的思路大牛分享(建议收藏)...
- php文字下划线,css如何设置字体下划线
- 户外lisp导向牌如何安装_安装案例|户外标识牌常用安装方法
- oracle11g 冷备,oracle11G Windows冷备恢复