不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。小米王育军老师为大家带来报告《小爱背后的小米语音技术》。

王育军博士,小米人工智能部门人工智能实验室语音技术总监,2000年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002至2004年就职于NEC电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007年到2012年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015年就职于乐视,负责语音识别与自然语言理解技术。2017年加入小米,负责语音识别与语音合成技术。

报告内容:语音技术,包括语音识别与合成等,经历了几十年的发展,随着算力,数据,开源,人才的爆发,结合用户场景的重新定义,而再次活跃于用户的视野。小米的语音快速地借助“弯道”达到了80分的成绩,但也无法避免进入到了语音锅碗瓢盆的“平凡生活”,我们必须要面对失配和不当的模型假设。在这些方面我们和前辈的时间差距,就是2017减前辈团队成立的时间。我们体会到“热”启动项目带来的浮华,也被那些“冷”启动项目深深的伤害着。但我们不能无脑地、不停地接着大大小小的项目,因为那样连僵尸都不会喜欢。我们要创新,产品创新和技术创新是寒冬里的强心剂。本次我们将分享小爱背后的语音技术之路,以及路上的风景和经验。

小爱背后的小米语音技术

王育军博士首先由文艺复兴的标志讲到了人工智能的复兴,在他看来,语音技术行业是被人工智能了,所以也被复兴了。当提及语音技术为什么能快速发展时,他提到了人工智能的四个重要因素。一是算力,使用GPU的显卡加速了模型的训练过程。二是大数据的支持,也就是多样、丰富的用户场景提供了模型训练所需要的数据。三是开源的算法,现有的人工智能学习的框架和开源的算法,为研究者们提供了很多有借鉴性的方法,促进了人工智能领域的交流与合作,加速了算法的研究进程。四是人才,大量的优秀人才加入到了人工智能的领域中,为人工智能的发展提供了有力的人才支撑。

然后讲到了小米人工智能语音实验室所用到的方法论,简单概括就是“把握方向盘,当好老司机”。方向盘的核心是测试集,围绕在周围的是数据、训练集群、模型迭代和算法融合等因素。测试集作为方向盘的核心,一定要反应真实的语音应用的场景,反应真实用户的数据分布。并围绕方法论的核心,收集和制造训练数据,使用稳定的训练集群进行模型迭代,并使用算法融合的策略使性能达到预期的标准,然后就可以上线了,上线的周期通常需要6个月左右。关于数据重要还是模型重要这个问题,王育军博士指出数据和模型同样重要,数据中蕴含大量的信息,模型中蕴含我们的优化目标,两者缺一不可。

接着分享了小米语音识别发展的历程。小米做语音的入口是电视,电视是语音识别的一个钥匙,把语音识别拆开两部分,分别为声学模型和语言模型,电视节目是一个语言场景,在声学上可以做语音遥控器。然后就开始做手机,结合小米AI的一些信息,如小米搜索框和小米浏览器中的用户数据,可以在短期内得到一个比较稳定的模型。接着又做小型手表语音助手,在语音识别中儿童语音的识别是一个难点,但小米认为要打开语音识别的大门,儿童语音识别是不可缺少的,并加大了对儿童的语音的研究,并取得了相对较好的成果。

讲完电视、手机和手表等近场场景的应用之后,又分享了远场场景的小米音箱,由于没有足够的训练语料,所以使用数据仿真等手段做数据增广,使用垂直策略反应产品的稳定性,并结合交叉验证来改善模型的性能。并通过距离音箱远近和加不加噪声等四个应用场景对小米音箱进行了验证。

另外与大家分享了如何获得训练语料的经验,大量语料的人工标注是很贵的,使用已有的比较成熟的识别器,从不同的角度对语料信息进行预测,并把预测信息作为语料的标注信息。这个由识别器获得的训练语料的标注准确度是比较好的,有时比人工标准的结果还要好。但对于儿童的语料最好还是进行人工的标注。

最后,与大家分享了自己的一些感悟。第一点,电视是语音技术重要的应用场景,是语音世界的钥匙。第二点,使用现有的方法解决大量数据标注的问题,尽量减少人工标注的成本。第三点,把握方向盘,做好老司机。第四点,选择合适的问题和框架,进行大量的调试,坚持理论自信,相信自己。更多精彩的内容请关注视频分享。

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

小米王育军:小爱背后的小米语音技术相关推荐

  1. 雷军考察小鹏汽车,IPO后的小米终于要造车了?

    上市后,企业会有更多资金:有了更多资金,就会进行大规模的扩张,或者自己做,或者买买买,以求不断突破边界. 小米上市后,股价先是破发,后是上涨,在资本市场呈现出不错的气象.那么,小米未来新的战略机会在哪 ...

  2. 浅析从小米造车背后探索小米集团的企业网络推广策略会有怎样的灿烂

    日前,有关小米集团造车的消息在业内掀起巨大波澜,尽管多家媒体仍在扑风捉影,小米集团也给出了否认的答案缺一就不肯停歇.其实小米集团除了在造车上掀起波澜,在该集团旗下所带来的企业网络推广策略中也有着领先同 ...

  3. 【AI产品】产品小姐姐分析抖音背后的计算机视觉技术

    大家好,今天开设新的专栏<AI产品>,在这个专栏中,我们将以产品体验为主,简单剖析背后的核心技术,这是一个更加贴近工业实践的专栏. 今天就体验抖音基于计算机视觉技术实现的几项高大上的功能, ...

  4. 三本可爱小表妹,面试小米Java技术岗经验分享(已拿offer)

    前几天得知以前总是跟在我屁股后面的小表妹一次性拿下小米Java技术岗offfer,导致我越发觉得自己真心有点菜鸡,我弱小的心灵受到了一万点暴击! 首先介绍一下表妹的情况: 某理工类院校本科,之前一段实 ...

  5. 超级生产力的背后是强大的技术实力 央媒点赞小米“黑灯工厂”

    近日,央视新闻频道播出<奋斗百年路 启航新征程·今日中国>第一集,展现首善之都北京的发展成就.第一集节目专门报道了北京具有代表性的科技企业与智能工厂,它们基于"三城一区" ...

  6. 基于微信小程序的军迷社区交易系统的设计与实现

    基于微信小程序的军迷社区交易系统的设计与实现 摘 要 随着数字媒体和军民融合的深入发展,军迷基数增长,军事类的网络平台的发展也如火如荼,这就需要深入挖掘军迷社群潜力,通过网络社群来增加群体黏性.因此可 ...

  7. 源壁纸微信小程序源码,自动采集小米壁纸自动更新

    源码介绍: 接口调用小米主题的,源码内无加密,就一个小程序前端源码,无广告功能,搭建自用还可以. 修改教程: 修改project.config.json内的项目文件,然后直接通过微信开发者工具或者hb ...

  8. 饥饿背后:小米供应链的秘密

    文/金错刀 什么是小米的最大挑战? 有人说是饥饿营销,甚至说放弃了这种营销模式,品牌即不再闪光.还有说放弃饥饿营销会昂小米供应链压力倍增,毕竟小米没有工厂.董明珠也把没有工厂当做小米的罩门.其实,这是 ...

  9. 微信小程序壁纸源码+自动采集小米图片

    简介: 小程序内核里面对接的是小米壁纸,自动采集无需自己手动上传,而且可以搜索的内容很多​,各种类型的壁纸图片都是有的. 搭建方法: ​1,注册微信小程序,类目选工具_图片​. 2,将源码导入开发者工 ...

最新文章

  1. 推荐一个个人感觉比较有吸引力的网站
  2. 被操纵的BCE与去中心化的BCH
  3. 《Effective C#》读书笔记——条目11:理解短小方法的优势C#语言习惯
  4. 如何制作cab包(解决不能注册的问题)
  5. 正则表达式的一点说明
  6. Web页面减肥,慎用VS的自动格式化功能!
  7. 人工智能泰斗迈克尔·乔丹分享机器学习要义:创新视角,直面挑战
  8. zabbix 自定义探索规则发现服务器上面的kvm虚拟机和对应的网卡
  9. easyPR源码解析之ann_train.h/config.h
  10. HDU1013 POJ1519 Digital Roots
  11. [挖坟] 突破WINISO未注册时100M限制
  12. Centos Piranha安装过程
  13. java 校验 签名_使用JAVA实现签名验证示例程序详解
  14. (三万字长文)类型即正义:TypeScript 从入门到实践系列,正式完结!
  15. 第一次学游泳技巧_初学者第一次下水需要注意哪些情况,新手学习游泳需要掌握什么技巧,适合的游泳装备有哪些...
  16. AUTOSAR Port原理概念详解
  17. 9 迭代器与组合模式
  18. 如何查Unity3D编辑器崩溃原因
  19. 昆山杜克大学IT/AV Analyst Entry-level面经
  20. 产品、测试与开发如何协作

热门文章

  1. 函数__内置函数(reversed,slice,format,ord,chr,ascii,repr)递归,迭代,二分法
  2. django基础篇05-Form验证组件
  3. Java基础知识强化38:StringBuffer类之StringBuffer的添加功能
  4. SolrCloud Hello Word
  5. HDU1847 Good Luck in CET-4 Everybody!【SG函数】
  6. JSK-10926 各位数字之和的和【入门】
  7. CCF NOI1050 矩阵乘法
  8. HDU1164 Eddy's research I(解法二)【废除!!!】
  9. Gibbs 采样定理的若干证明
  10. 经典卷积神经网络的学习(二)—— VGGNet