随着生物识别种类的不断增加,以语音为基础的身份验证方式似乎比其他方式更容易让人接受,因为语音识别具有非接触、非侵入性和易于使用的特点,所以语音识别特别受大众消费者的喜欢。

2022年7月21日,由中国开源软件推进联盟主办,赛迪传媒、《软件和集成电路》杂志社联合承办,CSDN独家直播的“第十七届开源中国开源世界高峰论坛”上,小米集团副总裁崔宝秋带来了《智能时代的开源创新》主题演讲。

以下为崔宝秋演讲实录:

尊敬的各位嘉宾、各位同行,线上的各位老朋友和新朋友,大家好。非常高兴能够再次参加开源中国开源世界高峰论坛,感谢大家对小米的关注。

开源的本质

开源不仅是理念、是运动、是一个团队协作的模式,更是一个创新的平台。在智能时代,开源运动如火如荼。从云计算到大数据,再到人工智能;从视觉到语音,再到自然语言处理;从手机到智能家居,从智能音箱到智能可穿戴设备,从智能制造到智能汽车,AI无处不在,开源也无处不在。

在开源界出现了一种声音,我认为是对开源比较片面的理解——“开源的本质就是软件分发的方式,没有其他噱头,没有更加关键的东西,开源和创新没关系”。我认为对于某些开源项目,以及某些利益驱动的公司而言,可能确实如此,但如果讲到开源的本质,我不敢苟同。

开源的本质就是协同和创新,协同是各方开源力量的协同,创新是技术的创新。在20世纪80年代初,GPL开源协议诞生,当时希望打造一个免费的、自由的Unix替代品。正是因为有了比较理想的追求,所以从1991年开始打造Linux。当时Linux问社区中的人,你们对Unix怎么看,有什么建议和反馈。这问题引起了更多人的关注和参与,开始有了Linux的成型。

下面我用几个案例分享一下为什么开源的本质是协同和创新,不仅仅是一个软件分发的方式。

Kaldi案例

Kaldi是一个国际知名的开源语音识别工具集,它被用在了很多智能语音助手以及语音识别产品中,在过去多年成为全球语音识别事实的标准。Daniel Povey博士被称为Kaldi之父。他的梦想就是想打造一个开源的Kaldi,让Kaldi永远开源下去。他选择小米的理由是因为小米多年来极致追求开源,在开源上做了很多长远的布局。所以他认为小米可以给他长期、稳定的投入,能够让他安心地打造Kaldi。

那么他为什么要打造Kaldi?作为研究人员,后来成为约翰·霍普金斯大学的教授。他的初心不是为了分发Kaldi,而是为了真正帮助那些中小企业做语音识别,希望用开源模式让全球更多的开发者一起打造,这是他的梦想。

在过去多年来,第一代的Kaldi已经被很多智能语音助手所用,例如小爱同学、苹果的Siri等也都用到了Kaldi基础框架。

还有个例子表明了开源为什么可以促进创新,为什么叫站在巨人肩膀上的创新。58同城在2021年发布了一篇文章,讲述他们基于Kaldi等开源技术,三个人用半年就打造了语音识别引擎。为什么能用很短的时间、很少的投入就可以打造自己的语音识别引擎?这里面离不开开源的Kaldi。

2019年Daniel加入小米,就开始打造他梦寐以求的下一代Kaldi。在去年8月31日他正式向外宣布新一代Kaldi正式成型,里面分为三个子模块——LHOTSE、K2、ICEFALL

Kaldi依赖的是开源社区所有人的共同打造,当我们把国际的开源社区、开源项目引到中国之后,来自于小米和国内的参与者大量增加。所以从下一代Kaldi的三个子模块中,可以看到参与者来自全球各地,但来自于小米和国内的参与者居多。如下图所示,K2是第一红线,表明了Kaldi社区的活跃度。

开源是一个协同的平台,没有群众的参与,Daniel博士和小米的工程师不可能快速迭代新一代的Kaldi。我们用建立微信群模式来运营社区,昨天有个同学告诉我,他们有两个活跃的微信大群,里面至少有25家大中小企业在密切关注新一代Kaldi的进展。这些企业覆盖了很多领域,包括智能制造、互联网、手机、搜索引擎、智能芯片、电子商务、智能助手、社交、培训,还有差旅、金融,甚至房地产。我们没想到有这么多行业的人都在关注语音识别。最近小米的Kaldi团队正式设立了一个公众号,这个公众号的关注度也在快速增长。

过去一年多来,新一代Kaldi取得了长足的进展,中文词错率已经低到4.26%,英文词错率最低达到2.0%。在万小时的中英文数据级上,新一代Kaldi更是领先同行。

在新一代Kaldi上实现了全链路的GPU加速,运行效率大幅度提升,解码速度相对于实时超过了400倍,400秒的音频一秒钟就可以解码完成,并且支持单台32GB机器可运行200路的识别。所以在未来小米的各种产品上,性能提高的同时能降低语音识别的成本,这对于有海量用户的企业来说是一个好消息。

新一代Kaldi的高性能也崭露头角,在2022年国际语音声学领域顶级大会ICASSP语音信号处理挑战赛上,Kaldi技术在两个赛道中分别获得了冠军和亚军。在今年Magichub重口音对话语音识别挑战赛上,也拿到了第一名。这些奖项背后代表了新一代Kaldi的技术,参赛者不乏世界来自于各个团队的高手。

正是因为新一代Kaldi在技术上的创新和突破,也因为开源社区的活跃度、影响力,让新一代Kaldi获得了两个重磅的奖项。第一个是去年获得东北亚开源的优秀项目奖,第二个是中国国际大数据产业博览会领先科技成果奖。新一代Kaldi获得了全球产业界、学术界的高度关注,从去年8月底发布以来,国内外企业、高校纷纷跟进,目前已经有至少8篇论文,这些作者有来自北大的,有来自Daniel博士过去的学校约翰·霍普金斯大学的,还有卡耐基·梅隆大学、腾讯、英伟达。这代表了开源的语音识别工具级可以快速推进语音领域技术的创新与迭代。

大家都非常关注新一代Kaldi技术的应用,现在小爱同学的月活跃用户数已经达到了1.07亿,有3.2亿的AIoT产品都接入了小爱同学,覆盖了76个品类、4000多款应用。所有这些产品都需要Kaldi来赋能,我们正在快速地把新一代Kaldi高性能、低功耗、低成本落地到更多的产品中。

基于Apache Licence 2.0协议开源的Kaldi,真正想做到与行业的同行分享技术发展带来的红利。我认为两年多之后的今天,Daniel博士和我的承诺正在实现。

MACE案例

第二个分享的是MACE案例。在2018年开源中国开源世界高峰论坛上,我们正式对外开源来自小米的移动端深度学习框架MACE Moblle AI Compute Engine,用于在终端和智能设备端上加速AI的推理以及速度。MACE发布之后也受到业界的关注,前段时间我们发布了基于MACE体系的边缘侧的推理框架MACE Micro。它支持低功耗的智能设备,把AI推理能力、AI计算能力在智能设备上真正加速,同时降低对功耗的要求。

当时为什么我们要开源MACE?不是为了分发MACE,更多的是用开源的模式集合更多业界的同行一起打造端上的AI计算能力。从健康监测到耳机降噪、行为识别、儿童玩具、语音唤醒,都是MACE Micro的落地场景。

MACE也有很多应用案例,小米手机上的AI相机功能就离不开MACE的贡献。比如魔法换天,左边天空是灰色的,但通过魔法换天,可以让天空变得蔚蓝,直接改变人的心情。还有魔法消除,把照片中你不想看到的场景一键消除。

NuttX案例

NuttX是一个RTOS系统,就是智能设备上的嵌入式操作系统。在移动时代,Android早期存在很多碎片化的现象,Google和全球很多手机厂家一起努力解决这些碎片化的现象。但面向未来,在万物互联时代或者AIoT时代,碎片化现象会更加严重,所以小米很早就开始关注NuttX,希望通过开源的嵌入式实时操作系统来解决碎片化现象。2019年,小米和NuttX团队创始人进行战略级合作,在我们的推动下,NuttX正式进入Apache孵化器。

去年,根据Apache 2021年年度报告,指出Apache NuttX是比较火的前五大开源项目,小米工程师肖翔同学也进入了Apache社区的前五大Committers,这些都代表了NuttX的活跃度。

在过去一年,小米为NuttX贡献了超过一半的代码量,成这个社区的绝对主力。

通过这三个案例,算是回应了开源圈中有很多人对开源的片面理解和解读。开源是什么?很多人说开源仅仅是一个推广分发软件的手段,或者说开源是一个促进用户增长的渠道。有人说开源是提升技术品牌的方法。有人说开源是提升公司估值的噱头,更有投资界的人说开源是一个快速盈利的商业模式。我认为在互联网、大数据和人工智能时代,如果你相信软件定义一切,相信AI赋能万物,那么开源是人类技术进步的最佳平台和模式。

非常感谢大家,谢谢。

点击2022(第十七届)开源中国开源世界高峰论坛-CSDN直播,查看更多精彩演讲内容!

小米集团副总裁崔宝秋:开源是人类技术进步的最佳平台和模式相关推荐

  1. 聚观早报 | 元旦机票预订量增长145%;小米集团副总裁崔宝秋离职

    今日要闻:元旦跨境机票预订量增长145%:小米集团副总裁崔宝秋离职:抖音推出桌面端聊天软件:<阿凡达2>全球票房破14亿美元:苹果 A17 芯片要用 3nm 工艺 元旦跨境机票预订量增长1 ...

  2. 大学生用 AI 写论文:次次拿 A,还赚 100 美元;小米集团副总裁崔宝秋离职;抖音上线桌面端聊天软件|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  3. 小米集团副总裁崔宝秋:人类正进入“AIoT+5G”超级互联网时代

    "AI赋能IoT,AI智能语音助手将带来技术革命." 本文旨在传递更多市场信息,不构成任何投资建议. 8月20日,由火星财经主办的"POW'ER 2019全球开发者大会& ...

  4. 小米副总裁崔宝秋:智能手机是今天AI技术最大的平台,AIoT又让AI无处不在 | MEET 2021...

    编辑部 整理自 MEET 2021 量子位 报道 | 公众号 QbitAI 什么是未来的智能生活? 每个人根据自己的需求,再加上一个时间维度,十年?二十年?都会有不同的答案. 今年,小米正式将未来10 ...

  5. 小米副总裁崔宝秋离职 原掌管的清河大学并入人力资源部

    雷递网 乐天 12月31日 2022年最后一个工作日,小米依然在马不停蹄的进行调整. 今日早间,小米宣布,公司晋升卢伟冰晋升为集团总裁,并继续兼任集团国际业务部总裁,同时管理集团手机部.生态链部.大家 ...

  6. 小米再添猛将!雷军官宣常程担任小米集团副总裁

    1月2日上午,雷军在其官方微博宣布,原联想集团副总裁.手机业务负责人常程加入小米. 雷军表示:"2020年上班第一天,欢迎@常程 加入小米,担任小米集团副总裁,负责手机产品规划." ...

  7. 阿里巴巴集团副总裁贾扬清:开源大数据生态前瞻

    2019阿里云峰会·上海开发者大会于7月24日盛大开幕,本次峰会与未来世界的开发者们分享开源大数据.IT基础设施云化.数据库.云原生.物联网等领域的技术干货,共同探讨前沿科技趋势.本文整理自开源大数据 ...

  8. 19 个行业观点:李开复谈20年后 AI,崔宝秋论开源之道,清华唐杰提认知图谱三要素...

    智源导读:12月16日,由科技媒体[量子位]主办的"MEET 2021智能未来大会"在北京召开,其中包括创新工场董事长兼CEO李开复.中国工程院院士谭建荣.小米公司副总裁崔宝秋.清 ...

  9. 云原生与大数据、AIoT、开源的碰撞之路——专访小米崔宝秋

    ​谈及当下技术领域的热词,必定有云原生.大数据.AIoT,不仅因为这些新兴技术拥有前所未有的创造力,更是因其中每一项技术都代表诸多未知的可能.而当这些技术相互碰撞时,将为软件发展.技术进步.城市升级带 ...

最新文章

  1. 【云栖大会】阿里云生态 开启智能“大航海时代”
  2. lucene、solr、nutch三者的关系
  3. $(function() {})
  4. css为什么要用浮动_CSS中有几种定位?如何使用?
  5. minHash最小哈希原理
  6. 宿主机mac os无法连接到虚拟机centos
  7. Hyper-V 2016 系列教程28 Hyper-v平台USB 外设解决方案介绍
  8. 面试题之SpringMVC整体工作流程
  9. dw常用标签_Dreamweaver代码大全DW常用代码
  10. JAVA文件上传大小限制问题
  11. 1.3 Go语言上手-高质量编程与性能调优实战
  12. 李学斌:论复杂系统中的应用间协作V3
  13. 行测-言语理解与表达-逻辑填空
  14. 虚拟机安装64位Orace_Linux
  15. .NET c#音乐播放器
  16. 【Day8.1】兰州牛肉拉面
  17. Windows10企业版 VS2017编译 MongoDB C++ Driver3.1.1 全过程
  18. 北京理工大学 计算机学院 书院,书院交流 | 北京理工大学睿信书院来我院调研交流...
  19. MongoDB 数据库(一):MongoDB的介绍与安装
  20. 2022年下半年信息系统项目管理师上午真题及答案解析

热门文章

  1. 上半年暂停考试要补考?包含监理工程师、建筑师等十项考试
  2. 2019 上海小学组 题目解析
  3. 网传锐捷将与wifi共享精灵携手定制校园专版
  4. notepad++中Analyse Plugin插件如何使用
  5. [Python] 一段简单的代码调用 openRTSP 实现 RTSP 流录像工具
  6. isEmpty和isBlank的用法区别,至少一半的人答不上来...
  7. 迅睿CMS 集成栏目页
  8. 字节23届校招薪资出炉!技术岗年薪最高76万
  9. simulink时域模型风光储一次调频。
  10. Ganglia分布式监控部署