小米年度技术峰会 DAY3 为人工智能技术专场

智能是小米产品力最重要的体现之一。小米拥有世界上最大的手机xAIoT平台,活跃设备超过5亿。人工智能技术,已经在小米的音视觉多模态感知、多模态理解、生成以及控制中实现应用,并构成了智能交互的闭环。

在小米年度技术峰会的人工智能专场,小米集团技术委员会主席、AI实验室主任王斌首先进行了开场致辞, 他表示,人工智能在不断的发展,作为小米技术布局的重要板块,AI一直在小米关键业务中发挥着非常重要的作用,提供着“弹药”的支持。在今天的峰会中,大家一起来感受AI在机器人、智能交互,到智能设计与制造中的广泛应用。

接下来峰会论坛部分,来自技术委的专家工程师们,为大家带来今年小米在人工智能领域的亮点成绩和崭新探索,分享小爱的最新进展,以及铁大的前生今世。

01 

CyberOne人形仿生机器人

每当谈起机器人时,人们总是对人形机器人充满着无限的期待。机器人实验室算法工程师曹晟介绍,CyberOne作为小米首款全栈自研的全尺寸人形仿生机器人,可识别85种环境语义,通过听觉感知6类45种人类的情绪。

同时,CyberOne搭载小米自研的高精度Mi Sense视觉传感器,通过采集数据对环境进行三维重建。自研的高性能伺服驱动关节也具有高密度的峰值扭矩,最大输出扭矩300N.m。在这次分享中,曹晟为大家带来了一场关于人形机器人的基本知识、CyberOne的核心技术,以及“铁大”的研发经历的知识盛宴。

02 

让拍照更清晰——AI智能追焦系统

目前智能手机发展越来越趋于同质化,各大厂商都在寻找自己产品的差异化发力点。手机相机功能目前是各大厂商投入较大的一个差异化方向,手机的对焦主体选择功能是手机拍照画质好坏的重要因素,但目前这方面的技术还有待提升。

算法工程师于海龙表示,我们通过AI智能算法的引入,自研AI智能追焦系统,能够智能的选择对焦主体并做到持续稳定的追焦,该功能效果达到行业领先水平,为相机准确对焦提供了基础。该功能成为小米12系列等旗舰机型的核心功能。

03 

应用新一代 Kaldi 引擎构建语音识别系统

“Kaldi之父”Daniel Povey的带领下,新一代Kaldi团队致力于研发性能优异、运行高效、能产品落地的开源语音识别系统。算法工程师康魏重点分享了将RNN-T 模型应用到语音识别上的一些探索,以及取得的进展:

  • 首先我们提出并实现了pruned RNN-T 损失函数,相比 pytorch 中的实现,pruned RNN-T 在使用不到 1/5 显存的情况下取得了约10倍的加速;

  • 我们对 Conformer 模型进行了大量改进,使得稳定性和收敛速度显著提升,将模型训练时间减少一半以上,模型的识别错误率降至 2% (Librispeech test-clean 数据集);

  • 最后,我们实现了基于 GPU 的快速解码方法,解码的实时率低至 0.0025,约为实时的400倍。

04 

声动人心——小米自研AI声学技术

“听觉”作为人体第二重要的感觉,不断优化听感一直是各大技术厂商长期攻坚的领域。为增强用户体验,小米确立了降噪、声场、感知三大声学技术开发方向,辅以实验室进行测试和质量保障的自研路线。

产品经理辛燕舒表示,在降噪方向上,小米全自研的AI通话降噪算法和主动降噪算法已完成了多轮迭代并搭载于多款设备,综合体验全面超越竞品,实现了行业领先。其中,AI通话降噪算法的行业领先体验更是获得了中国计量院的权威认证。

声场方向上,小米全自研的3D环绕声算法已广泛应用在小米耳机、电视、音箱等产品线中。8月发布的Xiaomi Buds 4 Pro,更是搭载了全行业首发的耳机端空间音频算法,受到业界和消费者的一众好评,如同雷总所说的:“这是全球耳机里最先进的”。

感知方向上,小米已独立完成多项先进技术的预研,未来将逐步上线小米各类产品,为用户带来更为新奇的体验。

小米自建的声学实验室负责对上述所有算法进行测试、验收、质量评估,现已覆盖小米多品类200+款产品,为用户的高品质体验保驾护航。未来,小米声学团队将持续探索多个领域、多类产品,并坚持产学研一体化协同路线,让全球每个人都能享受先进声学技术带来的美好体验。

05

小爱的耳朵——复杂场景下的阵列语音唤醒

语音唤醒作为一轮智能语音交互的起点,对交互的质量起到至关重要的作用。

算法工程师庄伟基表示,为了提升语音唤醒的用户体验,小米语音工程师采用基于麦克风阵列的唤醒算法,将传统信号处理方法与深度学习结合,利用多通道端到端和多模态等技术,有效弥补了传统方案的缺陷。该算法先后落地多款手机、电视、音箱和耳机设备,有效提升小米智能语音设备在复杂声学场景下的唤醒性能。

06

“音”人而异——打造多样性之美

声音体验可以说是小爱同学的一大特色。算法工程师孟猛表示,我们为用户提供了4种默认的官方合成音色,但这四款音色对于我们上亿级的用户来说还远远不够。目前我们在做的就是打造多样化的小爱声音,为每一个用户提供差异化的体验。

因此,小爱同学上线了声音商店平台,给用户提供多样化、有惊喜的精品音色选择。同时我们还实现了自研声音复刻技术的全面推广,让小爱做到了能说会唱。在此过程中,我们也完成了技术升级和迭代。

07

从云到端,打造自研机器翻译“芯”体验

目前,主流的机器翻译都是采用云端在线服务模式,尽管能满足多数场景需求,但在小爱在线实时字幕中却遇到了极大挑战。

算法工程师穆畅表示,今年我们在行业内首次实现了基于高通AI引擎的离线机器翻译能力,打造了低功耗、低延时、低闪烁、低存储、高质量的同传体验,从根本上解决了“在线服务成本高”、“可靠性低”和“隐私不友好”三大痛点,落地小爱实时字幕并在MIX Fold 2发布。在本次峰会中,穆畅介绍到自研机器翻译技术在小米手机和IoT产品中的应用,并着重分享了端侧离线翻译的挑战和实践。

08

以用户为中心的小爱闲聊对话

小爱闲聊通过打造用户为中心的对话和拟人化能力,为用户提供像人一样的对话体验,和用户交朋友。算法工程师刘伟介绍,我们在技术上完成了三大升级:从检索到生成、从IQ到EQ,从千人一面到千人千面。

在外部机构的nps调研和其他厂商的评测中,小爱闲聊都是业界标杆。对话生成领域通过业界top的话语料和模型的构建,以及用户行为相关算法的实现,形成了技术护城河;在情感对话方面,通过和北大心理合作,创新性引入心理咨询理论,成为行业首创。

09

知识计算及应用场景

小米积累的知识计算能力在持续为公司带来惊喜的商业价值提升和人力成本的降低。

算法工程师彭力表示,知识图谱团队结合公司互联网业务中遇到的客货场等问题持续发力,先后在购物、广告等商业场景下的搜索、推荐、精准投放等环节上有所突破并带来GMV及广告收入的良性提升。在语义理解上深挖问答场景下的知识交互技术,利用业界领先的知识计算能力全面赋能小爱智能问答及小米网的智能客服业务。

10

小爱同学中的多轮对话实践

多轮对话是自然的交互方式,例如多次调节音量时省略主体,定闹钟过程中查询天气、以及更复杂的导航、订餐、购物场景。

算法工程师蒋俊杰表示,对话管理是多轮任务完成的关键模块,包括对话状态追踪(DST)和对话决策(POL)两部分。为提升多轮任务完成率,小爱同学在DST模块中落地了基于预训练的多轮改写和槽位继承模型;在POL中,以基于规则的方法为主,并在核心场景里实现了基于有监督学习和强化学习模型的方法。

11

AI For Design and Control

智能制造是小米面向未来的答案。小米正努力向智能制造的深水区探索,在研发设计环节实现更深刻的智能变革。算法工程师徐统业表示,紧跟AI for Science的技术方向,将AI与科学相结合,解决工程领域的重大问题。

目前已经将AI应用在手机充电控制,实现高效的自动PID整定;也应用于汽车结构设计,为工程师提供智能的辅助工具,以及应用于电池状态估计,期待解决电动汽车的续航焦虑。未来,小米的工程师们会持续探索AI在科学、工程领域更大的价值。

下一场是互联网技术专场,届时将由技术专家带大家一窥对复杂系统精巧设计以服务上亿用户、对细节及成本意识的极致优化、对大数据算法的平台及应用、对国际化合规思考、对前沿互联网技术探索。敬请期待~

探索未来|一文看懂小米年度技术峰会 · 人工智能技术专场相关推荐

  1. 探索未来|一文看懂小米年度技术峰会 · 互联网技术专场

    小米年度技术峰会DAY4迎来了互联网专场,本专场涵盖了互联网行业最复杂.最广泛的技术领域. 互联网业务部副总经理兼政委王栋发表了开场致辞.王栋分享道,近三十几年来计算机和互联网技术的发展推动了知识革命 ...

  2. 探索未来|一文看懂小米年度技术峰会·硬件专场

    为深化小米技术氛围,创造小米工程师之间的学习和交流机会,小米年度技术峰会于10月24日在小米技术嘉年华上正式拉开帷幕. 作为小米技术的聚合场和风向标,技术峰会汇聚小米优秀工程师,分享最有料的技术干货, ...

  3. 一文看懂RPA的技术原理、产品形态、设计与构建

    一文看懂RPA的技术原理.产品形态.设计与构建 过去的一年,RPA机器人流程自动化行业迎来了一个快速发展的机遇.RPA创业者得到了国内投资人的认可,一些RPA公司也接连拿到千万美金级别的融资,这在当下 ...

  4. 2021-11-06一文看懂融合定位技术6种打开方式,深圳核芯物联国产蓝牙aoa融合定位生态合能伙伴方案展示 核芯物联岳毅恒

    一文看懂融合定位技术6种打开方式,深圳核芯物联国产蓝牙aoa融合定位生态合能伙伴方案展示 原创 市大妈 物联传媒 今天 方案素材:属于核芯物联国产蓝牙aoa融合定位生态伙伴所有 本文来源:物联传媒 本 ...

  5. 硬核科普:一文看懂人脸识别技术流程

    小编是个天生懒惰的人,同时又是个急性子,这样的人最享受被科技服务的乐趣. 举个例子,十多年前大家还在普遍用现金的时代,小编在商店买东西排队结账,每当看到收银员找零时手忙脚乱的样子就会心急如焚,只恨不能 ...

  6. 小米iot业务_一文看懂小米2019上半年财报:IoT平台连接设备达1.96亿台

    8月20日,小米发布了今年第二季度财报.第二季度营收519.51亿元,同比增长14.8%;调整后净利润为36.4亿元,同比增长71.7%. 除了盈利能力的增强,这个季度小米在智能手机业务上的调整初见成 ...

  7. 科普丨一文看懂语音识别的技术原理

    简要给大家介绍一下语音怎么变文字的吧.希望这个介绍能让所有同学看懂. 首先,我们知道声音实际上是一种波.常见的mp3.wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows P ...

  8. 一文看懂百度云智峰会:发布两大中台、八大方案,落地细节精准到发丝

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 在今年举办的百度云智峰会上,百度智能云迎来全新升级,领导团队首次集体亮相. 进入2020年,新冠疫情给经济生活带来深刻影响,新基建政策又给 ...

  9. 一文看懂docker容器技术架构及其中的各个模块

    概述 今天主要简单介绍下docker的技术架构及其中组成的各个模块. 技术架构 distribution 负责与docker registry交互,上传洗澡镜像以及v2 registry 有关的源数据 ...

最新文章

  1. printf格式化输出几点注记
  2. TP 框架实现支付宝接口功能
  3. 01-Secure Payload Dispatcher (SPD)
  4. springboot 源码_springboot框架源码分享
  5. CF464E The Classic Problem(主席树+哈希+最短路)
  6. 文本分类和提取关键词算法_文本内容之间的关键词提取和相似度计算
  7. smarty引擎之练习
  8. python怎么输入两个数然后求差值_python两个日期之间天差值获取
  9. 《Python 黑科技》10万粉丝头像千图成像(撩对象)
  10. 在实际工作中,WPS对比office,谁更强?
  11. IE10 URL中多出一串字符,图片无法显示
  12. Java开发团队管理细则
  13. TCP四次握手断开连接(图解)
  14. js如何获取IP地址?教你4种方法
  15. 电力猫服务器的网页,电力猫是如何工作的?
  16. 电脑软件推荐安装列表
  17. matlab 双括号_matlab中不同括号的用法
  18. SIGCOMM2019几篇有意思的文章
  19. Latex 学术撰写工具推荐(在线、Windows、Mac、Linux)
  20. 麒麟座迷你板STLINK使用

热门文章

  1. 2018年安卓应用市场上架方法
  2. 华为鸿蒙北向应用开发DAY9——来自软通教育项目实训
  3. 通过软件的方式,控制芯片引脚的高低电平
  4. C语言分割平衡字符串递归,第 2 章 迭代、归纳和递归
  5. CUDA C编程(二十五)cuBLAS库
  6. 学习笔记19--基于V2X的道路环境感知技术
  7. 人体肺活量测试软件,如何判断自己的肺活量大小 盘点测试肺活量四大招
  8. PHP判断是否手机登陆
  9. pycharm中的列表和字符串操作
  10. mongodb集群搭建详情分片+副本集