导读 百度大脑大升级:语音、视觉、语言与知识 AI 算法创新并驾齐驱

7 月 3 日下午,「Baidu Create 2019」百度 AI 开发者大会百度大脑论坛如期举行。在上午主论坛中,百度首席技术官王海峰正式发布百度大脑 5.0,实现了历史上最具跨越性升级,在算法突破、计算架构升级的基础上,实现 AI 算法、计算架构和应用场景的融合创新,成为软硬一体 AI 大生产平台。

百度AI开发者大会

重磅升级后的百度大脑 5.0 打通了从基础层的深度学习技术到通用 AI 能力、应用技术方案,再到定制化模型,以及最终的部署和集成,整个人工智能产业化应用落地的全部流程,实现了 AI 技术的标准化、自动化和模块化。

一直引领行业创新的百度大脑语音技术此次亮出在语音识别、语音合成、远场语音交互芯片方面的成绩单。百度语音技术部高级总监高亮介绍,识别方面,百度提出流式多级的截断注意力模型 SMLTA,这是国际上首次实现局部注意力建模超越整句的注意力模型,也是国际上首次实现在线语音大规模使用注意力模型。SMLTA 在大幅提升识别速度的同时,也提高了识别准确率。在输入法有效产品相对准确率提升 15%,音箱有效产品相对准确率提升 20%。合成方面,针对现阶段面临风格迁移、音色模拟和情感拟人的三大挑战,百度推出语音合成技术 Meitron,可以将语音中的音色、风格、情感等要素映射到不同的子空间,在使用时,不同要素可以任意组合,灵活的控制合成语音的风格。同时降低语言合成门槛,仅需 20 句话就可以制作一个人的专属声音。

对于落地应用正在端侧呈现出巨大需求,百度大脑语音团队研发出一款针对远场语音交互打造的芯片——百度鸿鹄芯片。鸿鹄芯片的设计,变革传统芯片设计方法,遵循「软件定义芯片」的全新设计思路。该芯片采用双核 HiFi4 架构,2.8M 大内存,台积电 40nm 工艺,在此硬件规格上,100mw 左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时,按照车规级标准打造使鸿鹄芯片可满足极严格的需求,将为车载语音交互,以及智能家居等场景带来更大想象力。鸿鹄芯片流片的同时,即实现了量产。

百度视觉

百度视觉技术在 2019 年各大国际赛事中开启「开挂」模式,在前不久结束的 CVPR 上分别在视频理解、人脸活体、车辆 REID 等领域获得第一,上半年在 NTRIE2019、ICME2019、ICDAR2019、DWAN2019 等比赛中也屡屡夺冠。百度视觉技术部、增强现实技术部总监吴中勤介绍,5G 时代,越来越多物理设备将连接到高可靠、低延时的网络空间,这将彻底改变人们与环境及设备的交互方式。本次全新发布视觉语义化平台 2.0,正在推进视觉技术由「看清看懂」向「交互」进行升级。视觉语义化平台 2.0 在交互升级和软硬件结合两大方面实现突破。

交互升级包含一体化人机交互系统和大场景物理世界交互系统。简单而言,一体化人机交互系统是人与机器、虚拟环境的自然交互与融合,该系统适用于实现 AR 特效的直播、小视频、特效小程序等场景,已应用于百度多款视频 App。大场景物理世界交互系统是将视觉定位与 AR 技术突破性结合,实现大范围的虚拟信息与物理世界的精准叠加,从而建立起 AI 时代全新的交互系统。目前,软硬件结合可以满足应用场景更高效的视觉计算,以及更低延时的体验,同时能保护数据隐私。百度视觉方面的软硬件结合主要聚焦于模型压缩平台 PaddleSlim、多模态 FaceID 开发组件以及软硬件一体解决方案 AI 相机三部分。FaceID 覆盖设备量已超 1200 万台。

视觉语义化

视觉语义化平台 2.0 更新了许多先进的感知技术,也让机器人技术实现新突破。百度三维视觉首席科学家杨睿刚介绍,机器人就是一个智能体,除了感知技术,智能体需要决策和动作相关的技术,实现从环境感知到主动感知。目前,百度研究的智能体技术主要集中在自动驾驶 Apollo、工程机械和服务机器人三大方面。上午主论坛中引人关注的机械臂「茶博士」不仅能说会道,还完成了传统的长嘴壶倒茶工作,其背后依靠的正是服务机器人方案。基于百度 3D 视觉,机器人可以对茶杯的位置进行检测和追踪。通过机器人运动规划和控制,机械臂可以对工作空间进行碰撞检测,避开障碍物;实时规划运动后,可自动生成倒茶轨迹;随后,感知水流变化,实时调整倒茶位置。语音语义联动技术解析,更是让机器人像「人」一般,听得懂,说得好,做得准。

在语言和知识技术方面,百度大脑也公布了一系列创新和突破。百度 AI 技术平台体系执行总监吴甜向介绍,百度设计并实现了知识增强的语义理解框架——ERNIE,具备可持续学习能力,核心模型能力不断提升。目前,ERNIE 累计学习了超 10 亿知识,全面刷新中文 NLP 任务的指标,在百度众多产品应用中提升效果。机器同传方面也有最新进展,在翻译过程中对语音识别结果进行纠错的联合词向量编码技术,可解决多轮翻译一致性和连贯性问题的语篇翻译模型等,结合先进的语音技术,百度大脑实现了高准确、低时延的机器同传技术。

知识,能帮助 AI 更深度地理解真实世界。在主论坛中,王海峰用近期热映的音乐纪录片《大河唱》,形象展示了融合百度知识图谱技术的视频语义理解能力。该技术通过对视频的多模态知识解析,在多元异构知识图谱上建立关联,并通过计算推理,建立对视频的深度语义理解。

此外,吴甜还正式发布行业知识图谱平台和智能创作平台 2.0。行业知识图谱平台旨在满足各行各业构建和应用知识图谱来帮助推进智能化的需求,行业知识图谱平台基于领先的知识图谱核心技术,提供智能高效的知识生产流程、低成本启动和跨行业迁移的能力,帮助产业开发者定制行业知识图谱并应用。全新的智能创作平台集成了实时热点追踪、关联丰富素材,已经具有全面的创作辅助能力,可轻松解决传统内容创作面临的问题,全流程助力创作者,吴甜也预告了 10 月份将进行邀测的多模态自动创作功能。目前,百度已构建百度大脑·语言与知识技术开放平台,不仅有丰富的基础技术,还形成了包括智能创作平台在内的翻译开放平台、UNIT 平台、知识图谱构建与应用平台共四大应用级平台,为不同领域提供百度领先的语言与知识技术。

百度大脑 5.0 不仅包含算法层面创新,在算力方面也实现重大突破。近年来,算法对算力需求增长近 300,000 倍,而芯片的计算性能仅提升 30 倍,两者之间存在巨大鸿沟。

百度副总裁侯震宇为现场观众分享了百度新一代 AI 计算架构。面对 AI 计算的挑战,需要能够从端到端来提供 AI 计算能力,这要求计算系统从旧有的对海量数据处理能力、对 IO 高峰值的追求,转变为满足 AI 训练功能方面 IO 密集、计算密集、通信密集的需求,和 AI 推理功能方面大吞吐和低延迟的需求。


侯震宇认为,面对即将到来的 AI+5G 时代,计算将无处不在。真正的计算会发生在设备(Device)、边缘(Edge)和云(Cloud)中,因而 D-E-C 场景将会是接下来需要重点研究的问题;与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。

底层的芯片和上层的应用之间,还需要操作系统承接。王海峰认为,深度学习框架就是智能时代的操作系统。百度自研的国内唯一功能完备的深度学习平台「飞桨」就是中国自己的「AI 操作系统」。主论坛中,正式宣布百度飞桨与华为麒麟芯片深度对接,全球领先的端侧 AI 芯片和深度学习平台,将联合为端侧 AI 提供最强劲算力、打造最好的深度学习运行效率。

对于飞桨,很多开发者都非常熟悉。现场百度深度学习技术平台部总监马艳军详细介绍了飞桨的五大核心优势。在核心框架层面,飞桨同时支持动态图与静态图,兼顾了灵活性与效率;飞桨提供了 70 多个官方的、达到工业级应用效果的模型;飞桨支持大规模的分布式训练以及端到端的部署;对于中国开发者,飞桨提供系统的深度学习技术服务,有非常全面的中文支持。马艳军现场还表示,技术界「奥斯卡」,已成功举办 15 年的经典赛事「2019 百度之星」即日起开始报名,其中百度之星的编程赛是飞桨核心框架开发的任务;百度之星开发赛,则是基于飞桨的目标检测任务。


为了降低建模的成本,提高建模的效率,并降低对大数据的依赖,减少人工的干预,百度开发了 AutoDL 自动化建模技术。论坛上,百度大数据实验室主任浣军正式发布 AutoDL 3.0,从设计、迁移和适配三方面进行全面升级,并分享了多个实际案例,目前已通过飞桨正式开源。

源于产业实践的深度学习平台飞桨同时亦正在反哺产业。百度地图事业部总经理李莹以交通领域为例,介绍百度地图基于飞桨提升了 ETA 的开发、调试的便捷性和训练效率,完成了天级别的百亿级数据训练;提升了 ETA 的部署和预测性能,支撑了天级别的百亿次调用。ETA 是地图路线规划的主要特征,也是用户出行决策的主要参考因素。对于用户而言,飞桨赋能的百度地图 ETA 可以实现通行时间智能预估,在出行前便可提前预知路况,避开拥堵时段、了解拥堵时长、躲避拥堵路线,合理规划出行时间。

数据是 AI 时代的核心生产资料,当前大数据产业发展中面临数据资产安全性和数据价值发掘成本高两大问题。百度大数据部高级总监郭谢介绍,百度点石大数据技术开放平台作为国内第一家落地的大数据 iPaaS 平台,聚焦大数据产业发展过程中的安全和效率两大问题。同时,点石具有三大核心特性,包含安全的数据融合加工环境、多层次开放的可定制组件,以及功能一体化的大数据开发平台,可以帮助开发者安全、高效地进行大数据价值的发掘。百度希望通过点石加速大数据的生态发展,帮助开发者深度发掘数据价值,点石成金。

AI 算法、计算架构和应用场景的融合创新的百度大脑 5.0 已成为软硬一体 AI 大生产平台。百度大脑论坛下午近三个小时的分享,仅仅是百度大脑技术的「冰山一角」。除了顶级的技术,百度大脑仍将不断开放赋能,目前已经开放 210 余项领先的 AI 技术能力,平台的调用次数同比增长 108%,定制化平台模型的数量都在飞速增长,平台上的开发者数量已经达到了 130 万。王海峰表示,「授人鱼不如授人以渔」,百度研发顶尖的 AI 技术,也致力于开放顶尖的 AI 技术。百度大脑 5.0,助力各行各业的产业开发者,加速产业智能化。

转载于:https://www.cnblogs.com/elsa-66/p/11354546.html

百度大脑大升级:各种算法并驾齐驱相关推荐

  1. 百度大脑EasyMonitor升级2.0,全新发布软硬一体方案EM-BOX 边缘部署易集成

    安全是企业生存之本,安全生产更是保障从业人员的人身安全与健康.设备设施免受损坏.生产经营活动得以顺利进行的必要条件. 6月18日,百度大脑开放日举办安全生产主题专场活动.会上详细介绍了百度EasyMo ...

  2. 百度大脑UNIT升级,五步完成对话模型私有化部署

    对话系统的搭建从大的阶段上分为三个步骤,第一阶段要进行业务梳理,设计对话逻辑,并整理业务数据:第二个阶段就是配置对话或问答技能,训练出一个可用的对话模型:第三阶段就是模型的部署和调用.而在每一个阶段, ...

  3. 让传统文化火出圈,百度大脑的AI破壁时刻

    当代生活中,有哪些细节会让你有一种"可以,这很有文化"的感觉? 是<我在故宫修文物>里的钟表大师成为新晋网络"男神",是故宫文创.非遗联名款以迅雷不 ...

  4. 百度大脑“刷脸”10万+的背后

    这几天出差杭州.深圳参加活动期间,我至少被刷脸10次,包括机场安检口刷脸.登机口二次检验.高铁实名制验证.酒店入住人脸核验.大会现场自动售卖机刷脸.便利店刷脸支付--如果算上每天无数次的手机FaceI ...

  5. 从AI前沿到科技自立:百度大脑的风向标意义

    即将过去的2021年,被全球众多科学机构与数据调查报告认为是AI的全面推进之年. 这一年中,AI在生物计算.通用智能等领域取得惊人进展:与自动驾驶.节能环保等领域结合引发了社会关注.各个国家与地区,普 ...

  6. 薅百度GPU羊毛!PaddlePaddle大升级,比Google更懂中文,打响AI开发者争夺战

    记者 | 阿司匹林 出品 | AI科技大本营(ID: rgznai100) 深度学习已经推动人工智能进入工业大生产阶段,而深度学习框架则是智能时代的操作系统. 在4月23日下午的Wave Summit ...

  7. 一句话生成数字人形象、昆仑芯2量产…百度大脑升级7.0,王海峰:技术更强了门槛却更低...

    梦晨 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 百度和央视又联手在直播现场上演黑科技了. 百度CTO王海峰只说了一句话,就给主持人整出了个数字"孪生兄弟". 更厉 ...

  8. 跳水比赛背后的隐形教练现身了!百度智能云还完成了历史性的大升级

    鱼羊 金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 对于东京奥运会,吐槽归吐槽,比赛精彩也是真精彩. 尤其是中国奥运健儿们在赛场上的风姿,什么双人跳水宛如一人啦,射击比赛绝境翻盘啦,那看 ...

  9. qrect在图片上显示矩形框_2019年6月百度大脑产品上新技术升级盘点内容

    一年一度的百度 AI 开发者大会刚刚在北京落下帷幕,百度大脑发布了5.0,并宣布进入人工智能大生产时代. 而一系列黑科技的部分之外,百度 AI 开放平台本月还有一系列为开发者贴身打造的新产品和细致的服 ...

  10. 百度大脑EasyDL专业版重磅升级 预置网络更丰富,开发更灵活

    百度大脑EasyDL是基于飞桨框架PaddlePaddle推出的面向企业打造的零门槛AI开发平台,可为各行业有AI模型开发需求的企业及开发者,提供从数据管理与标注.模型训练.服务部署的全流程支持,使用 ...

最新文章

  1. Visual Studio中断NPM套件库服务
  2. 怎样实现前端裁剪上传图片功能
  3. 【机器学习算法-python实现】svm支持向量机(3)—核函数
  4. MySQL数据分析-(1) 数据库前言
  5. torch中loss.bacword的理解
  6. windows server2016 如何安装IIS
  7. HiveSql 日期格式转换
  8. matlab保存tif图片
  9. ollydbg使用心得
  10. 4.12作业--CSS
  11. AS13 facets cannot be loaded. you can mark them as ignored to suppress this error notification处理
  12. C语言课题1:猜数字游戏【从基础开始手把手教你】
  13. 反爬虫SSL TLS指纹识别和绕过JA3算法.md
  14. 【不可能不好玩】一个我觉得最好玩的游戏!
  15. 计算机无法进入bios按,BIOS无法进入实测解决教程
  16. 简单解决虚拟机无法连接外网
  17. 王国栋青岛大学计算机学院,王国栋
  18. The Indian Job
  19. python给定一个整数n、判断n是否为素数_Python判断一个整数是否为素数
  20. ABAP:增强篇-CJ20N屏幕增强

热门文章

  1. 图片哈希概述(image hash)
  2. cocos2dx 精灵触摸
  3. 【stm32单片机基础】按键状态机实现长按和短按
  4. 双重for循环 语法结构
  5. matlab等距偏置曲线,144 偏置曲线命令详解
  6. win10修改用户名/指纹无法置入/用户文件没有重命名的选项
  7. 60级神圣系圣骑心得(转)
  8. css3探测光圈_纯CSS3实现的镜头光晕(光圈)
  9. PowerVR SDK工具包21.1版新亮点一览,特别增加光线追踪代码示例
  10. 个人的信用体系(分层体系)调研