AI正在向更深层次进化,语言与知识技术的重要性愈加凸显。

8月25日,以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会重磅开启,百度CTO王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果,与产学研各界分享技术及产业发展趋势和展望,百度集团副总裁吴甜百度技术委员会主席吴华分别发布百度语言与知识技术系列产品和数据集共建计划,重磅推出5款产品的新发布,全面加速AI技术大规模应用。在演讲中,王海峰表示,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”

自然语言理解(NLP)素有“人工智能皇冠上的明珠”盛誉,这也意味着语言与知识等认知层面的技术突破将进一步促进AI深入发展。

语言与知识技术是人工智能认知能力的核心,以语言和知识为研究对象,让机器像人一样掌握知识、理解语言的自然语言处理技术,对于人工智能发展至关重要。十年来,百度大脑语言与知识技术成果丰硕,获得包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。技术不断突破创新的同时,也在产品上创新探索,同时将领先的技术输出给开发者与合作伙伴,提升各行业智能化水平。

(百度CTO王海峰)

十年:开拓者、深耕者、引领者

半个多世纪前,老一辈自然语言处理学者,在一本名为《机器翻译浅说》的书中,畅想了未来跨语言、跨文化的无障碍沟通场景。如今,机器同传、翻译机、跨模态翻译等工具,已融入人们的工作和生活,沟通无国界的梦想正逐步实现。这一切是人工智能技术,特别是语言与知识技术进步所带来的结果。

语言与知识技术是人工智能认知能力的核心。2010年,百度成立自然语言处理部,历经近十年发展,百度已经构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统。在前瞻技术与产业格局上不断引领、创新,十年间已成为中国NLP发展的一面旗帜。

峰会上,王海峰回顾,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”

在知识的加持下,语言理解相关技术的能力不断增强,机器也可以逐渐像人一样不断学习、不断进步。百度提出知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,具备人类一样的持续学习能力,曾一举登顶全球权威数据集GLUE榜单,首次突破90分大关,并且超越人类得分。而通过融入知识、语义理解、以及增强小样本学习能力,机器的阅读理解和对话能力也在迅速增强。

纵览百度语言与知识技术发展历程,从研究方法、研究对象、研究方向、产业应用等各个层面,布局完整,不断打磨成熟,始终与应用的发展趋势、需求一脉相承,与产业接轨。

十年来,百度大脑语言与知识技术成果丰硕,获得包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。技术不断突破创新的同时,也在产品上创新探索,同时将领先的技术输出给开发者与合作伙伴,提升各行业智能化水平。

全面分享语言与知识技术成果

王海峰全面分享了百度语言与知识技术完整布局和最新成果。

首先,知识图谱是机器认知世界的重要基础,百度打造了世界上最大规模知识图谱,拥有超过50亿实体和5500亿事实,并在不断演进和更新。百度知识图谱应用于各行各业,每天的调用次数超过400亿次。

其次,在融入知识的基础上,语言理解能力不断增强。2019年3月,百度提出知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,曾一举登顶全球权威数据集GLUE榜单,首次突破90分大关,刷新榜单历史。基于知识图谱和语义表示,突破了阅读理解、对话理解以及跨模态深度语义理解等技术。

第三,语言生成是语言与知识技术中的重要组成部分。基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。

应用系统层面,对话系统和机器翻译等成绩卓著。百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型PLATO等,并推出智能对话定制和服务平台UNIT,帮助开发者高效构建智能对话系统,实现规模化应用。百度翻译支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。

百度大脑语言与知识技术的持续探索和创新取得了令业界瞩目的成绩,同时这些技术以平台化的方式输出,赋能千行万业,持续提升产业智能化水平。

重磅推出5款产品的新发布、2大计划

王海峰首次发布了百度大脑语言与知识产品全景图。百度集团副总裁吴甜接续发布语义理解技术与平台文心、智能文档分析平台TextMind和AI同传会议解决方案3大新产品,同时发布了6项升级,包括智能创作平台的3个场景方案、以及智能对话定制与服务平台UNIT的3项全新升级。

(百度集团副总裁吴甜)

吴甜表示,“我们一直致力于将语言与知识技术凝聚成一系列技术平台和产品,在应用中产生大量价值,为广大开发者和产业实践者提供以语言与知识技术为核心驱动的系列产品。”

百度推出的语义理解技术与平台文心,基于深度学习平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的NLP算法集、端到端开发套件和平台,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级NLP模型。文心经过了大量真实应用场景的淬炼,具备优秀的工业级落地实力。

全新发布的智能文档分析平台TextMind,基于OCR、NLP技术,以文档解析为核心能力,支持文档对比与文档审核,具备“多快好省”的核心优势,促进企业办公智能升级。

百度大脑智能创作平台针对媒体应用场景再升级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体人更快、更好地创作,可谓切中媒体人的“痛点”。

智能对话定制与服务平台UNIT升级3大特性:更智能的任务式对话理解、极致便捷的表格问答和融合通用的新对话引擎。此次UNIT全新升级的三大能力,将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。

全新发布的AI同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。吴甜现场展示了如何只用一台电脑和一部手机快速搭建一套同传服务,只需点点鼠标、打几个字,就能快速获得专业的同传服务。

数据匮乏、算力不足历来是语言与知识技术研发中面临的瓶颈。为突破瓶颈,百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划——千言,解决数据稀缺问题。千言一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集。

百度技术委员会主席吴华表示,“未来,我们希望有更多的数据集作者能够参与共建千言,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。我们计划在未来3年,面向20多个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”

(百度技术委员会主席吴华(中)与中国中文信息学会副理事长兼秘书长孙乐(左)、中国计算机学会自然语言处理专委会主任周国栋(右)一起正式启动千言计划)

吴华还发布了百度语言与知识技术算力共享计划,通过百度AI STUDIO平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。

十年征程,百度语言与知识技术发展历程中培养、吸引了大量全球顶尖人才。会上,百度推出以王海峰为代表的百度NLP“十年十人”,十年坚守,不忘初心,秉持“技术信仰”,勇攀技术高峰,矢志不渝致力于让机器更好地理解世界、更好地服务于人。

正如王海峰所言,“我们致力于更好地与学术界、产业界携手,推动语言与知识技术发展,进而推动人工智能技术持续进步,为产业智能升级、社会经济高质量发展贡献力量。我们对未来充满信心,坚持研究和发展让机器掌握知识、理解语言、拥有智能,继续突破和创新,为技术和社会进步做出更大贡献。”

更多精彩推荐
  • 鸿蒙加海思,麒麟加龙芯,组合拳能否渡劫“生态”危机

  • 用 Python 详解《英雄联盟》游戏取胜的重要因素!

  • 万字长文总结机器学习的模型评估与调参 | 附代码下载

  • “Talk is cheap, show me the code”你一行代码有多少漏洞?

  • 科普 | 定义 Eth2.0 中的验证者质量

11项重大发布!百度大脑语言与知识技术峰会全程高能相关推荐

  1. “工科生”的浪漫 百度大脑语言与知识技术峰会在七夕向你发出参会邀请

    语言与知识技术是通向机器认知智能的关键技术,对人工智能的发展至关重要.8月25日,百度将举办以"掌握知识.理解语言.拥有智能"为主题的语言与知识技术峰会,百度CTO王海峰将分享百度 ...

  2. 【每日新闻】百度CTO王海峰发布百度大脑5.0

    点击蓝字 关注我们 更多精彩,请点击上方蓝字关注我们! 每日新闻播报 第07-03期 1 趋势洞察 Gartner:云是数据库市场的未来 根据Gartner预测,到2022年将有75%的数据库被部署到 ...

  3. 国航APP接入百度大脑OCR身份证识别技术,让机票购买更便捷!

    价值成果 中国国航APP通过接入百度大脑OCR身份证识别技术,实现了旅客线上自助修正错购机票信息的功能.购票信息错误的旅客只需在中国国航APP上传身份证照片,即可进行购票身份认证,并立即修正错误信息. ...

  4. 国家级AI大赛王者之争:中国人工智能大赛·语言与知识技术竞赛团体赛完美收官

    继"中国人工智能大赛·语言与知识技术竞赛"个人赛圆满结束后,中国人工智能大赛团体赛于7月22日正式开战.分别来自阿里.平安.美柚.网宿等知名互联网企业.顶级高校科研院所的122只劲 ...

  5. 人民日报创作大脑背后的AI支撑:百度大脑智能创作平台技术解密

    人工智能.云计算.5G等新兴技术正在加快媒体行业智能化升级步伐.12月24日,人民日报举办"2020智慧媒体高峰论坛",发布人民日报"创作大脑",百度公司提供技 ...

  6. 百度一口气亮出NLP十年积累:完整技术布局全面披露,面向业界砸下11项七夕大礼...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 十年,从名不见经传到世界舞台中央,中国NLP经历怎样的历程,未来又将向何处去? ACL首任华人主席.百度CTO王海峰说:站在百度的角度,过去 ...

  7. 智能猫窝是如何诞生的?详解百度大脑的开放生态

    3 月 20 日下午,首场百度大脑开放日在北京中关村创业大街百度大脑创新体验中心举行.百度 AI 技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台 Q1 核心升 ...

  8. 百度大脑开放日:24 种新 AI 能力 20 个经典案例 助力 AI 落地

    https://www.toutiao.com/a6715276196365468163/ 3月20日,首场百度大脑开放日正式开始,在开放日期间,百度将会介绍百度大脑全新开放的24种全新AI能力,AI ...

  9. 五大服务顺序_百度大脑5.0技术干货:详解飞桨五大优势,鸿鹄芯片架构细节

    智东西 文 | 心缘 智东西7月8日消息,近日,2019百度AI开发者大会在北京国家会议中心举行.在上午的主论坛中,百度CTO王海峰带来了软硬一体的AI大生产平台--百度大脑5.0,宣布百度飞桨与华为 ...

最新文章

  1. sqlalchemy mysql配置中怎么设置utf8_sqlalchemy 的设置及使用
  2. webbench网站压力测试工具的使用方法
  3. SAP UI5框架中,onInit方法执行次数的讨论
  4. apache mesos_Apache Mesos:编写自己的分布式框架
  5. Windows SharePoint Services 3.0 Tools: Visual Studio 2005 Extensions发布1.1 CTP版本扩展
  6. Linux磁盘管理2
  7. 关于location.href几种用法的区别
  8. Microsoft Blazor Platz.SqlForms开源——使用架构生成器设计和维护SQL Server数据库
  9. Python之旅:集合
  10. PopupWindow点击空白区域消失
  11. 获取OlapConnection连接
  12. 3. 什么是icmp?icmp与ip的关系_0.3亿人口的美国会比3亿人口的美国富裕吗?
  13. php字符串去重和去空,php去空格
  14. Eclipse 优化
  15. ae怎么输入竖排文字? ae文字竖排的方法
  16. 虚拟机Oracle VM VirtualBox 共享文件夹放的文件打不开,找不到指定路径问题
  17. 谷歌学术文献信息爬取及文献下载
  18. xp显示连接上不了网络连接服务器地址,xp本地连接受限制|windows xp系统本地连接提示受限制或无连接怎么办...
  19. 未连接到互联网,检查代理服务器地址
  20. arccotx图像在matlab,arccotx图像(cotx的定义域和图像)

热门文章

  1. ii第六单元 文本处理工具
  2. 设备物理像素、设备独立像素
  3. sftp 限制用户登陆指定目录(家目录)
  4. 一分钟了解阿里云产品:先知计划
  5. 让你提升命令行效率的 Bash 快捷键
  6. MOS2010开发基础和集几种开发模型
  7. 网络丢包现象分析处理指导书5
  8. 通过hibernate 查询出来的数据默认为持久状态,也就是说:你在后头作出的任何操作都会被hibernate自动同步更新到数据库
  9. 自动驾驶汽车数据闭环方法分析
  10. Machine Learning Algorithm