来源:阿里技术

摘要:2018年4月阿里巴巴业务平台事业部——知识图谱团队联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。藏经阁计划依赖阿里强大的计算能力(例如Igraph图数据库),和先进的机器学习算法(例如PAI平台)。计划发布一年以来,阿里知识图谱团队有哪些技术突破?今天一起来了解。

背景

藏经阁计划发布一年以来,我们对知识引擎技术进行了重新定义,将其定义成五大技术模块:知识获取、知识建模、知识推理、知识融合、知识服务,并将其开发落地。

其中知识建模的任务是定义通用/特定领域知识描述的概念、事件、规则及其相互关系的知识表示方法,建立通用/特定领域知识图谱的概念模型;知识获取是对知识建模定义的知识要素进行实例化的获取过程,将非结构化数据结构化为图谱里的知识;而知识融合是对异构和碎片化知识进行语义集成的过程,通过发现碎片化以及异构知识之间的关联,获得更完整的知识描述和知识之间的关联关系,实现知识互补和融合;知识推理是根据知识图谱提供知识计算和推理模型,发现知识图谱中的相关知识和隐含知识的过程。知识服务则是通过构建好的知识图谱提供以知识为核心的知识智能服务,提升应用系统的智能化服务能力。

图1 藏经阁-知识引擎产品

经过一年的工作,在知识建模模块我们开发了Ontology自动搭建、属性自动发现等算法,搭建了知识图谱Ontology构建的工具;在知识获取模块我们研发了新实体识别、紧凑型事件识别,关系抽取等算法,达到了业界最高水平;在知识融合模块,我们设计了实体对齐和属性对齐的深度学习算法,使之可以在不同知识库上达到更好的扩展性,大大丰富了知识图谱里的知识;在知识推理模块,我们提出了基于Character Embedding的知识图谱表示学习模型CharTransE、可解释的知识图谱学习表示模型XTransE,并开发出了强大的推理引擎。

基于上面的这些技术模块,我们开发了通用的知识引擎产品,目前已经在全阿里经济体的淘宝、天猫、盒马鲜生、飞猪、天猫精灵等几十种产品上取得了成功应用,每天有8000多万次在线调用,日均离线输出9亿条知识。目前在知识引擎产品上,已经构建成功并运行着商品、旅游、新制造等5个垂直领域图谱的服务。

图2 知识引擎四个层次图示

在每个模块的构建过程中,我们陆续攻克了一系列的技术问题。本文将选取其中的两项工作来介绍给大家:

1、在众包数据上进行对抗学习的命名实体识别方法

知识获取模块包含实体识别、实体链接、新实体发现、关系抽取、事件挖掘等基本任务,而实体识别(NER)又是其中最核心的任务。

目前学术界最好的命名实体识别算法主要是基于有监督学习的。构建高性能NER系统的关键是获取高质量标注语料。但是高质量标注数据通常需要专家进行标注,代价高并且速度较慢,因此目前工业界比较流行的方案是依赖众包来标注数据,但是由于众包人员素质参差不齐,对问题理解也千差万别,所以用其训练的算法效果会受到影响。基于此问题,我们提出了针对众包标注数据,设计对抗网络来学习众包标注员之间的共性,消除噪音,提高中文NER的性能的方法。

这项工作的具体网络框架如图3所示:

图3基于对抗网络的实体识别模型

标注员ID:对于各个标注员ID信息,我们使用一个Looking-up表,表内存储着每个WorkerID的向量表示。向量的初始值通过随机数进行初始化。在模型训练过程中,ID向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化。在训练时每个标注样例的标注员,我们直接通过查表获取对应的ID向量表示。在测试时,由于缺乏标注员信息,我们使用所有向量的平均值作为ID向量输入。

对抗学习(WorkerAdversarial):众包数据作为训练语料,存在一定数量的标注错误,即“噪音”。这些标注不当或标注错误都是由标注员带来的。不同标注员对于规范的理解和背景认识是不同的。对抗学习的各LSTM模块如下:

  • 私有信息的LSTM称为“private”,它的学习目标是拟合各位标注员的独立分布;而共有信息的LSTM称为“common”,它的输入是句子,它的作用是学习标注结果之间的共有特征,

  • 标注信息的LSTM称为“label”,以训练样例的标注结果序列为输入,

再通过标注员分类器把label和common的LSTM特征合并,输入给CNN层进行特征组合提取,最终对标注员进行分类。要注意的是,我们希望标注员分类器最终失去判断能力,也就是学习到特征对标注员没有区分能力,也就是共性特征。所以在训练参数优化时,它要反向更新。

在实际的实体识别任务中,我们把common和private的LSTM特征和标注员ID向量合并,作为实体标注部分的输入,最后用CRF层解码完成标注任务。

实验结果如图4所示,我们的算法在商品Title和用户搜索Query的两个数据集上均取得最好的性能:

图4基于对抗网络的实体识别模型实验结果

2、基于规则与graph embedding迭代学习的知识图谱推理算法

知识图谱推理计算是补充和校验图谱关系及属性的必不可少的技术手段。规则和嵌入(Embedding)是两种不同的知识图谱推理的方式,并各有优劣,规则本身精确且人可理解,但大部分规则学习方法在大规模知识图谱上面临效率问题,而嵌入(Embedding)表示本身具有很强的特征捕捉能力,也能够应用到大规模复杂的知识图谱上,但好的嵌入表示依赖于训练信息的丰富程度,所以对稀疏的实体很难学到很好的嵌入表示。我们提出了一种迭代学习规则和嵌入的思路,在这项工作中我们利用表示学习来学习规则,并利用规则对稀疏的实体进行潜在三元组的预测,并将预测的三元组添加到嵌入表示的学习过程中,然后不断进行迭代学习。工作的整体框架如图5所示:

图5基于对抗网络的实体识别模型实验结果

嵌入学习优化的目标函数是:

其中:

lsro表示三元组的标记,表示三元组的评分函数,vs表示图谱三元组中主语(subject)的映射,Mr表示图谱中两个实体间关系的映射,vo表示图谱三元组中宾语(object)的映射。

基于学习到的规则(axiom),就可以进行推理执行了。通过一种迭代策略,先使用嵌入(Embedding)的方法从图谱中学习到规则,再将规则推理执行,将新增的关系再加入到图谱中,通过这种不断学习迭代的算法,能够将图谱中的关系预测做的越来越准。最终我们的算法取得了非常优秀的性能:

除了上述两项工作以外,在知识引擎技术的研发上我们还有一系列的前沿工作,取得了领先业界的效果,研究成果发表在AAAI、WWW、EMNLP、WSDM等会议上。

之后阿里巴巴知识图谱团队会持续推进藏经阁计划,构建通用可迁移的知识图谱算法,并将知识图谱里的数据输出到阿里巴巴内外部的各项应用之中,为这些应用插上AI的翅膀,成为阿里巴巴经济体乃至全社会的基础设施。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

藏经阁计划发布一年,阿里知识引擎有哪些技术突破?相关推荐

  1. 技术动态 | 藏经阁计划发布一年,阿里知识引擎有哪些技术突破?

    本文转载自公众号:阿里技术. 导读:2018年4月阿里巴巴业务平台事业部--知识图谱团队联合清华大学.浙江大学.中科院自动化所.中科院软件所.苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划. ...

  2. 阿里发布藏经阁计划:一年建成知识引擎服务平台

    允中 发自 凹非寺 量子位 出品 | 公众号 QbitAI 阿里巴巴又有新动作. 最近,阿里联合清华大学.浙江大学.中科院自动化所.软件所.苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划. 这 ...

  3. 知识图谱入门 (一) 知识图谱与语义技术概览

    欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 知识图谱与语义技术概览.主要介绍知识表示.知识抽取.知识存储.知识融合.知识推理.知识众包.语义搜索 ...

  4. 领域应用 | 阿里发布藏经阁计划,打造 AI 落地最强知识引擎

    如果没有知识引擎,人工智能将会怎样?知识引擎可以把数据加工成信息,信息和现有的知识通过推理能够获得新的知识,从而形成庞大的知识网络,像大脑一样支持各种决策. 你与智能音箱进行对话,背后就是基于知识引擎 ...

  5. 阿里发布藏经阁计划,打造 AI 落地最强知识引擎

    如果没有知识引擎,人工智能将会怎样?知识引擎可以把数据加工成信息,信息和现有的知识通过推理能够获得新的知识,从而形成庞大的知识网络,像大脑一样支持各种决策. 你与智能音箱进行对话,背后就是基于知识引擎 ...

  6. 藏经阁计划,阿里打造 AI 落地最强知识引擎

    来源 | 公众号:程序猿 如果没有知识引擎,人工智能将会怎样?知识引擎可以把数据加工成信息,信息和现有的知识通过推理能够获得新的知识,从而形成庞大的知识网络,像大脑一样支持各种决策. 你与智能音箱进行 ...

  7. 阿里巴巴发布首个知识引擎研究计划,联合清华浙大等五大高校攻坚AI推理

    近日,阿里巴巴宣布联合清华大学.浙江大学.中国科学院自动化所.中科院软件所.苏州大学 5 所高校发布「藏经阁」(知识引擎)研究计划.该计划以结构化的形式描述客观世界中概念.实体及其之间的关系,将互联网 ...

  8. 领域应用 | 智能导购?你只看到了阿里知识图谱冰山一角

    在刚刚结束的2017第四届世界互联网大会上,评选出了年度18项代表性的领先科技成果,阿里云ET大脑就是其中之一.众所周知,融合了先进的大数据.人工智能技术的阿里云ET大脑已经在智慧城市.智慧交通等众多 ...

  9. 阿里云数据库开源发布:PolarDB HTAP的功能特性和关键技术

    简介:在3月2日的阿里云开源 PolarDB 企业级架构发布会上,阿里云 PolarDB 内核技术专家严华带来了主题为<PolarDB HTAP详解>的精彩演讲.在PolarDB存储计算分 ...

最新文章

  1. 图挖掘与多关系学习:工具与应用,亚马逊与CMU-WWW2021教程(附ppt)
  2. python实现图结构github_Github项目+代码:新型深度网络体系结构去除图像中的雨水痕迹...
  3. Web开发学习点滴(持续更新)
  4. JQuery框架2.位置属性|筛选方法|事件
  5. POJ 2240 Arbitrage Bellman_ford 判读是否存在正环
  6. 《人工智能:一种现代的方法》总结 第二章
  7. 7.过渡案例:①进度条 ②小米图标翻转(父盒子一定要加初始值!!!)
  8. Eclipse输入或创建txt文件位置
  9. 软件测试好学吗 入门还是很好学的,但想要深造就还是要费功夫
  10. 程序员的自我修养--链接、装载与库笔记:第一章温故而知新
  11. 华为服务器如何登录修改密码,服务器登录修改密码
  12. [python] 分治法查找数组元素的最大值和最小值
  13. linux 默认路由 主机路由 网络路由
  14. 亲亲小嘴后,不应该就是摸摸小胸么
  15. 发表了的论文查重率过高怎么解决?
  16. Java·Lambda
  17. 【ACWing】327. 玉米田
  18. 文本分析3-jieba分词
  19. Apple 无线鼠标、键盘或触控板各型号的Mac系统要求和区别
  20. 我的世界java版建绿宝石农场_我的世界:你会用新版手动绿宝石农场吗?灾厄巡逻队搭配地狱门!...

热门文章

  1. 征文 | 第一届全国计算社会科学高端论坛
  2. 赞!经典教材《统计学习导论》终于有Python版了
  3. 图灵奖获得者Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」
  4. 香港大学自然语言处理实验室PhD/RA招生(HKU NLP)
  5. 刚刚!2020“中国高被引学者” 榜单发布:清华、北大、浙大位居内地前三!...
  6. SAP RETAIL 如何确定自动补货触发的单据类型 II
  7. 22 款神经网络的设计和可视化工具
  8. 基于深度学习的文本数据特征提取方法之Glove和FastText
  9. 「SAP技术」SE16和SE16N修改后台表数据方法
  10. 商汤科技总裁张文谈人工智能: 未来10年到20年会有巨大爆发 下一个井喷是AI+教育