来源 | ACT_BIGDATA

本文介绍我们最近的一项被CIKM 2021录用的工作《Differentially Private Federated Knowledge Graphs Embedding》:

Paper:https://arxiv.org/abs/2105.07615

摘要

知识图谱嵌入在知识表示、推理和数据挖掘等应用中起着十分重要的作用。然而,对于多个跨领域的知识图谱来说,目前最先进的嵌入模型无法在保护数据交换过程中产生的隐私的同时,充分利用来自不同知识领域的数据和信息。并且集中式的嵌入模型无法拓展到广泛的现实世界的知识图谱中。

因此,我们提出了一种新颖的去中心化的可拓展学习框架——Federated Knowledge Graphs Embedding(FKGE),实现了在保护隐私的同时以异步和对等的方式学习不同知识图谱的嵌入

FKGE 利用成对的知识图谱间的对抗生成将不同领域的相同实体和关系转换到临近嵌入空间。为了保护训练数据的隐私,FKGE进一步实现了隐私保护对抗模型(PPAT),来保证原始数据不被泄露。我们进行了大量的实验来评估11个知识图谱上的FKGE模型,三重分类和链路预测任务的性能提高了近17.85%和7.9%,这证明了我们模型的质量取得了显著且一致的改进。

研究背景

知识图谱(KGs)的构建推动了很多应用的发展,如语义搜索、推荐系统等。目前已有几个大型通用的KGs,如Wikidata、Yago等。还有很多各种规模的专业领域的KGs,如地理学中的GeoNames 和语言学中的Lexvo。

然而大多数公司建立自己的商业KGs往往需要耗费很大的人力和计算成本。除了保护隐私外还有很多其他原因使得他们不愿分享自己的KGs。但很多时候,公司又必须通过交换信息来改善自己的数据质量和服务。

目前的知识图谱嵌入模型在对实体和关系进行向量表示时,当不同的KGs的嵌入空间对齐,则他们可以共享信息。但是向其他参与者透露向量表示会泄露隐私信息。即无法满足既想共享信息又想保护隐私的愿望。因此,我们希望设计一种更松散耦合的合理的方式来共享KGs。

我们引入允许多个数据所有者在不影响数据隐私的情况下协作构建模型的联邦学习,经过联合训练后,每个KG仍然不知道其他KGs的嵌入空间,但每个KG的嵌入却得到了改善。另外,在PPAT网络中引入的差分隐私(DP)机制可以保证:在训练每对对齐实体的嵌入时,任一单个的嵌入不会被泄露。这也允许我们针对不同的KGs使用不同的基础KG嵌入模型。

模型框架介绍

我们将来自分别独立的拥有者的知识图谱的集合表示为

































,其中N表示KGs的总数量。







内每个元素都来自于不同的数据库,并且不能互相访问。用表示







内的第k个知识图谱,其中,





























分别表示







中实体、关系和三元组的集合。每个三元组

















由一个头实体











、一个尾实体











和一个两者之间的关系











组成。对于







内的任何一对知识图谱














,我们假设通过秘密哈希函数可以得到对齐实体集
















和关系集
















。我们的目标是利用得到的对齐实体集和关系集进一步改进任一单个知识图谱的所有嵌入。

下图是FKGE的整体框架。每个知识图谱的拥有者在本地训练自己的实体









和关系









的嵌入,基于训练后的嵌入,FKGE从成对的KGs聚合对齐实体和关系的嵌入,然后以联邦学习的方式更新嵌入。对于来自任何一对知识图谱(如:














)的对齐实体和嵌入,FKGE存在一个秘密通道来优化

































的嵌入,并进一步分别改进每个知识图谱内

































的嵌入。另外,FKGE提出了一种联合训练机制:通过广播来促进各方的共同进步。更具体地说,如果















得到了改进,那么它将向其他KGs广播信号来进一步提高整体结果。否则,它将会变回联合前的原始嵌入。

通过下面的例子并配合上图,来更清晰地介绍FKGE框架。起初,







,







,







分别在本地训练自己的嵌入,第一次联合得到了














,





























三对KGs,联合后















得到了改进,而







训练所需的时间更久且没有得到改进,所以







回到了最初的嵌入。在第二次联合中,















配对得到了





























,并且只有







得到了改进,







则会回溯到先前的嵌入。由于







仍然在训练过程中,它将不参与第二次联合并在没有可以配对的KG存在时进入睡眠状态。第三次联合中







完成了训练并唤醒了







,形成了














,





























三对知识图谱。整个训练将在所有KGs都没有改进时结束。

模型设计详述

PPAT——隐私保护对抗模型

对于具有对齐实体
















和关系































,FKGE利用GAN结构统一对齐实体和关系的嵌入。但是由于神经模型可能会记得输入并且能够从对应的输出中重建输入,隐私忧患仍然存在。为进一步解决隐私问题,我们引入差分隐私将生成的嵌入私有化。由于包含和排除某个特定的嵌入不会对结果分布产生很大的影响,所以差分隐私能够为保护生成器输出的任何单个的嵌入提供强有力的保证。差分隐私的定义如下:

定义1(相邻数据集):如果





















,那么我们称









为相邻数据集。

定义2(差分隐私):对于任意两个相邻数据集









以及输出的任何一个子集











),如果存在一个域为




、范围为




的随机算法




满足下式,则称




可以提供








-差分隐私:

其中,




表示隐私预算。由于相邻数据集的算法输出相近,所以




越小,隐私保护效果越好,模型效用也越低。




表示信息意外泄露的概率。基于上面的定义,PATE-GAN提出了一种修订的GAN结构,通过将PATE机制和教师、学生鉴别器一起应用来生成差异私有的生成器输出。基于上面的说明,我们实现了PPAT网络。

PPAT网络的结构如上图。PPAT网络将原来GAN结构中的鉴别器替换为多个教师鉴别器和一个学生鉴别器,以实现生成嵌入的差分私有。具有参数







(也就是平移映射矩阵




)的生成器




位于







的数据库内,具有参数







的学生鉴别器




和具有参数




























的多个教师鉴别器





























位于







的数据库内。







代表客户端,







代表主机。主机负责生成器和所有鉴别器的反向传播计算,而客户端仅传输其生成的嵌入并接收梯度以更新其生成器参数。我们用

























表示









































的嵌入,用

























表示









































的嵌入。生成器




的目标是通过让







尽可能相似于




生成对抗样本,使学生鉴别器




无法区分出它们。生成器损失的目标函数为:

其中,










,S表示学生鉴别器。

教师鉴别器的学习目标和原始鉴别器相同——区分假样本







和真实样本




。唯一的区别是,教师鉴别器是在不相交的子集上训练的。教师鉴别器的损失为:

其中,







表示由







的数据集









组成的满足


















的一个子集,不同子集间没有交集。

学生鉴别器S的学习目标是对给定了聚合噪声标签的生成样本进行分类。更确切地说,教师鉴别器的预测结果和随机注入的拉普拉斯噪声将决定S的标签。PATE机制如下:

其中,







,







是两个独立同分布的引入到教师鉴别器预测结果中的噪声,并且都呈参数为




的拉普拉斯分布。










表示将输入




预测为类别




的教师的数量:

然后学生鉴别器利用带有噪声标签的生成样本在主机数据库上进行训练,学生鉴别器损失函数为:

其中,





















,即教师鉴别器选出的聚合噪声标签。

PPAT模型的流程大致如下:X中对齐实体和关系的原始嵌入被提供给生成器来生成对抗样本,之后会被传输到主机的所有教师鉴别器。通过在教师鉴别器的选择结果中添加拉普拉斯噪声满足差分隐私的要求。然后学生鉴别器由带有聚合标签的合成嵌入训练,其中包含教师鉴别器选出的0/1。The Post-Processing Theorem说明数据独立映射f与差分私有的算法M的组合也是差分私有的。根据该定理,学生鉴别器S也是差分私有的,这是因为它被差分私有的标签训练。另外,生成器G也是差分私有的,是因为G由学生鉴别器S训练。因此传输的嵌入是合成且差分私有的,是因为它们是生成器G的输出。在训练过程中,主机在本地计算生成器和所有鉴别器的损失函数:使用学生鉴别器损失和教师鉴别器损失的梯度在本地更新鉴别器的参数,同时生成器损失的梯度返回给生成器以更新其参数。因此,















都无法访问对方的嵌入或是原始数据。因此,对于知识图谱所有者的任何参与者,原始数据的隐私都受到保护。

联合训练

对于多个知识图谱,我们在







中的任一对














间构造PPAT网络,其中,





































,所以最多可以同时得到



















个PPAT网络。对于任一对知识图谱














,至少分别存在一个客户端和一个主机。另外,异步和去中心化的设置允许单个知识图谱拥有者选择是否与其他拥有者合作。合作过程可以被描述为握手协议。







存在ready、busy、sleep三种状态。Ready表明







拥有可用的计算资源并且积极与其他KGs合作。Busy表明







没有足够的资源,此时不会响应任何的合作请求。并且,合作者将会被放进队列,直至







完成工作准备好进行合作。Sleep表示尽管







具有计算资源,但是不会接受任何合作请求。也就是说,如果ready时不能找到一个合作者,那么就会转换为sleep,并会在特定时间段或是收到合作请求后唤醒到ready状态。















之间成功的握手协议需要,并且至少二者之一为ready状态。

实验与论证

我们选取11个不同规模的知识图谱,使用相同类型的具有相同配置的GPU设备在11个独立进程上进行所有的对比实验。FKGE 框架与不同的 KGE 方法兼容。我们选择OpenKE中流行且简单的基于翻译的模型:TransE、TransH、TransR 和 TransD,来评估三重分类和链路预测任务下不同方法的性能。两个任务的实验结果均表明了FKGE模型的有效性和适应性。


另外,我们还进行了消融研究,在对齐实体和关系的有效性、对齐实体的规模、嵌入维度和噪声规模四个方面验证了FKGE的有效性。最后还在实验的时间成本上论证了FKGE的可拓展性。

综述

本篇论文提出了一种新型的知识图谱嵌入模型(FKGE),它具有以下特征:

  1. 异步和去中心化:与基于客户端的集中模型不同,FKGE 将来自不同域的 KG 与对抗性网络配对。

  2. 可拓展并可与很多基础嵌入模型兼容:异步和去中心化的设置使得配对的知识图谱之间可以并行计算。此外,FKGE 可以通过握手协议作为现有 KG 嵌入方法的元算法。

  3. 保护隐私,保证原始数据不被泄露:FKGE 的设计不需要合作者之间的原始数据传输,并且传输的生成嵌入是差分私有。

Code:https://github.com/HKUST-KnowComp/FKGE

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定要备注信息才能通过)

END -

大规模搜索+预训练,百度是如何落地的?

2021-08-17

万物皆可Graph | 当推荐系统遇上图神经网络(三)

2021-08-16

文本匹配开山之作--双塔模型及实战

2021-08-13

聊一聊大火的对比学习

2021-08-12

FKGE:合格的知识图谱嵌入已经学会保护隐私啦!相关推荐

  1. CIKM 2021 | FKGE:差分隐私的联邦知识图谱嵌入

    本文介绍我们最近的一项被CIKM 2021录用的工作<Differentially Private Federated Knowledge Graphs Embedding>: Paper ...

  2. 半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE

    出品 | AI科技大本营(ID:rgznai100) 知识图谱 (Knowledge Graph)作为一个重要的技术,在近几年里被广泛运用在了信息检索,自然语言处理,以及推荐系统等各种领域.学习知识图 ...

  3. 【WWW2021】高效的非抽样知识图谱嵌入

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源:专知本文附论文,建议阅读5分钟NS-KGE的基本思想是在模型学 ...

  4. 半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架

    来源:AI 科技大本营 本文约2300字,建议阅读9分钟 亚马逊 AI 团队开源了一款专门针对大规模知识图谱嵌入表示的新训练框架 DGL-KE,能让研究人员和工业界用户方便.快速地在大规模知识图谱数据 ...

  5. ACL 2020 | 用于链接预测的开放知识图谱嵌入

    ©PaperWeekly 原创 · 作者|舒意恒 学校|南京大学硕士生 研究方向|知识图谱 当前大量的知识图谱都是通过文本直接构建的.由于当前的知识图谱构建方法的局限性,其中难免包含对同一实体或关系的 ...

  6. 论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入

    笔记整理:黎洲波,浙江大学硕士,研究方向为自然语言处理.知识图谱. 研究背景 知识图谱因其在问答.语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注,而大部分知识图谱都存在不全和缺失实体链接的 ...

  7. 论文浅尝 - ICLR2020 | You Can Teach an Old Dog New Tricks!关于训练知识图谱嵌入

    论文笔记整理:谭亦鸣,东南大学博士生. 来源:ICLR2020 链接:https://openreview.net/pdf?id=BkxSmlBFvr KG embedding(KGE)模型的目标是学 ...

  8. 论文浅尝 - ACL2020 | 用于链接预测的开放知识图谱嵌入

    本文转载自公众号:PaperWeekly. 作者:舒意恒,南京大学硕士,研究方向:知识图谱. 当前大量的知识图谱都是通过文本直接构建的.由于当前的知识图谱构建方法的局限性,其中难免包含对同一实体或关系 ...

  9. 论文浅尝 | 区分概念和实例的知识图谱嵌入方法

    链接:https://arxiv.org/pdf/1811.04588.pdf 知识图谱的表示学习最近几年被广泛研究,表示学习的结果对知识图谱补全和信息抽取都有很大帮助.本文提出了一种新的区分概念和实 ...

最新文章

  1. 北工大计算机学院教授,北工大计算机学院计算机科学与技术导师介绍:杨宇光...
  2. RHEL 6.5 安装 was 8.5
  3. 细胞自动机 通用计算机,细胞自动机
  4. 2020年CNCF和开源项目开发速度
  5. Axure教程 axure新手入门基础(3) 简单易上手
  6. ANSI/UTF-8/UCS2(UTF-16),以及回车换行
  7. leetcode题库53-- 最大子序和
  8. C#之double内存
  9. 书店管理系统(C++初学者友好版)
  10. Qt的http下载的Demo
  11. linux服务器挂掉之后
  12. kali 基于虚拟机下载
  13. 从一无所有,到整个世界-梁宁·产品思维30讲
  14. IBM服务器无法启动怎么恢复
  15. java类的软考有哪些科目_软考各级别各科目考试分析
  16. Android中的多线程编程与异步处理
  17. 条件判断————8.判断闰年
  18. 天道酬勤系列之C++ 循环介绍
  19. NYOJ 304 节能(DP)
  20. ShareMouse ,解决鼠标失灵的问题

热门文章

  1. SAP License:赛锐信息访谈启示录(三)
  2. SAP License:COPA特性值转换
  3. SAP全日志管理系统(堡垒机)
  4. 基于 Canal 和 Kafka 实现 MySQL 的 Binlog 近实时同步
  5. java编程思想 Chapter 2
  6. 电脑控制Android设备的软件——Total Control
  7. 意见簿---在批评中成长
  8. java.lang.UnsatisfiedLinkError: Couldn't load vi_voslib from loader dalvik.system.PathClassLoader
  9. 代码编译方式 ant +ivy
  10. Oracle Spatial 创建空间表、添加空间原表信息、添加删除空间索引