现有工作的不足

针对大批量训练数据还原存在诸多局限性（缺乏理论证明），通过加大训练的 batchsize 可以规避那些攻击。
条件过于苛刻，例如要求恢复的数据样本数量要远小于总类别数目。

主要贡献

利用 VFL 中 data index 的 internal representation alignments 的特性，对大批量的数据进行恢复。
通过逐层的还原，最终还原原始的训练数据：

We provide theoretical guarantees on the recovery performance of CAFE, which permeates three steps of CAFE: (I) recovering gradients of loss with respect to the outputs of the first fully connected (FC) layer; (II) recovering inputs to the first FC layer; (III) recovering the original data.

根据CAFE，还提出了一种利用 fake梯度的防御措施。

实现

assumption & target

假设 server （本文为持有label控制更新哪些 index （后称id）数据的参与者）为恶意攻击者，通过控制 id，来恢复每轮训练的数据。

为什么大批量数据难以恢复？

在VFL训练过程中，假设 batch size = K，即每回合更新 K 个训练数据，那么恢复样本这一过程可以看成如下优化目标：

根据公式可以发现，随着 K 的增加，原一批次的数据 DDD 和虚构的对应的虚构数据 D^′\hat{D}'D^′ 的基数会增加，根据线性代数的理论，维度增加，解的数目也会增加，因此难以优化到正确的 D^′\hat{D}'D^′ 。

针对这一问题， CAFE 利用了 data index alignment，解决了大批量数据恢复难的问题。

原理

在VFL中，server 可以选定每轮更新哪些 id 对应的数据，因此，其可以创建一个由0和1组成的矩阵 st(数据集index总数量N×1)\boldsymbol{s}^{t}(数据集index总数量N\times1)st(数据集index总数量N×1) 来表示第 t 轮更新了哪些数据：

因此梯度可以表示为：

我们先来看一下模型的构造：

第一步，根据下式恢复 the gradients of loss w.r.t the outputs of the first FC layer：

第一步，根据下式恢复 Recover inputs to the first FC layer：

最后，根据下式恢复训练数据：

本文还设计了两种求解算法，如下：

【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning相关推荐

【论文阅读笔记】FLAME: Taming Backdoors in Federated Learning
个人阅读笔记,若有错误欢迎指正会议: USENIX Security Symposium 2022 论文地址:[2101.02281] FLAME: Taming Backdoors in Fed ...
论文阅读：Natural Language Processing Advancements By Deep Learning: A Survey
文章目录一.介绍二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机三.NLP领域的核心概念 ...
论文阅读【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...
Label Inference Attacks Against Vertical Federated Learning
USENIX Security 2022 摘要: 随着欧盟<通用数据保护条例>.中国<中华人民共和国数据安全法>等法案的颁布实施,联邦学习(Federated Learning ...
联邦学习 + 脏数据+Approaches to address the data skew problem in federated learning
Menu 联邦学习 Fair Resource Allocation in Federated Learning 背景贡献 FedAvg q-FFL 解决方法 Fed Avg-Style q-Fai ...
基于联邦学习的多源异构数据融合算法 Multi-Source Heterogeneous Data Fusion Based on Federated Learning
5.基于联邦学习的多源异构数据融合算法 Multi-Source Heterogeneous Data Fusion Based on Federated Learning 摘要:随着科技的迅猛发展, ...
【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning
Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning 私有FL-GAN: ...
强化学习泛化性综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING
强化学习泛化性综述论文阅读摘要一.介绍二.相关工作:强化学习子领域的survey 三.强化学习中的泛化的形式 3.1 监督学习中泛化性 3.2 强化学习泛化性背景 3.3 上下文马尔可夫决策过 ...
【论文阅读】Misshapen Pelvis Landmark Detection WithLocal-Global Feature Learning for DiagnosingDevelop
作者及团队:刘川斌 Chuanbin Liu; 谢洪涛; 张思成; 毛振东; 孙俊; 张永东会议及时间:IEEE Transactions on Medical Imaging 2020-12| 期 ...

【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning

这里写目录标题

现有工作的不足

主要贡献

实现

assumption & target

为什么大批量数据难以恢复？

原理

【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning相关推荐

最新文章

热门文章