【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning
本文主要讲述了 恶意server 如何在VFL环境下根据数据索引来还原完整的训练数据。
这里写目录标题
- 现有工作的不足
- 主要贡献
- 实现
- assumption & target
- 为什么大批量数据难以恢复?
- 原理
现有工作的不足
- 针对大批量训练数据还原存在诸多局限性(缺乏理论证明),通过加大训练的 batchsize 可以规避那些攻击。
- 条件过于苛刻,例如要求恢复的数据样本数量要远小于总类别数目。
主要贡献
- 利用 VFL 中 data index 的 internal representation alignments 的特性,对大批量的数据进行恢复。
- 通过逐层的还原,最终还原原始的训练数据:
We provide theoretical guarantees on the recovery performance of CAFE, which permeates three steps of CAFE: (I) recovering gradients of loss with respect to the outputs of the first fully connected (FC) layer; (II) recovering inputs to the first FC layer; (III) recovering the original data.
- 根据CAFE,还提出了一种利用 fake梯度 的防御措施。
实现
assumption & target
假设 server (本文为持有label控制更新哪些 index (后称id) 数据的参与者)为恶意攻击者,通过控制 id,来恢复每轮训练的数据。
为什么大批量数据难以恢复?
在VFL训练过程中,假设 batch size = K,即每回合更新 K 个训练数据,那么恢复样本这一过程可以看成如下优化目标:
根据公式可以发现,随着 K 的增加,原一批次的数据 DDD 和虚构的 对应的虚构数据 D^′\hat{D}'D^′ 的基数会增加,根据线性代数的理论,维度增加,解的数目也会增加,因此难以优化到正确的 D^′\hat{D}'D^′ 。
针对这一问题, CAFE 利用了 data index alignment,解决了大批量数据恢复难的问题。
原理
在VFL中,server 可以选定每轮更新哪些 id 对应的数据,因此,其可以创建一个由0和1组成的矩阵 st(数据集index总数量N×1)\boldsymbol{s}^{t}(数据集index总数量N\times1)st(数据集index总数量N×1) 来表示第 t 轮更新了哪些数据:
因此梯度可以表示为:
我们先来看一下模型的构造:
第一步,根据下式恢复 the gradients of loss w.r.t the outputs of the first FC layer:
第一步,根据下式恢复 Recover inputs to the first FC layer:
最后,根据下式恢复训练数据:
本文还设计了两种求解算法,如下:
【论文阅读】CAFE: Catastrophic Data Leakage in Vertical Federated Learning相关推荐
- 【论文阅读笔记】FLAME: Taming Backdoors in Federated Learning
个人阅读笔记,若有错误欢迎指正 会议: USENIX Security Symposium 2022 论文地址:[2101.02281] FLAME: Taming Backdoors in Fed ...
- 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey
文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...
- 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...
- Label Inference Attacks Against Vertical Federated Learning
USENIX Security 2022 摘要: 随着欧盟<通用数据保护条例>.中国<中华人民共和国数据安全法>等法案的颁布实施,联邦学习(Federated Learning ...
- 联邦学习 + 脏数据+Approaches to address the data skew problem in federated learning
Menu 联邦学习 Fair Resource Allocation in Federated Learning 背景 贡献 FedAvg q-FFL 解决方法 Fed Avg-Style q-Fai ...
- 基于联邦学习的多源异构数据融合算法 Multi-Source Heterogeneous Data Fusion Based on Federated Learning
5.基于联邦学习的多源异构数据融合算法 Multi-Source Heterogeneous Data Fusion Based on Federated Learning 摘要:随着科技的迅猛发展, ...
- 【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning
Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning 私有FL-GAN: ...
- 强化学习泛化性 综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING
强化学习泛化性 综述论文阅读 摘要 一.介绍 二.相关工作:强化学习子领域的survey 三.强化学习中的泛化的形式 3.1 监督学习中泛化性 3.2 强化学习泛化性背景 3.3 上下文马尔可夫决策过 ...
- 【论文阅读】Misshapen Pelvis Landmark Detection WithLocal-Global Feature Learning for DiagnosingDevelop
作者及团队:刘川斌 Chuanbin Liu; 谢洪涛; 张思成; 毛振东; 孙俊; 张永东 会议及时间:IEEE Transactions on Medical Imaging 2020-12| 期 ...
最新文章
- 沈阳构建智慧产业体系 大数据企业5年后将超200家
- jzoj1758-过河【dp】
- php中trim的用法和例子,PHP ltrim()用法及代码示例
- Servlet方法详解
- 最近和前字节跳动大佬聊了聊今年春招面试的变化
- 猜数字(HDU-2178)
- 让你的 Node.js 应用跑得更快的 10 个技巧
- repo sync代码断点续传
- 「洛谷5017」「NOIP2018」摆渡车【DP,经典好题】
- android数据适配器参数,Android 万能适配器BRVAH
- 行人重识别论文阅读1-Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification
- 包引入中,在包名前使用下划线“_”
- 《愤怒的小鸟大电影》分析报告
- tf.flags.DEFINE解释
- postfix 安装
- 工业相机和镜头选型技巧
- 照片制作手机壳,定制手机壳diy需要什么设备?
- 谷歌浏览器同步后出现重复书签——查找出重复的标签,然后手动清除
- LDA主题模型1——数学基础
- DOSBOX的简单使用
热门文章
- 2019重大信息安全事件_公安部通报“净网2019”专项行动典型案例-新华网
- 让开发者成为创新主体 | 阿里云云原生4月动态
- 微型USB电缆的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
- 安卓webview显示网页字体模糊的问题
- 数字图像处理基础:教你如何区分单色图像、灰度图像、伪彩色图像、真彩色图像
- Java23种设计模式之观察者模式
- 如何实现晶圆载具ACSII码条码数据与TI玻璃管RFID标签16进制数据匹配
- android指定日期闹钟,设置一次某个日期和时间的闹钟Android
- 实用干货| 教你一键实现微信小程序转APP
- struts2 checkboxlist标签使用的详细说明