论文阅读------Stochastic Gradient Descent with Differentially Private updates

SGD
- 代价函数
- 正则化描述
- 训练过程
- 梯度偏导
- 参数更新
- 批次更新
差分隐私SGD
- 条件
- 动态调节
实验
- 比较批次与数据数量
- 比较批次与学习率

SGD

代价函数

对于不同批量数量不一的数据，使用相同的代价函数求和进行激励计算，具体的函数描述为：1n∑i=1nl(w,xi,yi)\frac{1}{n}\sum_{i=1}^n l(w,x_i,y_i)n1∑i=1nl(w,xi,yi)

正则化描述

使用范式对其进行正则化，分为L1L1L1正则化与L2L2L2正则化，于是对w进行正则化后得到的结果为：（使用的是L2L2L2正则化）

w∗=λ2∣∣w∣∣2+1n∑i=1nl(w,xi,yi)w^*=\frac{\lambda}{2}||w||^2+\frac{1}{n}\sum_{i=1}^n l(w,x_i,y_i)w∗=2λ∣∣w∣∣2+n1∑i=1nl(w,xi,yi)
这里的λ\lambdaλ为正则化参数，w∗w^*w∗为在损失函数约束下的L2L2L2正则化。

训练过程

目标是让代价函数最小，于是具体的过程为：
min⁡(1n∑i=1nl(w,xi,yi))\min(\frac{1}{n}\sum_{i=1}^n l(w,x_i,y_i))min(n1∑i=1nl(w,xi,yi))

加上w的正则化后，训练过程为：
min⁡(λ2∣∣w∣∣2+1n∑i=1nl(w,xi,yi))\min(\frac{\lambda}{2}||w||^2+\frac{1}{n}\sum_{i=1}^n l(w,x_i,y_i))min(2λ∣∣w∣∣2+n1∑i=1nl(w,xi,yi))

梯度偏导

原先的梯度求法为直接求取：
▽l(w,xi,yi)\bigtriangledown l(w,x_i,y_i)▽l(w,xi,yi)

L2L2L2正则化之后的梯度还需要对正则参数那部分求导：
λw+▽l(wt,xi,yi)\lambda w+\bigtriangledown l(w_t,x_i,y_i)λw+▽l(wt,xi,yi)

参数更新

一般的参数更新：
wt+1=wt−ηt▽l(wt,xi,yi)w_{t+1}=w_t-\eta_t\bigtriangledown l(w_t,x_i,y_i)wt+1=wt−ηt▽l(wt,xi,yi)

正则化之后的参数更新：
wt+1=wt−ηt(λwt+▽l(wt,xi,yi))w_{t+1}=w_t-\eta_t(\lambda w_t+\bigtriangledown l(w_t,x_i,y_i))wt+1=wt−ηt(λwt+▽l(wt,xi,yi))

批次更新

批次是原先数据样本的均匀采样，通过批次样本来表示全体目标，具体的更新为：
wt+1=wt−ηt(λwt+1b∑Bt▽l(wt,xi,yi))w_{t+1}=w_t-\eta_t(\lambda w_t+\frac{1}{b}\sum_{B_t}\bigtriangledown l(w_t,x_i,y_i))wt+1=wt−ηt(λwt+b1∑Bt▽l(wt,xi,yi))
BtB_tBt为具体的批次，其数量为b。

差分隐私SGD

差分隐私在原先的梯度上添加噪声来实现差分隐私，具体的噪声服从分布：e−α2∣∣z∣∣e^{-\frac{\alpha}{2}||z||}e−2α∣∣z∣∣，或与其成正比。

于是SGD的更新为：
wt+1=wt−ηt(λwt+▽l(wt,xi,yi)+Zt)w_{t+1}=w_t-\eta_t(\lambda w_t+\bigtriangledown l(w_t,x_i,y_i)+Z_t)wt+1=wt−ηt(λwt+▽l(wt,xi,yi)+Zt)

相应的批次更新为：
wt+1=wt−ηt(λwt+1b∑Bt▽l(wt,xi,yi)+1bZt)w_{t+1}=w_t-\eta_t(\lambda w_t+\frac{1}{b}\sum_{B_t}\bigtriangledown l(w_t,x_i,y_i)+\frac{1}{b}Z_t)wt+1=wt−ηt(λwt+b1∑Bt▽l(wt,xi,yi)+b1Zt)

条件

如果w0w_0w0的初始化选择是与数据无关的，并且批次的划分是不相交的，并且限制梯度的一阶范数∣∣▽l(wt,xi,yi)∣∣≤1||\bigtriangledown l(w_t,x_i,y_i)||\le1∣∣▽l(wt,xi,yi)∣∣≤1，则对应的SGD是满足α−\alpha-α−差分隐私的。

相应的证明需要结合每次更新的全局敏感度是2ηtb\frac{2\eta_t}{b}b2ηt，并且相应的隐私并未因批次采样而受到影响，因为采样的数据之间是互不相交的。

动态调节

每一次批次训练中，都会有一个隐私参数α\alphaα，对应的在训练的不同批次中，可以动态的调节α\alphaα的值，进而调节噪声分布，以实现不同程度的差分隐私。

实验

比较批次与数据数量

批次内数据的数量增加后，相应的隐私保护与非隐私保护之间的差别明显减小，并且大批量的数据具有更好的效率。
（横轴为迭代次数，纵轴为观察的目标值）

比较批次与学习率

批次产生的影响是随着数量增加先增后减。不同的学习率产生的影响也不同，1t\frac{1}{\sqrt{t}}t1优于10t\frac{10}{\sqrt{t}}t10。
（横轴为迭代次数，纵轴为观察的目标值）