【总结】Clustered Sampling 小结

(2条消息) 【论文复现3】算法2——Clustered sampling based on model similarity_admin11111111的博客-CSDN博客https://blog.csdn.net/admin11111111/article/details/121072203#comments_19068693

一、对于梯度的修改

接着上篇的思路，只有在local_learning中对梯度进行修改才算是真正意义上的worker遭受到攻击。于是有下面的代码：

def local_learning(model, mu: float, optimizer, train_data, n_SGD: int, loss_f, k):model_0 = deepcopy(model)for _ in range(n_SGD):features, labels = next(iter(train_data))features_ = features.to(DEVICE)  # 1013labels_ = labels.to(DEVICE)  # 1013optimizer.zero_grad()predictions = model(features_)batch_loss = loss_f(predictions, labels_)batch_loss += mu / 2 * difference_models_norm_2(model, model_0)batch_loss.backward()# 1122 改变4个worker的梯度AT = 1  # 设置攻击者类型if AT == 0:attack_type = backwardelif AT == 1:attack_type = random_attackelif AT == 2:attack_type = same_value_attackelse:raise Exception("No such type of attack!")# 1124attacker_count = 0ATTACK_WORKER = 4  # 设置攻击者数量if attacker_count < ATTACK_WORKER:for param in model.parameters():param.grad = attack_type(param.grad)attacker_count += 1optimizer.step()

实验结果：

很明显，对于worker的攻击产生效果了。不过这个攻击worker占比40%还是太高了。接下来需要对比一下，10%，20%，30%的情况看看。

？？？还有一个疑问点有待解决，在backward和same_value_attack时，会报错：The condensed distance matrix must contain only finite values。至于为什么会出现NaN可能与聚类的ward方法有关。

不过在StackOverflow上有相关的解答，明天试试看。ValueError: The condensed distance matrix must contain only finite values. in python - Stack Overflowhttps://stackoverflow.com/questions/68039205/valueerror-the-condensed-distance-matrix-must-contain-only-finite-values-in-py

二、对于样本量的修改

之前修改样本量是直接在算法里面改的，虽然效果一样，但这个也是不合理的。因为这里给的是weights数组来表示各个worker的数据量占比大小的，因此只需要调整weights数组即可，然后也实现了对于篡改worker的数据量也能影响到算法稳定性。实验结果如下：

这里也是修改了四个worker的数据量，让他们的数据量占比提高10倍，其实真实数据量还是相同的。

至此，符合预期的结果都出来了。接下来进一步的想法就是改变聚类方法或者相似性方法了。