[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems
摘要
推荐系统主要基于用户历史交互数据(例如,先前点击或搜索的项目)进行预测。在收集用户行为数据以构建推荐模型时,存在隐私泄露的风险。然而,现有的隐私保护解决方案仅设计用于在模型训练和结果收集阶段解决隐私问题。当直接与组织共享私人用户交互数据或将其发布给公众时,隐私泄露问题仍然存在。为了解决这个问题,在本文中,我们提出了一种用户隐私可控合成数据生成模型(UPC-SDG),该模型基于用户的隐私偏好为用户生成合成交互数据。
具体来说,
在data层面,我们设计了一个选择模块,从用户交互数据中选择那些对用户偏好贡献较小的items。
在item级别,提出了一个合成数据生成模块,以根据用户的偏好生成与所选项目相对应的synthetic item。
此外,我们还提出了一种隐私实用性权衡策略,以平衡合成数据的隐私和实用性。
在三个可公开访问的数据集上进行了广泛的实验和消融研究,以证明我们的方法在生成未充分利用用户隐私偏好的合成数据方面的有效性
1 引言
现有解决方案仍存在以下三个局限性:
(1)通信和计算成本。分散方法中的数据传输和本地计算使这些方法难以应用于现实世界的推荐场景;
(2)数据共享或发布的风险。在与其他组织明确共享数据或将原始数据存储在公共场所(例如,公共云)时,存在相当大的隐私泄露风险;
(3)对于不同的推荐场景,用户有不同的隐私偏好。例如,用户会更关注他们的医疗和财务信息隐私保护,而不是杂货购买记录。现有解决方案在构建推荐系统时忽略了用户隐私偏好。
总之,这项工作的主要贡献总结如下:
我们从隐私角度强调了现有推荐系统的局限性。受此启发,我们提出了一种新的UPC-SDG模型,该模型在用户隐私偏好下从原始数据生成保护隐私的合成数据。
在data层面,我们提出一个选择模块,以选择对用户偏好贡献较小的利润。
在utility层面,开发了一个合成物品生成模块来创建相应的合成物品。
为了最大化合成物品的效用,同时为原始物品提供必要的隐私保护,我们提出了一种隐私效用权衡策略,以优化综合项目生成过程。
我们在三个真实数据集上进行了广泛的实验,以验证我们的模型,并进行了全面的消融研究,以验证模型的关键假设。实验结果证明了该方法的有效性
2 相关工作
2.2 保护隐私的合成数据
数据的公开发布和自由交换将有利于研究和开发,但对于具有隐私影响的敏感数据(如临床和基因组学数据)来说并不总是可行的。
针对这一隐私挑战,已提出了两大类解决方案。
在第一类中,基于数据匿名化的方法(2,36)试图使用各种定义来净化数据,以使其不容易被重新识别。例如,Barak等人。[2]通过将噪声添加到傅里叶系数来从原始数据构建期望的数据。
尽管这些方法有一些重要的用例,但它们通常不是基于能够抵御各种类型的身份识别攻击的严格的隐私定义。
在第二类中,已经提出了使用严格的差分隐私定义(1、3、9)生成真实合成数据的方法。为了最大化数据的效用,生成的合成数据的分布应尽可能接近原始数据集的分布。
尽管如此,它不应该包含太接近真实数据实例的合成示例,因为原始数据等的隐私可能会受到损害。
特别是,Acs等人[1]首先使用私有内核k均值将理论原始数据集聚类为k个聚类。之后,采用生成神经网络为每个聚类生成合成。
Bindschaedler等人。3]引入了看似合理的可否认性,而不是直接将噪声添加到生成模型中。隐私阈值确保了发布合成数据时可信的可否认性。在这里,对手无法通过观察合成记录来判断特定输入是否属于原始数据。
Cunningham等人。(9)提出了两种具有高度实用性的方法,用于从重新定位生成合成位置数据,这两种方法都保护了每个个体在原始数据集中的存在和真实位置。
3 本文的模型
3.1 Preliminaries
3.1.2 隐私定义
3.3 合成数据生成
3.3.1 Data Level
3.3.2 Item Level
隐私效用权衡策略:
使用隐私规则器来限制所选原始项目和生成的合成项目之间的相对相似性差异。
敏感度γ被用作安全余量,即所选原始项目和生成的合成项目之间的相似度在一定范围内被容忍。
用户u如果更喜欢该项目,会给合成项目更高的分数。
隐私效用权衡策略的最终损失函数公式为(15)
[SIGIR 2022] Privacy-Preserving Synthetic Data Generation for Recommendation Systems相关推荐
- 【FL-GAN】Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning
Private FL-GAN: Differential Privacy Synthetic Data Generation Based on Federated Learning 私有FL-GAN: ...
- #Reading Paper# 【序列推荐】SIGIR 2022 Decoupled Side Information Fusion for Sequential Recommendation
#论文题目:[序列推荐]Decoupled Side Information Fusion for Sequential Recommendation(DIF-SR:用于序列推荐的辅助信息解耦) #论 ...
- SIGIR 2022 | 推荐系统相关论文分类整理
大家好,我是对白. ACM SIGIR 2022是CCF A类会议,人工智能领域智能信息检索( Information Retrieval,IR)方向最权威的国际会议.会议专注于信息的存储.检索和传播 ...
- Advances and Open Problems in Federated Learning——4.Preserving the Privacy of User Data翻译
4.Preserving the Privacy of User Data 机器学习的工作流程需要许多不同功能的共同参与.比如说,用户可能会在与他的其他设备交互的过程中产生训练数据,一个机器学习训 ...
- A Glance at Secure Multiparty Computation for Privacy Preserving Data Mining论文总结
A Glance at Secure Multiparty Computation for Privacy Preserving Data Mining论文总结 Abstract I. INTRODU ...
- 阿里云机器学习平台PAI与华东师范大学论文入选SIGIR 2022
阿里云机器学习平台PAI与华东师范大学高明教授团队合作在SIGIR2022上发表了结构感知的稀疏注意力Transformer模型SASA,这是面向长代码序列的Transformer模型优化方法,致力于 ...
- 阿里妈妈技术团队5篇论文入选 SIGIR 2022!
近日,第 45 届国际信息检索大会(The 45th International ACM SIGIR Conference on Research and Development in Informa ...
- 2021WSB-day3-1 - Arun Ross 老师讲解Privacy Preserving Biometrics
听百家之言,集百家智慧,站在巨人肩上攀登 MSU的Arun Ross教授讲解了Privacy Preserving Biometrics 文章目录 隐私的重要性 Biometrics Identity ...
- MMoE论文中Synthetic Data生成代码(控制多任务学习中任务之间的相关性)
Synthetic Data 一. 前言 二. 程序实现 2.1 生成一条数据 2.2 生成一组相关系数为p的数据集 2.3 权重系数的余弦相似度与标签相关系数之间的关系 一. 前言 在MMoE论文中 ...
最新文章
- ★如何证明自己不是精神病?
- OSGi入门篇:模块层
- SpringCloud(若依微服务版)读取Nacos中的配置以及多个服务共享Nacos配置的使用
- ReentrantLock 源码分析
- 关于推荐系统的一些小结
- CSS改变input光标颜色
- Spark-shell 脚本批量执行命令,命令行批量执行命令
- python类定义中__init__()_转:python学习——类中为什么要定义__init__()方法
- [220208] Add Digits
- 手把手教你如何用 TensorFlow 实现基于 DNN 的文本分类
- 湖南城市学院计算机题库和答案,湖南城市学院 计算机选择题题库
- new对象时,类名后加括号与不加括号的区别
- C语言实现程序的暂停
- opencv-python——基于标志物的道路逆透视变换
- 论神奇宝贝小智精灵联盟名次的类指数型变化
- 使用AcronisTrueImage 2020迁移thinkpad x1 carbon 2016(4th gen) win10系统到1t的固态硬盘970evoPlus的过程
- 张量网络算法基础(二、量子态、量子算符)
- it行业计算机考试认证全集
- 十五、《大数据项目实战之用户行为分析》HBase数据表操作
- 30岁开始学编程,学什么语言比较好?
热门文章
- java 抓取 flash 控件,java-从Flash抓取数据(游戏)
- CDN及P2P技术在流媒体网络中的应用
- 分享一个简单粗暴的网赚项目:怎么利用音频赚钱?
- AutoIt3 使用进程名获取窗口句柄
- 河北师范大学的计算机专业好吗,河北师范大学计算机科学与技术怎么样
- cad填充密度怎么调整_如何在CAD中设置密度参数?
- 2021年下半年信息系统项目管理师《综合知识》《案例分析》《论文》真题与答案
- JavaScript的强引用和弱引用
- 百度小程序开发:点百度开发者工具上的“发布”按钮不能发布是怎么回事?
- echarts使用省地图并下钻到市区地图并返回