谷歌联合学习的论文

Lately, the topic of security on machine learning is enjoying increased interest. This can be largely attributed to the success of big data in conjunction with deep learning and the urge for creating and processing over larger data sets for data mining. Since machine learning is becoming a part of day-to-day life, making use of our data, special measures must be taken to protect privacy.

最近,关于机器学习的安全性话题日益引起人们的关注。 这可以很大程度上归功于大数据与深度学习相结合的成功,以及为更大的数据集创建和处理数据挖掘的需求。 由于机器学习已成为日常生活的一部分,因此利用我们的数据,必须采取特殊措施来保护隐私。

In federated learning, the model is learned by multiple clients in a decentralized fashion. Here learning is shifted to the clients and only the learning parameters are centralized by the trusted curator. This curator the distribute aggregate model back to the client. The approach of federated learning can be widely used in mobile applications by considering the computational power and privacy aspects.

在联合学习中,多个客户以分散的方式学习模型。 在这里,学习转移到客户端,只有学习参数由受信任的策展人集中管理。 该策展人将分发聚合模型发回到客户端。 考虑到计算能力和隐私方面,联合学习的方法可以广泛用于移动应用程序中。

sharing model within certain users在某些用户内共享模型

When a model is learned in a conventional way, its parameters reveal information about the data that was used during training. In order to solve this problem discussion of differential privacy to learning algorithms has been developed. It is to ensure that the learned model does not know a client participate during decentralized training and the client’s data set will be protected from other client attacks.

当以常规方式学习模型时,其参数会显示有关训练期间使用的数据的信息。 为了解决该问题,已经开发了关于学习算法的差分隐私的讨论。 这是为了确保学习的模型在分散式培训期间不知道客户参与,并且将保护该客户的数据集免受其他客户端攻击。

1.简介 (1. Introduction)

Basically, federated learning is the problem of training a shared global model under the coordination of a central server, from a federation of participating devices that maintain control of their own data. In standard machine learning approaches, it requires centralizing the training data on one machine or in a data center. But in federated learning, it enables mobile phones to collaboratively learn a shared prediction model while keeping all the training data on the device.

基本上,联合学习是在中央服务器的协调下从参与方对自己的数据进行控制的联合设备中训练共享全局模型的问题。 在标准的机器学习方法中,它要求将训练数据集中在一台机器或数据中心中。 但是在联合学习中,它使手机能够协作学习共享的预测模型,同时将所有训练数据保留在设备上。

Data is often created on edge devices such as smartphones or IoT sensors attached to industrial equipment or is controlled by entities such as hospitals. Now, normally in machine learning when we train models, we move this data to the servers in our data center. But often the owners of these smartphones or sensors or these hospitals they can’t, or they won’t share the data with us because of privacy concerns or bandwidth challenges or both. Federated learning is an algorithmic solution to this problem it allows you to build a model while keeping the data at its source. When we do federated learning, each device or entity trains their own model locally and it’s that model that they share with the servers in the data center the server combines the model into a single federated model and it never has direct access to the training data in this way we help to preserve privacy and reduce communication costs in the cloud era. These topics will be discuses in the later sections of the review.

数据通常在连接到工业设备的智能手机或IoT传感器等边缘设备上创建,或由医院等实体控制。 现在,通常在机器学习中训练模型时,我们会将这些数据移动到数据中心的服务器中。 但是,常常是这些智能手机或传感器的所有者或他们无法拥有的这些医院的所有者,或者由于隐私问题或带宽挑战或两者兼而有之,他们不会与我们共享数据。 联合学习是针对此问题的算法解决方案,它使您可以在保留数据源的同时构建模型。 当我们进行联合学习时,每个设备或实体都会在本地训练自己的模型,而该模型是它们与数据中心中的服务器共享的模型,服务器会将模型组合成单个联合模型,并且永远无法直接访问以下模型中的训练数据这样,我们可以帮助保护隐私并降低云时代的通信成本。 这些主题将在本评论的后面部分讨论。

2.为什么要联合学习 (2. Why Federated Learning)

In most scenarios, people send their private data to classification for many purposes. These data can be sensitive most of the time. In the concept of federated learning, the whole date will no upload to the cloud server. So, the privacy of the data can be protected. Furthermore, training data from your own device is an advantage by using data that is available in a cloud-like data store is better rather than uploading the private data for unknown server spaces. Consider an example where image classification is used. A user might need to predict the most viewing or trending image types in the future. So, the images can be classified by the number of user data that the shared model is trained by. In communication scenarios like language modeling, the algorithms like next word prediction also can be improved likewise the same scenario.

在大多数情况下,人们出于多种目的将其私人数据发送到分类中。 这些数据在大多数时间都是敏感的。 在联合学习的概念中,整个日期都不会上传到云服务器。 因此,可以保护数据的隐私。 此外,通过使用类似云的数据存储中可用的数据,比上载未知服务器空间的私有数据更好,因此从您自己的设备训练数据是一个优势。 考虑使用图像分类的示例。 用户将来可能需要预测最多的观看或趋势图像类型。 因此,可以通过训练共享模型的用户数据数量来对图像进行分类。 在类似语言建模的通信场景中,像下一个单词预测这样的算法也可以像在相同场景中一样得到改进。

3.联合学习中的数据隐私 (3. Data Privacy in Federated Leaning)

Mainly two privacy aspects are there in federated learning. The most important fact before all is how an attacker can do in data and what model parameter the attacker can target. Since the data in which the model is training is for a large amount of data from many clients, the parameters for the model have a high probability of variance, such attacks are comparablydifficult. The second, and one of the most important approaches, is differential privacy. This approach is used for highly sensitive data. This approach will be discussed in the later sections of the review in detail.

联合学习中主要有两个隐私方面。 首先,最重要的事实是攻击者如何处理数据以及攻击者可以针对哪些模型参数。 由于在其中训练模型的数据用于来自许多客户端的大量数据,因此模型的参数具有很高的方差概率,因此此类攻击比较困难。 第二种也是最重要的方法之一是差异隐私。 此方法用于高度敏感的数据。 该方法将在本文的后面部分中详细讨论。

4.联合学习中的挑战 (4. Challenges in Federated Learning)

There are some drawbacks to federated learning since the technology mostly depends on distributed data which can be sensitive. The two examples which discussed in the proviso subsections can be privacy-sensitive data. Also, the prerequisites for using the service can be interrupted by many aspects.

联合学习存在一些缺点,因为该技术主要取决于可能敏感的分布式数据。 条款小节中讨论的两个示例可能是隐私敏感数据。 而且,使用服务的前提条件可能会在许多方面被中断。

  • Communication limits: Sometimes there can be only a few devices that may be online to fetch data to train the model. This few rounds of

    通信限制:有时可能只有少数设备在线以获取数据以训练模型。 这几轮

    communication with devices will make the training unreliable.

    与设备的通信将使培训不可靠。

  • Unbalanced Data: In most of the devices there can be a limited number of examples and some devices may have more examples.

    数据不平衡:在大多数设备中,示例数量有限,某些设备可能包含更多示例。

  • Highly Non-IID data: data on one device is always leads to a data pattern for a single user. So the data can be similar foe r many instances of training the model.

    高度非IID的数据:一台设备上的数据始终导致单个用户的数据模式。 因此,在训练模型的许多实例中,数据都可以相似。

  • Unreliable compute nodes: Most of the devices can be offline when a model needs to be trained, and also while training a model the devices can go offline. This is one of the unreliability of federated learning.

    计算节点不可靠:当需要训练模型时,大多数设备可能会脱机,并且在训练模型时,设备可能会脱机。 这是联合学习的不可靠性之一。

  • Attacks on training data: There can be backdoor attacks on training data and it causes for change the model’s behavior.

    对训练数据的攻击:对训练数据的后门攻击可能会导致模型行为的改变。

  • Data can be Massively Distributed: Since the data is taken by several users in many locations the data and many devices. When the number of devices increases the data distribution also can be increased.

    可以大规模分发数据由于数据是由许多用户在许多位置获取的,因此数据和设备很多。 当设备数量增加时,数据分配也可以增加。

结论 (Conclusion)

As we can see, federated learning is an approach that enables us to get rid of such complexities by enabling the models to be trained at the device itself. These trained models are then sent back to a central server where they are aggregated and then one consolidated model is sent back to the devices. In federated learning communication between the curator and the client might be limited. The challenge of federated optimization is to learn a model with minimal information over-read between client and the curator, data might be unbalanced and massively distributed. However, even nowadays there are many apps that use federated learning such as language modeling for mobile keyboards and voice recognition, image classification of predicting which photos people will share. The main advantage of federated learning is that clients never share data. Only model parameters.

如我们所见,联合学习是一种使我们能够通过在设备本身上训练模型来摆脱这种复杂性的方法。 然后将这些经过训练的模型发送回中央服务器,在此处进行汇总,然后将一个合并的模型发送回设备。 在联合学习中,馆长与客户之间的交流可能会受到限制。 联合优化的挑战是要学习一个模型,该模型需要在客户端和策展人之间过度读取最少的信息,数据可能会不平衡且会大量分布。 但是,即使在当今,仍有许多应用程序使用联合学习,例如用于移动键盘的语言建模和语音识别,用于预测人们将共享哪些照片的图像分类。 联合学习的主要优点是客户永远不会共享数据。 仅模型参数。

imgix on imgix unsplash拍摄

Studying and investigating the contribution of information technology in a modern field such as federated learning can be adapted in numerous scenarios in the future. The major problem of digitized users that misuse unprotected personal data by third parties can be reduced by optimizations of federated learning in regards to machine learning applications that use the internet. And, the study of optimizing and minimizing computational power can be reduced by using cloud-integrated learning models and neural networks.

在诸如联合学习之类的现代领域中,研究和调查信息技术的贡献可以在未来的许多情况下进行调整。 关于使用Internet的机器学习应用程序的联合学习的优化,可以减少由第三方滥用未受保护的个人数据的数字化用户的主要问题。 并且,可以通过使用云集成的学习模型和神经网络来减少优化和最小化计算能力的研究。

To get a greater understanding of federated learning, refer to the below comic.

为了更好地了解联合学习,请参考以下漫画。

资源资源 (Resources)

https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

翻译自: https://medium.com/better-programming/federated-learning-for-the-future-5253d80c8e9d

谷歌联合学习的论文


http://www.taodudu.cc/news/show-863813.html

相关文章:

  • 使用cnn预测房价_使用CNN的人和马预测
  • 利用colab保存模型_在Google Colab上训练您的机器学习模型中的“后门”
  • java 回归遍历_回归基础:代码遍历
  • sql 12天内的数据_想要在12周内成为数据科学家吗?
  • SorterBot-第1部分
  • 算法题指南书_分类算法指南
  • 小米 pegasus_使用Google的Pegasus库生成摘要
  • 数据集准备及数据预处理_1.准备数据集
  • ai模型_这就是AI的样子:用于回答问题的BiDAF模型
  • 正则化技术
  • 检测对抗样本_避免使用对抗性T恤进行检测
  • 大数据数据量估算_如何估算数据科学项目的数据收集成本
  • 为什么和平精英无响应_什么和为什么
  • 1. face_generate.py
  • cnn卷积神经网络应用_卷积神经网络(CNN):应用的核心概念
  • 使用mnist数据集_使用MNIST数据集上的t分布随机邻居嵌入(t-SNE)进行降维
  • python模型部署方法_终极开箱即用的自动化Python模型选择方法
  • 总体方差的充分统计量_R方是否衡量预测能力或统计充分性?
  • 多尺度视网膜图像增强_视网膜图像怪异的预测
  • 多元线性回归中多重共线性_多重共线性如何在线性回归中成为问题。
  • opencv 创建图像_非艺术家的图像创建(OpenCV项目演练)
  • 使用TensorFlow进行深度学习-第2部分
  • 基于bert的语义匹配_构建基于BERT的语义搜索系统…针对“星际迷航”
  • 一个数据包的旅程_如何学习数据科学并开始您的惊人旅程
  • jupyter 托管_如何在本地托管的Jupyter Notebook上进行协作
  • fitbit手表中文说明书_如何获取和分析Fitbit睡眠分数
  • 熔池 沉积_用于3D打印的AI(第2部分):异常熔池检测的一课学习
  • 机器学习 可视化_机器学习-可视化
  • 学习javascript_使用5行JavaScript进行机器学习
  • 强化学习-动态规划_强化学习-第4部分

谷歌联合学习的论文_Google的未来联合学习相关推荐

  1. 论文 | 图理论 | 2021年斯坦福大学Jiaxuan You博士论文《用图赋能深度学习》译读 摘要和感谢

    图科学实验室Graph Science Lab 2022-05-09 00:29 封面 下载: https://stacks.stanford.edu/file/druid:mz469rn9516/P ...

  2. 计算机视觉领域多任务学习相关论文、数据集、网络结构等资源整理分享

    MTL 是机器学习中一个很有前景的领域,其目标是利用多个学习任务中所包含的有用信息来帮助为每个任务学习得到更为准确的学习器.我们假设所有任务(至少其中一部分任务)是相关的,在此基础上,我们在实验和理论 ...

  3. MultiNet:自主驾驶中的实时联合语义推理 论文翻译

    MultiNet论文相关 论文下载地址:原文地址.免翻墙地址 论文Github地址:KittiSeg 论文翻译参考:csdn MultiNet: Real-time Joint Semantic Re ...

  4. 【Peter Dayan】自然和人工强化学习的结合、以及未来的发展方向

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 来源:AI科技评论 作者:Mr Bear.青暮 德 ...

  5. 从起源到具体算法,这篇深度学习综述论文送给你

    来源:机器之心 本文共4602字,建议阅读8分钟. 本文为大家从最基础的角度来为大家解读什么是深度学习,以及深度学习的一些前沿发展. 自 2012 年多伦多大学 Alex Krizhevsky 等人提 ...

  6. 干货丨从起源到具体算法,这是一份适合所有人读的深度学习综述论文

    文章来源:机器之心 近年来,深度学习作为机器学习的新分支,其应用在多个领域取得巨大成功,并一直在快速发展,不断开创新的应用模式,创造新机会.深度学习方法根据训练数据是否拥有标记信息被划分为监督学习.半 ...

  7. 重磅!Nature子刊发布稳定学习观点论文:建立因果推理和机器学习的共识基础...

    来源:AI科技评论 整理:AI科技评论 2月23日,清华大学计算机系崔鹏副教授与斯坦福大学Susan Athey(美国科学院院士,因果领域国际权威)合作,在全球顶级期刊Nature Machine I ...

  8. 深度学习不是AI的未来

    来源:中国机器人 概要:深度学习并不是人工智能的同义词!由于谷歌.Facebook等巨头公司宣传人工智能工具时主要谈的就是深度学习,甚至只谈深度学习,因此大众误以为所有的人工智能新的篇章都(将)由深度 ...

  9. 200秒=超算1万年,谷歌实现“量子霸权”论文上架随即被撤回,引发全球热议...

    边策 栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI 量子计算机用3分20秒完成的一项计算,全球最强大的超算Summit要花1万年. 这个成果,来自谷歌最新的量子计算研究,发表在NASA官 ...

最新文章

  1. hashmap为什么用红黑树_关于HashMap的实现,一篇文章带你彻底搞懂,再也不用担心被欺负
  2. php去掉关联数组,php如何删除关联数组
  3. 关于无线节能组无线电能输出功率测量
  4. 高并发-【抢红包案例】之二:使用悲观锁方式修复红包超发的bug
  5. DL之DNN:基于Tensorflow框架对神经网络算法进行参数初始化的常用九大函数及其使用案例
  6. 作者:谢华美(1976-),男,就职于中国人民银行征信中心数据部
  7. Linux:什么是 i386、i586、 i686、noarch?
  8. javascript计算两个时间差
  9. python输入直角三角形_如何用python做出直角三角形和其形成的锥形
  10. 二元二次方程例题_二元二次方程练习题.doc
  11. 堰流实验报告思考题_水力学思考题 -
  12. 杭电oj HDOJ 2072 单词数
  13. Stay Hungry, Stay Foolish(求知若饥,虚心若愚)
  14. [纵横网络靶场社区]MMS协议分析
  15. switchyomega规则列表备份_详细资料|switchyomega设置教程详细介绍_234游戏网
  16. 在Github上下载文件的方法
  17. 直播播放器API(播放器调用方法、参数、接口和事件)
  18. CentOS7.7搭建KVM虚拟化管理工具WebvirtMgr
  19. C++ 性能优化篇二《影响优化的计算机行为》
  20. c++键盘按键监控以及键值表

热门文章

  1. Maven项目错误解决小结
  2. 会话的清除与建立网络磁盘
  3. 介绍Pro*c编程的经验
  4. Ethernet帧和802.3帧区别
  5. PowerDesigner(1)----转载
  6. MySQL远程用户授权
  7. linux lspci信息 详解_Linux引导之EFI SHELL详解
  8. linux ubuntu 安装ftp,系统运维|如何在 Ubuntu 下安装和配置 FTP 服务器
  9. 通用技术和信息技术合格考知识点_高二信息与通用技术会考知识点
  10. mysql数据库语_MYSQL数据库常用语句