来源:Samuel Greengard

作者:Samuel Greengard

编译:维克多

机器学习已经成为各行各业的宝藏工具,常被用来构建系统,帮助人们发现那些容易忽略的细节,并辅助决策。尽管已经取得了惊艳的结果,但是也有很多痛苦,例如如何在已经成型的模型中修改、删减某些模块或者数据记录?

有学者表示,在大多数情况下,修改往往意味着重新训练,但仍然无法避免纳入可疑数据。这些数据可能来自系统日志、图像、客户管理系统等等。尤其是欧洲GDPR出台,对模型遗忘功能提出了更高的要求,企业如果不想办法将会面临合规处罚。

确实,完全重新训练的代价比较高,也不可能解决敏感数据问题。因此,我们无法证明重新训练的模型可以完全准确、有效。

为了解决这些问题,学者们定义了一种“机器学习解除术”(machine unlearning),通过分解数据库、调整算法等专门技术,诱导模型选择性失忆。机器学习解除术,顾名思义,就是让训练好的模型遗忘掉特定数据训练效果/特定参数, 以达到保护模型中隐含数据的目的。

1

打破模型

机器学习之所以有魅力,是因为它能透过庞大的数据,超出人类认知范围的复杂关系。同时,这项技术的黑盒性质,让学者在修改模型时候,非常谨慎,毕竟无法知道一个特定的数据点处在模型的哪个位置,以及无法明确该数据点如何直接影响模型。

另外一种情况是:当数据出现异常值时,模型会记得特别牢,并对整体效果产生影响。

当前的数据隐私工具可以在数据脱敏的情况下训练模型,也可以在数据不出本地的情况下联合训练。或许可以将敏感数据替换成空值,引入噪声掩蔽敏感数据。但这些都无法从根本上解决问题。甚至,替代元素并保留关键数据的差异隐私技术也不足以解决选择性遗忘问题。例如它只能在单个案件或少数几个案件中发挥作用,在这些案件中,虽然不需要重新训练,但会有“敏感”的人要求从数据库中删除数据。随着越来越多的删除请求陆续到来,该框架的“遗忘模型"很快就会瓦解。

因此,隐私技术和机器学习解除术在解决问题的层面,并不能等同。

匿名无法验证和差分隐私技术的数据删除问题不仅是理论问题,而且会产生严重的后果。研究人员已经证明,人们总是有能力从所谓的通用算法和模型中提取敏感数据。例如2020年时候,学者发现,从GPT-2中可以获得包括个人身份和受版权保护的信息等训练数据。

2

选择性遗忘

让机器学习模型获得选择性遗忘的能力,需要解决两个关键问题:

1.理解每个数据点如何机器学习模型;

2.随机性如何影响空间。例如需要弄清,在某些情况下,数据输入中相对较小的变化为何会产生不同的结果。

该方向的最初研究出现在在2019年。当时,Nicolas Papernot提出将机器学习的数据分割成多个独立的部分,通过建立众多的迷你数据,从而实现只对特定组件进行删除和再训练,然后插回完整的数据集中,生成功能齐全的机器学习模型。

具体操作过程是:先将训练数据分成多个不相交的切片,且一个训练点只包含在一个切片中;然后,在每个切片上单独训练模型;随后,合并切片,成功删除数据元素。因此,当一个训练点被要求遗忘时,只需要重新训练受影响的模型。由于切片比整个训练集更小,就减少了遗忘的代价。

该方法被Nicolas Papernot命名为SISA(Sharded, Isolated, Sliced, and Aggregated ),对比完全重训练和部分重训练的基线, SISA实现了准确性和时间开销的权衡。在简单学习任务中, 在数据集Purchase上是4.63x, 在数据集 SVHN上是2.45x。

同时,作者也承认,虽然这个概念很有前途,但也有局限性。例如,通过减少每个切片的数据量,会对机器学习产生影响,并且可能会产生质量较低的结果。此外,这项技术并不总是像宣传的那样奏效。

目前,机器学习遗忘术的研究仍处于初级阶段。随着研究人员和数据科学家深入了解删除数据对整体模型的影响,成熟的工具也会出现,其目标是:机器学习框架和算法允许学者删除一条记录或单个数据点,并最终得到一个“完全遗忘“相关数据的有效模型。

参考链接:

https://cacm.acm.org/magazines/2022/4/259391-can-ai-learn-to-forget/fulltext#FNA

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

机器学习的重新思考:人工智能如何学习“失忆”?相关推荐

  1. 机器学习中的数学 人工智能深度学习技术丛书

    作者:孙博 著 出版社:中国水利水电出版社 品牌:智博尚书 出版时间:2019-11-01 机器学习中的数学 人工智能深度学习技术丛书 ISBN:9787517077190

  2. 自兴动脑人工智能课程学习笔记一:机器学习

    一.人工智能时代首选python语言 (1)Python是人工智能和数据科学领域的主流语言,快速.高效.实用.Python常用的工具库Pandas.Numpy.Matplotlib.Scikit-le ...

  3. 科普贴开篇:到底什么是人工智能(AI)、机器学习(ML)和深度学习(DL

    [https://zhuanlan.zhihu.com/p/26442277] 科普贴开篇:到底什么是人工智能(AI).机器学习(ML)和深度学习(DL) 优雅的程序员 9 个月前 这两年创业圈.技术 ...

  4. 论让人工智能AI学习思考具有智慧之新思路

    论让人工智能AI学习思考具有智慧之新思路 李万鸿2019-11-1 许多科学家遇到百思不解的难题都是在梦中得到启示解决的,如苯环的发现,我最近思考人工智能具有智慧的问题,昨晚做了一个梦,梦见孩子在大海 ...

  5. Facebook 应用机器学习团队专访:人工智能在 Facebook 中的应用

    当下,应用机器学习团队(Applied Machine Learning Group)对 Facebook 的影响体现在方方面面,涉及阅读.交流方法和理解方式等多种层面.同时,应用机器学习团队甚至还能 ...

  6. 深思考人工智能蝉联SMP2018多轮语义对话冠军,报告解读多轮人机对话实现过程...

    人机对话技术近年来受到了学术界和产业界的广泛关注,其发展影响并推动着语音识别与合成.自然语言理解.对话管理以及自然语言生成等研究的进展.众多产业界巨头相继推出了人机对话技术相关产品,并将人机对话技术作 ...

  7. 02基于python玩转人工智能最火框架之TensorFlow人工智能深度学习介绍

    人工智能之父麦卡锡给出的定义 构建智能机器,特别是智能计算机程序的科学和工程. 人工智能是一种让计算机程序能够"智能地"思考的方式 思考的模式类似于人类. 什么是智能? 智能的英语 ...

  8. 微软面向初学者的机器学习课程:1.3-机器学习中的公平性

    写在前面:最近在参与microsoft/ML-For-Beginners的翻译活动,欢迎有兴趣的朋友加入(https://github.com/microsoft/ML-For-Beginners/i ...

  9. 人工智能正在学习如何创造自己

    人类一直在努力制造真正的智能机器   也许我们需要让他们自己处理 一个长着楔形头的小棍子在屏幕上晃来晃去.它半蹲着移动,沿着地面拖着一个膝盖.它在走路!呃,有点. 不过王锐还是很高兴的."每 ...

最新文章

  1. wind mysql日志_Windows下的Mysql日志操作
  2. 创建SM30表维护时权限组NC是什么用途?
  3. 64位系统matlab上安装libsvm
  4. oraclde存储过程_Oracle存储过程详解(引用)+补充
  5. ionic + cordova 使用 cordova-gallery-api 获取本地相册所有图片
  6. [html] websocket握手阶段是通过什么协议传输的?
  7. 手写table用ajax遍历,原生js把数据循遍历到前端table
  8. -bash: composer: command not found解决办法
  9. 95-090-024-源码-bin脚本-CLI提交Job-Run详解
  10. 单张图片上传预览【超简洁,未完待续】
  11. mac python安装pyqt5_pyqt5 mac os 安装
  12. 使用emacs + cscope + ecb替代source insight
  13. vue前端项目打包并且在服务器上部署过程
  14. fiddler手机模拟器抓包_fiddler抓取手机模拟器数据
  15. xml读取前面多一个?
  16. 怎么压缩图片的大小?这几个方法你不能不知道
  17. python 爬虫 403 Forbidden
  18. NYOJ——239月老的难题(二分图最大匹配)
  19. Zookeeper 3.5.7学习记录(一)——集群的坑
  20. 如何利用物联网卡平台管理物联卡

热门文章

  1. 从单片机步入Linux之文件系统的构建
  2. Netty之自定义RPC
  3. git gui怎么拉取项目代码_Git可视化极简易教程 — Git GUI使用方法
  4. Promise学习笔记
  5. 论文阅读 - Jukebox: A Generative Model for Music
  6. LeetCode 2185. 统计包含给定前缀的字符串
  7. LeetCode 2042. 检查句子中的数字是否递增
  8. ACwing 3. 完全背包问题(DP)
  9. LeetCode MySQL 1445. 苹果和桔子
  10. LeetCode 800. 相似 RGB 颜色