作者:Karen Hao

翻译:王可汗

校对:方星轩

本文约2700字,建议阅读8分钟

本文介绍了为了抵制科技巨头对公众数据资源的攫取而发起的数据杠杆运动。

每一天,你的生活都会留下一些数字痕迹,而科技巨头会用这些痕迹来追踪你。当你发邮件、点外卖、追剧,他们都会得到有价值的数据包,并以此了解你的喜好。

这些数据被输入到机器学习算法中,以向你投放广告和推荐。谷歌每年将你的数据转化为超过1200亿美元的广告收入。

我们越来越无权选择不参与这一安排。2019年,时任Gizmodo记者的克什米尔·希尔(Kashmir Hill)曾试图将五个主要的科技巨头从她的生活中去除。她花了六个星期的时间痛苦不堪,挣扎着完成基本的数字功能。与此同时,科技巨头们却无痛无痒。

现在,美国西北大学(Northwestern University)的研究人员提出了纠正这种权力失衡的新方法,将我们的集体数据视为谈判筹码。科技巨头们可能有花哨的算法可供使用,但如果没有足够的正确数据来训练,这些算法就毫无意义。

一篇即将在计算机协会的公平、责任和透明度会议上发表的新论文中,包括博士生尼古拉斯·文森特(Nicholas Vincent)和李汉林(Hanlin Li)在内的研究人员提出了三种公众可以利用这一优势的方法:

  • 数据罢工,灵感来自劳工罢工的想法,包括扣留或删除你的数据,以防止科技公司使用——例如,离开平台或安装隐私工具。

  • 数据中毒,指提供无意义或有害的数据。例如,AdNauseam是一个浏览器扩展,点击每一个广告服务给你,因此混淆谷歌的广告定位算法。

  • 有意识的数据贡献,包括向你想抗议的平台的竞争对手提供有意义的数据,比如将你的Facebook照片上传到Tumblr。

人们已经在使用这些策略来保护自己的隐私。如果你曾经使用过广告拦截器或其他浏览器扩展程序来修改你的搜索结果以排除某些网站,那么你已经进行了数据删除,并回收了一些使用你的数据的代理。但正如希尔发现的那样,像这样的零星个人行为并不能让科技巨头改变他们的行为。

但是,如果数百万人一起在一家科技巨头的数据井中下毒呢?这可能会给他们一些筹码来坚持他们的要求。

可能已经有一些这样的例子了。今年1月,在Facebook宣布将开始与公司其他部门共享WhatsApp数据后,数百万用户删除了他们的WhatsApp账户,转而使用Signal和Telegram等竞争对手的账户。大批人的离去导致Facebook推迟了政策调整。

就在本周,谷歌还宣布将停止在网络上追踪用户并针对他们投放广告。文森特表示,目前还不清楚这是一种真正的改变,还是仅仅是一种品牌重塑,但可能是AdNauseam等工具的使用增加,降低了该公司算法的有效性,从而促成了这一决定。(当然,这最终很难说。他说:“只有科技公司才真正知道数据杠杆运动对一个系统的影响有多大。”)

文森特和李认为,这些活动可以补充政策倡导和工人组织等抵制大型科技的策略。

“看到这样的研究令人兴奋,”旧金山大学(University of SanFrancisco)应用数据伦理中心(Center for Applied Data Ethics)研究员阿里·阿尔哈提卜(Ali Alkhatib)说,他没有参与这项研究。“看到他们从整体或整体的角度思考问题真的很有趣:我们可以对数据进行干扰,并以此提出要求,因为这是我们的数据,让干扰和真实的数据都一起进入这口井。

要使这些运动更加广泛,还有很多工作要做。计算机科学家可以在制造更多像AdNauseam这样的工具方面发挥重要作用,这将有助于降低参与此类策略的障碍。政策制定者也可以提供帮助。数据罢工在强有力的数据隐私法律的支持下最为有效,比如欧盟《通用数据保护条例》(GDPR),该条例赋予消费者要求删除数据的权利。如果没有这样的监管,即使你删除了账户,也很难保证一家科技公司会给你删除数字记录的选择。

还有一些问题有待解答。一次数据攻击需要多少人来破坏一个公司的算法?什么样的数据在给特定系统下毒时最有效?例如,在一个涉及电影推荐算法的模拟中,研究人员发现,如果30%的用户罢工,系统的准确率就会降低50%。但每一种机器学习系统都是不同的,公司会不断更新它们。研究人员希望,机器学习社区中有更多的人能够对不同公司的系统进行类似的模拟,并识别它们的漏洞。

阿尔哈提卜建议,学者们也应该对如何发起集体数据行动做更多研究。“集体行动真的很难,”他说。“让人们继续正在进行的行动是一个挑战。然后面临的挑战就是,你如何让那些只使用搜索引擎5秒钟的人,认为自己是这个行动的一部分?”

他补充道,这些策略可能产生的延续后果需要仔细研究。扰乱数据的结果最终会不会只是给内容审核员和其他负责清理和标记公司培训数据的人增加更多工作?

但总的来说,文森特、李和Alkhatib乐观地认为,数据杠杆可能会变成一种有说服力的工具,影响科技巨头如何对待我们的数据和我们的隐私。“人工智能系统依赖于数据。这只是它们如何工作的事实,”文森特说。“最终,这是公众获得权力的一种方式。”

原文标题:

How to poison the data that Big Tech uses to surveil you

原文链接:

https://www.technologyreview.com/2021/03/05/1020376/resist-big-tech-surveillance-data/

编辑:黄继彦

校对:林亦霖

译者简介

王可汗,清华大学机械工程系直博生在读。曾经有着物理专业的知识背景,研究生期间对数据科学产生浓厚兴趣,对机器学习AI充满好奇。期待着在科研道路上,人工智能与机械工程、计算物理碰撞出别样的火花。希望结交朋友分享更多数据科学的故事,用数据科学的思维看待世界。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 如何“扰乱”科技巨头用来监视你的数据相关推荐

  1. 细数高光时刻,2020全球科技巨头如何激战AI?

    来源:嵌入式资讯精选 本文作者:Jiachang Pan 编辑:SV Insight 最近,百度.谷歌等多家科技巨头相继发布2020年AI发展总结.2020年12月30日,百度以一篇万字长文<百 ...

  2. 科技巨头纷纷发力AI,智能硬件已来临,变现还会远吗?

    科技巨头们正加速抢占人工智能时代的入口,今年秋季发布会上,谷歌一次性发布8款智能硬件产品."AI+智能硬件"成为巨头们的新型竞争手段,较量结果在技术产品化的载体上揭晓.在谷歌宣称& ...

  3. 科技版《碟中谍》:偷鸡摸狗的科技巨头们

    说到世界著名的科技巨头,不管是苹果三星还是微软谷歌,咱们应该都非常熟悉.咱们用着这些巨头的硬件或者软件,内心对他们的印象往往都会有些小光环,觉得科技巨头们都是光鲜亮丽的. 然而但凡是商业企业,骨子里必 ...

  4. 36家科技巨头组建元宇宙标准论坛 被批为“纸老虎” 我们应该相信吗?

    最近,36家科技公司组织成立了一个元宇宙标准论坛(Metaverse Standards Forum),Meta(前身Facebook).微软.阿里巴巴和索尼等科技巨头都是该论坛的创始成员,致力于创建 ...

  5. 科技巨头纷纷角逐奥运会,参赛的正确姿势是什么?

    四年一届的奥运会俨然已成超级IP,历史上有不少品牌借助奥运会声名鹊起,例如2008年北京奥运会就成就了联想这一品牌,助推其坐上全球PC老大的宝座.今年里约奥运会科技感不强,但依然有人工智能.VR直播. ...

  6. 腾讯控股:一家被低估了的全球科技巨头

    来源:猛兽财经   作者:猛兽财经 摘要:   在中文里,"危机"一词可以分为两个意思,一个是"危险",另一个是"机会".而腾讯控股(007 ...

  7. 亚伦斯沃特斯_盒装首席执行官亚伦·莱维(Aaron Levie)胜过科技巨头和股票市场

    亚伦斯沃特斯 大技术 (Big Technology) OneZero is partnering with Big Technology, a newsletter and podcast by A ...

  8. 宝马将系统架上微软Azure,国内科技巨头也难抵汽车“诱惑”

    汽车行业数字化转型的本质是从"卖产品的思维"切换为"流量思维",这句话如何理解?国内外科技巨头为了这件事做了哪些努力? 一时之间,车联网.工业物联网.数据湖-这 ...

  9. 宝马将机器架上微软 Azure,国内科技巨头也难抵汽车“诱惑”

    汽车行业数字化转型的本质是从"卖产品的思维"切换为"流量思维",这句话如何理解?国内外科技巨头为了这件事做了哪些努力? 一时之间,车联网.工业物联网.数据湖-这 ...

最新文章

  1. 将长整形的数字分位显示
  2. mysql远程服务器返回错误404未找到_远程服务器返回错误: 404错误、远程服务器返回错误:500错误、 HttpWebResponse远程服务器返回错误:(404、500) 错误。...
  3. Pandas的学习(6.DataFrame和Series创建多层行索引以及多层列索引)
  4. linux之eval命令
  5. Android 系统性能优化(55)---Android 性能优化之内存优化
  6. 为什么今年好多人开始买基金了,是疫情影响的吗?
  7. serve注解是加在哪个类_PHP 8新特性之Attributes(注解)
  8. jar解压war文件失败
  9. oracle 数据页,常见数据库分页实现方案-Oracle
  10. Arch Linux中的Pacman命令如何使用
  11. L1-009 N个数求和(解决测试点三错误)
  12. jupyterlab使用配置
  13. jav常用类-时间处理相关类
  14. CentOS7 安装 chrome
  15. 区块链中的记账权问题
  16. Spring Cloud入门-Sentinel实现服务限流、熔断与降级(Hoxton版本)
  17. 不爱打空格的小孟c语言,语言学专家:很多年轻人发信息不爱用句号,其实都是有原因的...
  18. 论文记录1_YOLO系列(v1 v2 v3 v4)
  19. 路漫漫其修远兮:js的成长经历(十二)——jQuery基础
  20. 《电子病历系统》管理员手册

热门文章

  1. 算法训练 P0103
  2. 【c语言】整型数据的溢出
  3. 南岸焊接机器人厂_焊接技术的发展历史,世界焊接发展200年回顾,你了解焊接吗?...
  4. 利用linux自带的邮箱服务实现邮件转发
  5. 55.npm install 报错 :stack Error: Can't find Python executable python
  6. 一个很简单小数正负数行转列问题
  7. Java基础巩固之线程学习
  8. MySQL server PID file could not be found!
  9. Responsive设计——meta标签
  10. 如何实现容器透明,内容不透明?