2020-01-27 16:32

导语:再多的数据也解决不了的那些问题

雷锋网(公众号:雷锋网) AI 科技评论按:热热闹闹的机器学习浪潮给学术研究和实际应用都带来了很多新意,似乎我们可以就这样乐观地乘着机器学习的列车驶向未来。记者、科幻小说作者 Cory Doctorow 近期的一篇文章就提出了一种角度新颖且有趣的质疑。雷锋网 AI 科技评论编译如下。

Cory Doctorow:

我成为一个现代科技的爱好者、宣扬者已经好几十年了,我也阅读过无数的发人深省的、影响深远的科技批评观点。不过,这几年的机器学习要远比其他的科技趋势火热许多。从大众媒体报道、从企业宣传上来看,许多曾经在理想中的高科技产品、高科技生活方式,都会借助机器学习的力量来到我们身边。

但在这所有美好的愿景背后,也有一些质疑的声音让人反复咀嚼。蒙特利尔麦吉尔大学的 Molly Sauter 在 2017 年写了一篇略微奇怪但富有诗意的文章《Instant Recall》,里面有这么一句「机器学习从本质上来讲是保守的」。

机器学习从本质上来讲是保守的,它没法改变,它只能默认未来和过去是一样的。如果你给你的伴侣发消息时候用过「Hey darling」这个开头,那下次你一打出来「Hey」,「darling」就会出现在自动补全列表的第一个位置上,即便这次你可能是要提分手的。如果你打的某个词是你自己此前从未用过的,那么自动补全会根据所有用户的输入统计数据,把最经常出现的词推荐给你。可能大多数时候这不会造成什么问题,但是 2018 年 7 月我给看孩子的保姆(babysitter)发消息打到「Can you sit(带)」的时候,它接下来推荐的自动补全是「on my face and」,这就非常糟糕了,我把这事发到网上以后还引起了不小的争论。

这种保守性在每一个使用机器学习算法的推荐、推理系统里面都能看到:当你在网上搜索「电冰箱」之后,算法就会给你打上「想买电冰箱」的标签,然后一直关注着这个「想买电冰箱」的身份的活动,在各种广告位给你介绍各种电冰箱,即便你已经买了也不会停止;或者在视频网站纯粹因为好奇搜索了某个冷门话题,大概了解了、觉得以后再不会看这个话题之后,它还是会反反复复给你推荐这个话题,因为需要「强化推荐你感兴趣的内容」;在社交平台上关注一个人之后,它会给你推荐「相似的人」,即便你自己很明白你为什么没关注他们。

不可否认,机器学习有很强的寻找关联性的能力,比如机器学习可以自然地认为「在很长一段时间里张三的通讯录里都存了李四的电话号码和家庭住址,所以他们肯定是好朋友」;但机器学习并不能学到因果关系,所以实际上更容易出现的事情是,张三的通讯录里存了李四的电话号码和家庭住址,这是因为张三在跟踪、偷窥李四,然而 Facebook 扫描了张三的通讯录以后,反而推荐李四把张三加为好友。

另外,机器学习也没法提供可靠的推测意图的工具——人类学的一条基础定理就是,「如果没有对话,那么意图就是不可知的」。Cliff Geertz 在 1973 年的《Thick Description》文章里是这么说的,如果你在观察某个人,但你不让他知道你在观察他、他也不知道你在观察他,那你就分辨不出他到底是为了暗示什么而「挤眼」还是只是累了所以「眨眼」。

说到底,机器学习所能做的,是找到和它现在就能建模的东西类似的东西。机器学习系统很擅长找到和它们见过的车长得类似的车,也擅长找到和它们见过的人脸长得类似的人脸——这顺便也用非常简单的到底解释了为什么面部识别系统对于白人的脸识别准确率更高,就是因为往往是白人圈子设计的系统、组织收集的数据,所以见白人的脸见得更多而已。

机器学习的有害之处就是从这样的「保守」倾向里逐渐渗透出来的。如果你设计一个机器学习系统帮助警察预测他们应该抓谁,系统肯定会建议抓「和已经抓过的人类似的人」。人权数据分析组织的 Patrick Ball 是这样说的:「给警察配备的预测系统预测不了犯罪,它只能预测警察会做什么」。

不过,警察根据自己的判断决定逮捕谁,和警察看到系统预测了一个人然后去逮捕他,两者也有一些区别。对不愿意了解其中细节的局外人来说,算法做出的决定更容易显得公众,毕竟「数学是没有歧视的」、「数学是不会说谎的」。只可惜,机器学习里并不仅仅有数学而已,要说「算法能客观地反应社会真实需求」,倒不如说「算法能真实反应设计它的人的观念和习惯」。

英国有一个非医疗用药分类的例子。David Nutt 是一位杰出的精神药理学家,英国议会请他对非医疗用途的精神类药品的危险性排一个序,方便政府制定对应的药品管理政策。David Nutt 组织了一群专家做了详细的讨论,他们排了三个顺序出来:对使用者自己的危害的排序,对使用者的家庭的危害的排序,以及对社会整体的危害的排序。然后他对议会说,你只需要告诉我你最想保护哪一类,我就能给你一个准确的排序。排序本身并不难,有很多基于实证的证据可以参考,得到准确的结果;但「最想保护哪一类」是人类需要做的价值判断,没有「是否准确」之分。

数据分析这件事由来已久,从第一种税收的开始就需要分析数据;基于数据的科学和工具研究也为我们带来了许许多多的便利。但是指望不可靠的黑盒子在来告诉我们应该要什么、应该怎么做,就会在「理智」和「进步」的表面之下,实际带来更多的固定流程化处理、让人文关怀消失。科学技术能做什么当然重要,但更重要的是,它到底影响了谁、又是在谁的立场上做的这些决定。

保守的机器学习如何拯救日新月异的我们相关推荐

  1. 2018 AI趋势:AI芯片更丰富,用机器学习的企业翻倍 | 德勤报告

    安妮 编译自 德勤官网 量子位 出品 | 公众号 QbitAI 这是一个急速变化但又有很强发展衔接性的时代. 德勤在最新报告Technology, Media and Telecommunicatio ...

  2. 零基础学机器学习,看这个就够了!

    你好,我是zhenguo 今天推荐我的好兄弟:佳哥,最新出的大作:零基础学机器学习!绝对精品,想要掌握机器学习的不要错过!!! 有没有办法,快速入门机器学习? 其实,在我看来,如今机器学习已经开始&q ...

  3. TensorFlow Lite:TensorFlow在移动设备与嵌入式设备上的轻量级跨平台解决方案 | Google 开发者大会 2018...

    Google 开发者大会 (Google Developer Days,简称 GDD) 是展示 Google 最新开发者产品和平台的全球盛会,旨在帮助你快速开发优质应用,发展和留住活跃用户群,充分利用 ...

  4. 机器人如何在不断变化的世界中“找到”自己?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 想象一下这样的场景:我们遇到了一个从印度旅行回来的朋友,在此之前我 ...

  5. 如何检查你的项目是不是真的需要用到 AI?

    如何检查你的项目是不是真的需要用到 AI? http://blog.sina.com.cn/s/blog_cfa68e330102z9eh.html 作者|Cassie Kozyrkov译者|Samb ...

  6. Hugging Face创始人亲述:一个GitHub史上增长最快的AI项目

    来源|Gradient Dissent 翻译|贾川.胡燕君 Hugging Face,这家以emoji"抱抱脸"命名的开源创业公司,以一种连创始团队不曾预料的速度成为了AI开源社区 ...

  7. 博士申请 | 香港中文大学(深圳)李彤欣老师课题组招收全奖博士/博后

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 香港中文大学(深圳) 香港中文大学(深圳)是一所经国家教育部批准,传承香港 ...

  8. 用机器学习拯救“智障”聊天机器人,谷歌开放分析平台Chatbase

    李杉 李林 编译整理 量子位 出品 | 公众号 QbitAI 当你做了一个网站.App.游戏,肯定会马上想到要加上统计分析功能,这早就成了互联网产品的标配组件,产品迭代.用户运营,都离不开它. 如果你 ...

  9. 拯救非洲的粮食危机,机器学习做了这些!

    2016年,在非洲首次发现了破坏农作物的毛毛虫,秋粘虫(FAW).此后,农作物病虫害感染了数百万玉米田,破坏了农业,从而威胁到该区域的粮食安全.依靠收成获得粮食的农民需要与有害生物作斗争,该有害生物现 ...

最新文章

  1. 直流稳压电源的输出特性有哪些
  2. Linux 上不可修改的文件和目录
  3. struts struts.xml
  4. 【Spring注解系列03】@Scope与@Lazy
  5. 磁盘空间管理工具FolderSizes
  6. DeathRansom:一款教育目的的Python勒索软件开发平台
  7. 如何把域名解析到网站空间IP上?
  8. Unity 获得某个物体的主贴图
  9. pc模式 华为mate30_很实用!华为Mate?30全系支持PC模式,无线充+投屏更方便!
  10. 一款简单易用的web报表工具
  11. Vue nvm重装node和npm与vue3报错Emitted ‘error‘ event on ChildProcess instance at errno: -4058
  12. 庆山《得未曾有》摘录
  13. tomcat服务器缓存配置文件,Tomcat7服务器配置Cache-Control和Expires
  14. metis 多线程图划分论文笔记
  15. pytorch Kfold数据集划分
  16. 百度新闻评论内容抓取
  17. 最新版网页浏览器Flash插件离线版安装程序下载
  18. 1323:【例6.5】活动选择
  19. SCRUM Beta Day 10
  20. ElasticSearch: master,data,client三类节点区别及节点分配简单例举

热门文章

  1. IO实现账号密码校验
  2. SMOTE过采样方法
  3. error: RPC failed; curl 56 OpenSSL SSL_read: Connection was reset, errno 10054
  4. CountDownLatch 的 .await() 的线程阻塞 和countDown() 计时唤醒
  5. 语音识别Kaldi开源
  6. 10个堪称神器的学习网站
  7. 以不变应万变:因果启发的稳定学习年度研究进展(下篇)
  8. 真正厉害的 AI,从来不走「捷径」
  9. 排查 Node.js 服务内存泄漏,没想到竟是它?
  10. iOS通关书单,Android可入