来源: AI科技评论

编译:Antonio

编辑:陈彩娴

伴随深度学习的不断日常化,数据集中的偏见(bias)和公正性(fairness)已经成为一个热门研究方向。

偏见在AI领域是一个很棘手的话题:有些偏见是有益的,例如噪声数据可以增加模型的鲁棒性,有些偏见是有害的,例如倾向对有色人种识别错误。

而且,当我们得到一个不完美的模型的时候,其中的数据集到底存在什么偏见?这些偏见是如何产生的?

谷歌的PAIR (People + AI Research)团队最近发表了一篇博文,用一个很简单有趣的例子讨论了这些问题。

原文链接:

https://pair.withgoogle. com/explorables/dataset-worldviews/

1

有偏见的分类

假设我们拥有如下所示的不同形状的数据集,它们对应的标签是有无阴影,如下图。

利用页面上的交互式分类器,可以分类出如下的结果,并得出相应的准确性。

模型并不完美,为了对结果进行纠正,你可能想知道模型正在犯什么错误,或者,数据存在哪种类型的偏见?

2

公正性分析

由于各个图形的主要区别在于形状,一个可能的偏见存在于形状的差别。通过观察你可能认为三个最主要的形状主要是圆、三角形和矩形。为了证实这个假设,你要确信你的模型在面对圆、三角形和矩形的时候模型的表现能力的一样的。接下来我们来做公正性分析(fairness analysis)。

首先我们需要对每个的形状进行标注,但是一个问题是,有些形状并不能很肯定地确定是什么形状,这时候有两种策略,一是把这种形状判断为最有可能是圆、三角形和矩形(with their best guess);一种是给出一个选项:上述三种形状都不是(as "other")。之后我们分析模型对于每一类形状的分类准确率。该交互式页面给了两种策略的结果:

策略一:寻找最有可能的形状:

第一种策略表明分类器对于矩形分类的结果最好,圆次之,三角形最差。不过这可以表明模型对三角形存在偏见吗?我们在页面上切换第二种策略。

策略二:上述都不是:

结果发生了变化!第二种策略则表明分类器对于三角形和矩形分类结果都最好,圆却最差。我们对于偏见的理解因为我们制定分类的策略不同而不同,换言之,每一种分类方式代表着采取不同的角度看待哪些是重要的分类特征。而决定数据集和最终模型决策的是你——制定策略的人。也就是每个数据集都代表一种“世界观”,其收集背后莫不代表着人的意志。

所以,再回过头来想想,还有哪些策略或者规则的指定可能会影响我们的对于公正性的判断?

对,我们当初对于分类的标准是依照形状,比如圆、三角形或者矩形,这也是我们人为定的标准,如果换成”尖的“或者”圆的“呢?或者“小的”或者“大的”呢?下图给出了不同评价标准下,正确和错误分类的个体:

图注:当类别标准是“尖的”或者“圆的”,以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果

图注:当类别标准是“小”或者“大的”,以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果

可以看到,每当选择一种标准的时候,所得到的错误分类的数据分布也都不同,因而每种情况下对于实例的偏见程度或者公正性分析也都会出现偏差——偏见似乎也有了偏见。

3

标签在讲述故事

回顾一下,假设你是收集该数据集的负责成员,刚开始你做出关于与偏见相关的分类类别的决策,所有的形状实例到底怎么分?你按照“尖的”和“圆的”,也就是下图:

其它标注者试图回答下述问题:这个图形是“尖的”还是“圆的”?

之后,收集完毕,你根据上述错误类别分析,你可以得到分类器在尖的形状表现的好,圆的则表现的差,之后便有了如下的报告:

然后,如果一开始的评价标准是“大的”还是“小的”,重复上述步骤,你却可以得到分类器在小的形状上分类效果好,于是便有了这样的故事...

想要避免这个问题的一个自然的解决方式是,收集更多的数据和更多的特征:如果我们有足够多的数据,知道它们足够多的细节,我们将可以避免做出不同的分类决策,从而产生唯一的偏见的影响因子。

不过,似乎并非这样。想象一下,当我们描述我们周围的一件事情的时候,不管是向一个朋友讲述一件事情的时候,还是告知计算机关于形状的事情的时候,我们都会自觉不自觉地选择自己认为的最重要的部分,或者选择用什么工具去传递它。

不管我们是否这么想,我们无时无刻不在做分类——

正如我们在形状的例子中所看到的那样,所有的选择都使得某些特征比其它的特征更加重要,使得一些特征的差别是可见的一些却可被忽略,都使得某些事物变得容易分类有些成为噪声点。

是分类的标准在讲述整个故事。

4

真实的场景

如果我们再回顾真实的机器学习应用,比如监督学习任务中的目标检测任务。我们想象有下面一幅图片:

我们想在这样的数据集上打标注,因而我们想先对其中的目标物体进行标注。其中的一种标注如下:

这样已经看起来很客观了,对吗?毕竟山就是山、树就是树。可是即使这样,同一张图的同一个区域的标签也可能不一样,比如这样:

山可以具体化名称,树也可以具体化“没有医用的植物”。

是的,并没有一个普遍的方法去对待每一个物体、每一个单词或者每一张图片。数据集总是特定时间空间和条件的结果。它们是社会的产物,它们有历史观,它们有政治色彩。而忽略这些会带来非常现实的后果。

那我们应该怎么对待这些信息呢?

一个很好的起点是反思数据所在的上下文,并且始终对数据保持好奇。

很难去判断一个数据集本身的价值——它们是客观的,普遍的,中立的吗——它可能只是反映一种你自己习惯的世界观。所以理解你自己的世界观可以告诉你所谓客观数据的局限性。时刻问自己:你对这个世界做出了什么假设?什么是感觉像是常识?什么有些违背常理?重要的是,对于数据集不应该忘记考虑:谁收集的它?为什么会收集它?谁付钱收集了它?所谓的”真值“标签来自哪里?

之后,你甚至可能会发现自己在质疑收集数据过程中的某些假设,从而对你的分类任务有更加整体地理解。

如果对你的数据有很多问题,你就已经有很好的开端了。

5

研究团队介绍

People + AI Research (PAIR) 是 Google 的一个跨学科团队,通过基础研究、构建工具、创建设计框架以及与不同社区合作来探索人工智能的人性方面。

团队的宗旨让机器学习发挥其积极潜力,因为它需要具有广泛的参与性,涉及到它影响的社区,并由不同的公民、政策制定者、活动家、艺术家等群体指导。

该团队开发了很多有趣的可视化交互页面,探讨了很多有趣的AI+公正性或者可解释性的课题。快去试试吧!

团队官网:

https://pair.withgoogle.com/

原文链接:

https://pair.withgoogle.com/explorables/dataset-worldviews/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

​数据集拥有自己的世界观?不,其实还是人的世界观相关推荐

  1. 技术创新,让企业拥有智能“伯乐”,实现精准识人

    过去,"得人才者得天下,世有伯乐,然后有千里马." 这些都是我们耳熟能详古人对于人才渴求的描写.能否及时发现人才.培养人才.发挥人才作用的关键,都是历代管理者或经营者关注的问题.自 ...

  2. 一个“精神病”人的世界观

    作者:欧阳乾,作家,拳手. "精神病人各不相同,形形色色,但有一点却是一样的--他们都认为自己是正常人.明白了这一点,你就抓住了精神病人的精髓.所以,无论一个精神病人的逻辑多么严密,思维多么 ...

  3. 一个“精神病”人的世界观——我看完了,然后陷入深深的不安中……

    "精神病人各不相同,形形色色,但有一点却是一样的--他们都认为自己是正常人.明白了这一点,你就抓住了精神病人的精髓.所以,无论一个精神病人的逻辑多么严密,思维多么清晰,你也不要太过吃惊.&q ...

  4. 世界观和方法论——青山行客

    一 .世界观(看法和观点) 世界观是指处在什么样的位置.用什么样的时间段的眼光去看待与分析事物,它是人对事物的判断的反应.它是人们对世界的基本看法和观点. 世界观具有实践性,人的世界观是不断更新.不断 ...

  5. 人脸识别数据集精粹(上)

    人脸识别数据集精粹(上) 人脸识别 人脸检测和关键点检测都是比较底层的任务,而人脸识别是更高层的任务,它就是要识别出检测出来的人脸是谁,完成身份比对等任务,也是人脸领域里被研究最多的任务. 1.1 人 ...

  6. 如何打造高质量的机器学习数据集?这份超详指南不可错过

    作者 | 周岩,夕小瑶,霍华德,留德华叫兽 转载自知乎博主『运筹OR帷幄』 导读:随着计算机行业的发展,人工智能和数据科学近几年成为了学术和工业界关注的热点.特别是这些年人工智能的发展日新月异,每天都 ...

  7. “智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线

    2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了"智源 MagicSpeechNet 家庭场景中文语音数据集",其中包含数百小 ...

  8. 人类高质量AI训练方式:精细化数据集管理颠覆唯SOTA论

    来源:大数据文摘本文约5300字,建议阅读10分钟 本文介绍了人工智能的训练方式. 提起人工智能(AI),你可能会想起2006年杰弗里辛顿(Geoffrey Hinton)那篇奠定当代神经网络全新架构 ...

  9. 23 个优秀的机器学习训练公共数据集

    Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习.在这篇文章中,我会分享 ...

最新文章

  1. 硬盘突然变慢的原因,系统突然变慢的原因
  2. Logstash(一)的入门与运行机制
  3. jvm性能调优实战 - 44Metaspace区域是如何因为类太多而发生内存溢出OOM
  4. 调参必备--Grid Search网格搜索
  5. Google 团队效能研究 | 为什么雇用最聪明的人是远远不够的? 1
  6. 这是一个定时器,定时执行一次,用在定时发送邮件
  7. CSP2019普及组题解:公交换乘(C++)
  8. java人员的宝贝:百宝箱。
  9. c语言程序运行超时是怎么回事,这个运行超时是什么原因?求助~
  10. 如果非要回到古代,我会选择春秋战国
  11. 生活质量衡量系统_「电力闲聊」电能质量中的电压质量,有四个衡量指标
  12. python生成文章标题_标题党文章生成器
  13. Linux一键脚本自动化安装项目环境
  14. TCP 的演化史-sack 与 reordering metric
  15. 万维网,互联网,因特网之间的区别
  16. TSC 标签打印机,使用TSPL指令,前端 jsp 调用打印二维码和文本标签的案例
  17. 宽带共享常见经典问题(转)
  18. 移动端SEO优化需要怎么做排名?
  19. 华为云工程师HCIA——华为虚拟化平台使用与管理
  20. 神舟凯旋,四海欢颜!“神舟十二号”背后的Smartbi力量

热门文章

  1. 别找了 这就是适合入门的第一本算法书
  2. 图灵七月书讯【Cassandra权威指南将在7月末上市】
  3. 1.5K star量,上古老番变4K,B站开源超分辨率算法
  4. 一周飞越50万平方米,无人机检测1.5吨海滩垃圾!自动分类47种,准确率超95%
  5. ​GNN教程:Weisfeiler-Leman算法!
  6. 独家 | 为什么要尝试A/B测试的贝叶斯方法(附链接)
  7. 汪星人出门也靠脸?狗脸识别技术可识别化妆后的汪星人,准确率99%
  8. 10行代码带你搞定目标检测(附代码)
  9. 在TensorFlow中对比两大生成模型:VAE与GAN(附测试代码)
  10. Linux 批量kill死进程