来源 | HyperAI超神经

麻省理工学院(MIT)近日发布了一则致歉声明,宣布将 Tiny Images Dataset 数据集永久下架,并向全社会呼吁共同停用并删除这个数据集,已有该数据集的用户不要再向他人提供。

近一年内,已经有数个由企业和科研机构发布的知名数据集,遭到下架或永久封禁的处理,其中包括微软的 MS Celeb 1M 名人数据集、杜克大学发布用于行人识别的 Duke MTMC 监控数据集、和斯坦福大学发布的人头检测 Brainwash 数据集。

这次下架的 Tiny Images Dataset 图像数据集由 MIT 在 2006 年开始立项并发布。正如其命名,这是一个微小图像数据集。

包含 7930 万张 32 * 32 像素的彩色图像,基本采集自 Google Images。

数据集较大,文件、元数据和描述符以二进制文件形式存储

需使用 MATBLAB 工具箱和索引数据文件进行加载

整个数据集近 400 Gb 大小,数据集规模之大,也让该数据集成为计算机视觉研究领域中,最热门数据集之一。

与该数据集同时发布的论文《80 million tiny images: a large dataset for non-parametric object and scene recognition》,这篇论文的可查询引用,也高达 1718 次。

一篇论文,引发的大型数据集自检

让 Tiny Images Dataset 图像数据集陷入风口浪尖的,正是在近期发布的一篇论文《Large Image Dataset: a pyrrhic win for Computer Vision?》(大型数据集:是计算机视觉的隐藏杀器?)

论文对这些大型数据集的合规性,提出了强烈的质疑。

论文地址:https://arxiv.org/pdf/2006.16923.pdf

两位作者,一位是 UnifyID 的首席科学家 Vinay Prabhu 。UnifyID 是硅谷的一家人工智能初创公司,为客户提供用户身份验证的解决方案。

另一位作者是都柏林大学的博士学位候选人 Abeba Birhane。

论文主要以 ImageNet-ILSVRC-2012 数据集为例,作者发现数据集中包含少数偷拍(比如海滩中偷拍他人,甚至包含隐私部位)的图像,认为由于审核不严格,这些图片严重侵犯了当事人的隐私。

曾经的经典数据集,如今成政治不正确

和 ImageNet 涉嫌侵犯隐私不同,论文中对 Tiny Images Dataset 进行声讨原因是:数据集中有数万张种族歧视、女性歧视标签的图像。

并指出 Tiny Images Dataset 由于未经任何审核,存在的歧视、侵犯隐私的问题更加严重。

Tiny Images Dataset 部分选取

这就要说到 Tiny Images Dataset 是基于 WordNet 的规范进行标记,把近八千万张图像分为 75,000 个类别。

也正是因为 WordNet 的部分标记,让数据集遭受了质疑。

WordNet 的锅,图像数据集一起背 

众所周知,WordNet 由普林斯顿大学认知科学实验室的心理学家、语言学家和计算机工程师联合设计,自 1985 年发布以来,一直作为英文世界里最规范、全面的英语词典系统。

规范、全面的意思就是:客观地采集人类社会里存在的英文词汇,并赋予其理解和关联。

在 Tiny Images Dataset 中,采用了 WordNet 中的 53,464 个不同名词,来作为图片的标签。

数据集中涉及种族、性别的敏感词统计

也正因为如此,直接引用人类社会存在的表达,就不可避免地引入一些涉及种族歧视、性别歧视的词汇。

比如,表示明确侮辱或贬义的词汇 Bi*ch、Wh*re、Ni*ger 等等,均成为了图片的相关标签,除此以外,还有一些主观判断性的称谓,比如 molester 猥亵者、pedophile 恋童癖等。

科学研究之前,需衡量社会影响 

作者认为大型图像数据集,很多在建设之初,并没有仔细衡量社会影响,会对个人权益构成威胁和伤害。

因为信息开源的当下,任何人都可以利用开放 API 运行一段查询,来定义或判断 ImageNet 或其他数据集中人类的身份或画像,这对当事人来说确实是危险,也是侵犯。

作者也给了三点解决方向:

一是合成真实和数据集蒸馏,比如在模型训练期间使用(或增强)合成图像来代替真实图像;

二是对数据集强化基于伦理道德的过滤;

三是定量数据集审计,作者对 ImageNet 进行了跨范畴的定量分析,用来评估道德违规的程度,也用来衡量基于模型注释的方法其可行性。

数据集下架:或出于自觉,或外部压力

因为舆论压力,或是自我觉察而主动下架的数据集,MIT 并不是第一家。微软早在 2019 年中,就下架了著名的 MS Celeb 1M 数据集,并宣布不再使用。

MS Celeb 1M 数据集是由网络中找到 100 万个名人,根据受欢迎程度选出 10 万个,然后利用搜索引擎,每个人挑出的大约 100 张图片,所得到的数据集。

MS Celeb 1M 数据集

MS Celeb 1M 常被用来做面部识别的训练,最早该数据集服务于 MSR IRC 比赛,这也是世界上最高水平的图像识别赛事之一,包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,也都使用这个数据集。

一位研究人员指出,这涉及到人脸识别图像数据集的伦理,起源和个人隐私等问题。因为这些图片均来自网络,虽然微软表示是根据「知识共享许可 C.C 协议」,来抓取和获得这些图像的(照片中的人物并不一定授权许可,而是版权所有者授权)。

根据协议,可以将照片用于学术研究,但微软发布数据集后,却并不能有效监督数据集的使用。

除了 MS Celeb 1M 数据集,还有杜克大学发布用于行人识别的 Duke MTMC 监控数据集、和斯坦福大学发布的人头检测 Brainwash 数据集。

尽快下载其他数据集,也许明天也会下架

近期甚嚣尘上的 black lives matter 种族平权运动,让欧美各界陷入慌乱,计算机学界、工程界也有不断地讨论、纷争和反思。

最初,以 Github、Go 语言为代表的企业和组织,开始对命名规范,进行了修改,比如应避免使用 「Blacklist」和 「Whitelist」一词,而应使用中性词 「Blocklist」 和「 Allowlist」,又或者将默认分支名称从「master」更改为「trunk」。

又有深度学习先驱 Lecun 被指涉嫌种族歧视、性别歧视的言论,主动退出 Twitter。

现在,政治正确的矛头或将对准大型数据集。

诚然,大量数据集在设计之初,有很多欠缺考量、未完善的部分。但是在当前条件下,但直接下架相关数据集,也不是最好的解决偏见的办法。

毕竟这些图片,并不仅存在于这些数据集中,这些偏见,也不仅仅是 WordNet 里的几个词。

下架了数据集,图片依然在互联网各个角落,停用了 WordNet ,这些词也依旧在人们的观念里。想要解决 AI 的偏见,还是得重视起社会文化中长期存在的偏见。

更多精彩推荐
☞厉害!国内大学生计算机编程第一人,一人挑战一个队,百度最年轻 T10,现创业自动驾驶
☞比 Hive 快 500 倍!大数据实时分析领域的黑马
☞厉害!国内大学生计算机编程第一人,一人挑战一个队,百度最年轻 T10,现创业自动驾驶
☞一只端午节鸭蛋粽子的背后:AI 与农业
☞浅谈分布式存储中的网络通信
☞Balancer因通缩代币STA遭遇闪电贷攻击,价值50万美元资产被黑
你点的每个“在看”,我都认真当成了喜欢

数据集永久下架,微软不是第一个,MIT 也不是最后一个相关推荐

  1. 永久勘误 微软等面试100题系列,答案V0 4版 第41-60题答案

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 永久勘误 ...

  2. 永久勘误:微软等面试100题系列,答案V0.4版[第41-60题答案]

    永久勘误:微软面试100系列答案V0.4版[第41-60题答案] 作者:July.何海涛等网友 --------------------------- 几点声明: I.  此微软面试100题系列永久更 ...

  3. 【ctrl+space】键位解除占用+永久删除微软拼音输入法

    前言 多数编程软件的代码提示快捷键一般为[ctrl+space],但win10默认切换输入法中英文模式快捷键也是[ctrl+space].即使更改输入法热键和注册表也依然无效,只能更换输入法. 发现更 ...

  4. 逃离被微软支配的恐惧,.NET开发者们Fork了一个开源分支

    编译 | 核子可乐.刘志勇 策划 | Tina "不用担心微软讨厌谁,或者本周有什么语言或框架被宣布死亡.相反,要拥抱进步,积极自我提高." 一个月前,微软从.NET 6 中悄悄删 ...

  5. 2021-05-12 MongoDB面试题 应该启动一个集群分片(sharded)还是一个非集群分片的 MongoDB 环境

    我应该启动一个集群分片(sharded)还是一个非集群分片的 MongoDB 环境? 为开发便捷起见,我们建议以非集群分片(unsharded)方式开始一个 MongoDB 环境,除非一台服务器不足以 ...

  6. 【数据科学家】什么是数据科学家? 一个关键的数据分析角色和一个利润丰厚的职业...

    数据科学家的角色因行业而异,但有一些共同的技能.经验.教育和培训可以帮助你在数据科学职业生涯中占据一席之地. 什么是数据科学家? 数据科学家是分析数据专家,他们使用数据科学从大量结构化和非结构化数据中 ...

  7. pyhton如何导入包的每一个文件_如何开始第一个 Python 编程实践项目?

    首发公众号:交通攻城狮 微信ID:TrafficBlog 2020,第 15 期 导语:上期我们谈了谈如何高效的入门 Python 编程,了解了 Python 的编程环境以及常用的包,如 Pandas ...

  8. 用java实现一个计算器程序_1.2第一个java程序——hello world

    第一个java程序--hello world 实现一个java程序,主要有三个步骤:1.编写源代码,2.编译源代码,3.运行.java的源代码必须先编译,然后才能由JVM解析执行.所以我们程序员第一步 ...

  9. ACMNO.24 C语言-转置矩阵 写一个函数,使给定的一个二维数组(3×3)转置,即行列互换。 输入 一个3x3的矩阵 输出 转置后的矩阵 样例

    题目描述 写一个函数,使给定的一个二维数组(3×3)转置,即行列互换. 输入 一个3x3的矩阵 输出 转置后的矩阵 样例输入 1 2 3 4 5 6 7 8 9 样例输出 1 4 7 2 5 8 3 ...

最新文章

  1. docker停止、删除容器、删除镜像 一看就理解
  2. ESP8266/ESP32 NVS 基本操作
  3. 2020-10-25(个人int误区)
  4. DCMTK:测试ConcatenationCreator类
  5. oracle解析md5,Oracle中的MD5加密详解
  6. 剑指offer之青蛙跳台阶
  7. 在JS中使用Ajax
  8. 校验身份证_制作全国身份证号验证及查询系统
  9. PIL与opencv相互转换
  10. 两分钟,帮你搞懂光纤接头
  11. CentOS7 时间与网络时间同步
  12. tp5——实践前台模板引入
  13. 为什么DDOS攻击是服务器的最大危害?
  14. java课程设计动态祝福卡_巧用代码制作动态图文贺卡【平安夜祝福】
  15. 压缩、减员、并购、自动汽车市场凛冬将至!
  16. 计算机最新行情调研报告,2020年中国笔记本电脑市场调研报告
  17. 五金切断模具结构和设计注意事项
  18. 矩阵乘法 基础训练-蓝桥杯
  19. Chrome开发者工具详解-Network面板
  20. 服务器不响应是不是光纤断了,二台S9306互联的光纤切断,服务器就不通了……已解决 - 华为技术论坛 - 51CTO技术论坛_中国领先的IT技术社区...

热门文章

  1. 潭州课堂25班:Ph201805201 tornado 项目 第八课 增加喜欢功能(课堂笔记)
  2. normalize.css 中文版
  3. Spring Boot 集成 Redis 实现缓存机制
  4. Javascript是实现HTML5强大功能的重要语言
  5. 发表email所需要
  6. Openstack命令
  7. [递归|迭代] leetcode 21 合并两个有序链表
  8. 数据结构实验之数组一:矩阵转置
  9. 【图像处理】参数维纳滤波(Parametric Wiener Filter)
  10. 剑指offer之合并有序链表