三井 发自 凹非寺
量子位 出品 | 公众号 QbitAI

近日,GitHub上悄然出现一个内含20多万张“不可描述”图片的数据集。

这份数据集一共将内容分为5类,分别是:

hentai、sexy、neutral、drawings、porn。

这份资源的贡献者是一位名叫Alexander Kim的数据科学家。

他说,这些数据集可以用来训练图像分类器,使用CNN做出来的分类器,分辨上述的5种图像准确度可以达到91%。

当然,这份数据集的价值并不仅限于此。不论是做敏感内容过滤工具(比如鉴黄工具),还是各种图像生成模型,相关的数据集都是必不可少的。

如果你有什么想法,可以用这个数据集来练手了。

这个数据集资源,现在已经在GitHub Trending上排名第3。

数据集里都有什么?

数据集中,一共有227995张图片。

其中,hentai类别中有45228张;sexy类别19554张;neutral有20960张、drawings有25732张;porn类别最多,有116521张。

这些图片,是以链接的方式呈现的。以sexy类别为例:

这些链接并不都是完全有效的,也有一些会出现404的情况。

不要问我是怎么知道的……

怎么使用这个数据集?

数据集的使用,主要依靠一些脚本(位于scripts目录下)。分别是:

  • 1_get_urls.sh:遍历文本文件,在scripts / source_urls中下载上述5个类别中的每个类别的图像URL。不过,这个脚本已经运行过了,输出结果在raw_data文件中。如果没有特殊需求,可以直接从下面的脚本开始运行。

  • 2_download_from_urls.sh:下载raw_data目录中文本文件中找到的URL的实际图像。

  • 3_optional_download_drawings.sh:(可选)脚本,从Danbooru2018数据集下载适合工作场所的动漫图像。

  • 4_optional_download_neutral.sh:(可选)脚本,从Caltech256数据集下载适合工作场所的中性图像。

  • 5_create_train.sh:创建data/train目录,将所有raw_data中的.jpg和.jpeg文件复制进去,并删除损坏的图像。

  • 6_create_test.sh:创建data/test目录,从data/train中随机为每一类移动N=2000个文件。(如果需要不同的训练/测试分割,可以在脚本里改变这个数字)。也可以多次运行这个脚本,每次从data/train中移动每个类别的N个图片到data/test中。

具体的运行方式如下:

$ bash 1_get_urls.sh # has already been run$ find ../raw_data -name "urls_*.txt" -exec sh -c "echo Number of URLs in {}: ; cat {} | wc -l" \;Number of URLs in ../raw_data/drawings/urls_drawings.txt:   25732Number of URLs in ../raw_data/hentai/urls_hentai.txt:   45228Number of URLs in ../raw_data/neutral/urls_neutral.txt:   20960Number of URLs in ../raw_data/sexy/urls_sexy.txt:   19554Number of URLs in ../raw_data/porn/urls_porn.txt:  116521$ bash 2_download_from_urls.sh$ bash 3_optional_download_drawings.sh # optional$ bash 4_optional_download_neutral.sh # optional$ bash 5_create_train.sh$ bash 6_create_test.sh$ cd ../data$ ls traindrawings hentai neutral porn sexy$ ls testdrawings hentai neutral porn sexy

不过,也有热心的微博网友给出了一个使用方法:

运行环境

目前,这些脚本只在Ubuntu 16.04 Linux发行版中进行了测试。

需要的环境配置是:

  • Python3 环境:conda env create -f environment.yml

  • Java 运行环境:
    (Ubuntu linux):sudo apt-get install default-jre

  • Linux 命令行工具:wget、convert、rsync、shuf

传送门

在给出传送门之前,还是很有必要先发出预警:

上班时,不宜观看数据集内容。

https://github.com/alexkimxyz/nsfw_data_scrapper

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

内含20万“不可描述”图片,这个数据集千万别在办公室打开相关推荐

  1. GitHub上20多万张不可描述图片的数据集

    江湖一直有传闻:三流程序员写UI,二流程序员写框架,一流程序员写算法,顶级程序员穿女装. 现如今头发的稀疏程度也绝不再是判断对方是否一个高级程序员的标志,因为年纪轻轻秃头已经成为了一个不争气的现实.在 ...

  2. 那个20多万“不可描述”照片的数据集,有人用它做了鉴黄模型 | Demo

    三井 发自 凹非寺  量子位 报道 | 公众号 QbitAI 有人上手了! 近日, GitHub出现一个名为"NSFW Model"的项目.通俗一点来说,就是一个鉴黄模型. 这个模 ...

  3. 用python将照片做成数据集_那个20多万“不可描述”照片的数据集,有人用python做了鉴黄模型 | Demo...

    有人上手了! 近日, GitHub出现一个名为"NSFW Model"的项目.通俗一点来说,就是一个鉴黄模型.学习Python中有不明白推荐加入交流群 号:864573496 群里 ...

  4. 用Python做了鉴黄模型,内含多20万张“不可描述”图片

    GitHub出现一个名为"NSFW Model"的项目.通俗一点来说,就是一个鉴黄模型. 这个模型,使用的数据来自前不久量子位介绍的那个数据集,内含多20万张"不可描述& ...

  5. 用Python做了鉴黄模型,内含多20万张“不可描述”图片!

    GitHub出现一个名为"NSFW Model"的项目.通俗一点来说,就是一个鉴黄模型. Python资源共享群:484031800 这个模型,使用的数据来自前不久量子位介绍的那个 ...

  6. 全网唯一秃头数据集:20 万张人像,网罗各类秃头

    见过对植物图片数据集的,也见过对名人人脸数据集,但你见过专门针对「秃头党」进行分类和识别的吗? 一位印度学生 Ashish Jangra ,最近在 Kaggle 上发布了一个名为「Bald Class ...

  7. 500万张图片,20万处地标风景,谷歌又放出大型数据集

    https://www.toutiao.com/a6687196141051707907/ 又一份沉甸甸的数据集来了~ 去年谷歌发布了全球最大的地标数据集,现在,谷歌又发布了一个全新的.更大的地标数据 ...

  8. c语言 将url图片存到本地_一个22万张NSFW图片的鉴黄数据集?我有个大胆的想法……...

    如果你想训练一个内容审核系统过滤不合适的信息,或用 GAN 做一些大胆的新想法,那么数据集是必不可少的.例如图像鉴黄,我们需要使用卷积神经网络训练一个分类器,以区分正常图像与限制级图像.但限制级的图像 ...

  9. 3000类别,20万个标注,山师等推出大规模Logo检测数据集:LogoDet-3K

    Logo含有重要的商业信息,在商品搜索.影视节目制作.街景图片理解等任务中具有重要意义. 今天新出的论文 LogoDet-3K: A Large-Scale Image Dataset for Log ...

最新文章

  1. 用php计算自由落体,js模仿物理中的自由落体现象
  2. Excel插件类库的设计思路
  3. kwvcprojparser不是内部_在盗版window xp上安装的visual studio 2010学习版编译ace6.1时出现如下问题...
  4. 1.7 Character类
  5. python获取文件夹下文件_Python获取目录下的所有文件
  6. Android异步任务机制之AsycTask
  7. html5之web worker
  8. Java笔记-JNI中Java与C语言解决中文乱码问题
  9. 使用Service Installer在.NET Core中配置依赖注入而无需任何代码
  10. java语言 跨平台_Java语言不一定就跨平台
  11. 电大与152双向数据同步的方案
  12. Ubuntu18.04 下安装TIM
  13. uniapp实现微信公众号支付
  14. excel冻结窗口_excel表格怎么来冻结窗口同时冻结行和列
  15. JavaScript 学习笔记 p61 - 69
  16. 多级下料问题的建模 翻译
  17. 毕业设计-基于计算机视觉的垃圾分类识别系统
  18. css+html中div和img对齐
  19. Kafka自定义分区规则
  20. Android 调用系统中的相机应用及静默拍照

热门文章

  1. @程序员,幼儿园小班都在学 AI,就问你慌不慌?
  2. 年末阿里百度等大厂技术面试题汇总,不可思议!
  3. 真的已经讲烂了!java字符串转对象
  4. GitHub 撤销 commit
  5. mybatis接口动态代理原理
  6. python库管理_Python中管理数据库
  7. java futuretask 源码解析_Java异步编程——深入源码分析FutureTask
  8. ps 毛发 边缘_用PS给老旧黑白照片上色,亲妈级教学,简单实用,轻松搞定!
  9. 计算机应用技术专业盲打键盘,一种双手八指轨道定键位盲打器与盲打键盘
  10. mysql主从同步问题_mysql主从同步问题整理