杨净 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

每个研究机器学习项目的人,似乎都有这样的痛苦。那就是从学术网站、GitHub上寻找到合适的数据集。

但现在,有这样一个网站可以帮你搞定,让AI开发变得更加简单易行。

这个项目名叫BIFROST,一个数据集搜索工具,里面共有1899个图像数据集,还专门设置分类,比如Humans、Geospatial、Autonomous Cars等。

一键搜索,免费获取,直接链接到原始数据库,帮你快速找到合适的数据集。
研究团队来自新加坡,Reddit上17小时热度200+。

使用说明

话不多说,我们就直接来上这个网站来试试~

正如刚才所看到的,这个工具是按任务、应用、类别、标签或格式进行分类。

根据「类别」,这个网站共分为18类,比如Humans、Geospatial、Autonomous Cars、Retail、3D等。

向左滑动,选择你需要的类别,一键即可出结果,我们以3D为例,然后就呈现这样的页面。

若以「Humans」为例,界面是酱紫的。

我们也看到,这是按照精选进行排序。除此之外,你还可以选择「最新」、「最多标签数」、「数据集大小」、「图片数量最多」这些分类。

除了「快速检索」之外,还可以根据开发人员的具体需要来进行搜索。

可以选择这些「限定」:任务类型,标签格式,最小图像数量。

其中任务类型主要包括,图像分割,目标检测、图像分类、姿态估计、视觉推理、3D重建、视频分类。

标签格式包括,YOLO、PASCAL、COCO以及Segmentation。

数据集

以COCO为例,这是一个适用于目标检测、图像分割和字幕大型数据集。

界面是这样的:

主要分为图像示例、数据集简介、特性、类别分布四个板块。

在简介部分,可以看到这个数据集的研究团队、一句话介绍,以及通过CC4.0协议的部分,还直接链接到原始数据库论文地址

CC4.0协议是一种知识共享许可协议,是一种允许他人分发作品的公共版权许可,还有一种类似的,MIT协议。

作者此次选择的近2000个数据集都通过了这两项协议的。所以网站并不直接管理这些数据集,它只是一个数据集的「搬运工」。

在「类别分布」这一板块,首先会提示,没有标签、标签过多的图像数量。

然后根据不同的标签类别,显示各自的图像数量分布。

以这个数据集为例,那么共有80个类别,其中交通信号灯、汽车、人的标签较多,其中「人」这个标签就有近9万张图像。

这个项目的负责人名叫Charles Wong ,来自新加坡,目前是Bifrost的CEO。

本科就读于新加坡科技设计大学,曾参与MIT Global Leadership Program。

接下来,他们的工作将主要集中在这几个方面:

  1. 将网站中的每一个数据集都进行全面分析

  2. 改进搜索方式

  3. 实现用户上传和分享自己的数据集

  4. 生成自己的合成数据集

「Why is our data better?」

就像在网站上介绍到的那样,让你快速、高精度、高准确度地寻找到合适的图像数据集。

感兴趣的朋友,可以戳下方链接去试试哦~

网站地址:
https://datasets.bifrost.ai/
参考链接:https://www.reddit.com/r/MachineLearning/comments/i6fsl6/p_we_built_an_easy_way_to_find_image_datasets/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

喜欢就点「在看」吧 !

数据集轻松按需搜索,这个工具汇集近2000个图像数据集,可免费获取|Reddit高热...相关推荐

  1. 图像数据集如何制作?增强??

    图像数据集如何制作?增强?? 本文使用的BGA图像数据集由X-Ray检测系统平台XD7600NT采集获得,以此为例. BGA图像600张作为数据集,图像的尺寸不一,其中部分图像数据集如图所示.最小的尺 ...

  2. 【深度学习】图像数据集处理常用方法合集(部分基于pytorch)

    [深度学习]图像数据集处理常用方法合集(部分基于pytorch) 1 图像数据集预处理的目的1.1 灰度图转化1.2 高斯滤波去除高斯噪声 2 使用双峰法进行图像二值化处理2.1 图像直方图2.2 双 ...

  3. 生成镶嵌数据集涉及的一些概念和工具

    目录 1.镶嵌数据集工具概览和粗略流程 2.镶嵌数据集初始化 3.镶嵌数据集图层 4.镶嵌数据集常规属性 5.镶嵌数据集影像属性 6 .镶嵌数据集镶嵌属性(叠加次序) 7.镶嵌数据集目录元数据属性 8 ...

  4. KendoReact R2 2022轻松定制的主题生成器工具

    KendoReact R2 2022轻松定制的主题生成器工具 KendoReact 是一个专业的 UI 工具包,可以更快地构建和设计应用程序.全面的 React 组件库有 100 多个完全可访问和可定 ...

  5. 用python编写一个高效搜索代码工具

    用python编写一个高效搜索代码工具 大多码农在linux环境下使用grep+关键词的命令搜索自己想要的代码或者log文件.今天介绍用python如何编写一个更强大的搜索工具,windows下也适用 ...

  6. 编程新手真言:不要去干追逐技术的蠢事,你只是用户,只需学会一门工具开发....

    不要去干追逐技术的蠢事,你只是用户,只需学会一门工具开发. markbyscar: 1,语言 a,一门过程式语言,b,一门oo式语言. 2,数据结构. 3,设计模式,框架设计. 4,专业领域知识. 转 ...

  7. 搜索python代码的软件_用python编写一个高效搜索代码工具

    用python编写一个高效搜索代码工具 大多码农在linux环境下使用grep+关键词的命令搜索自己想要的代码或者log文件.今天介绍用python如何编写一个更强大的搜索工具,windows下也适用 ...

  8. 怎样自动提取邮件的内容_这些最新的外贸搜索开发工具(图灵搜、谷歌搜索提取工具、易查查),你会使用吗?...

    贸业务开展过程中,搜寻买家信息,开发买家客户,是开展外贸的前提.而掌握B2B.谷歌.搜索引擎.社交网站及众多搜索工具的运用技巧,则是外贸业务人员的基本功.本篇文章将结合图灵搜.谷歌搜索提取工具.易查查 ...

  9. java filesearcher_Java Object Searcher | java内存对象搜索辅助工具

    Java Object Searcher | java内存对象搜索辅助工具 0x01 工具简介 #################################################### ...

最新文章

  1. 用1天快速上手org-mode(windows系统)
  2. 大厂首发!java敏捷开发模式面试题
  3. 促使网站关键词排名稳定的技巧有哪些?
  4. OpenCV蒙版图像make mask image的实例(附完整代码)
  5. 守护基于JVM的应用程序
  6. mysql cve 2016 3521_MySQL-based databases CVE -2016-6663 本地提权
  7. 剑指offer面试题[19]-二叉树的镜像
  8. ajax 中操作this,需要先在ajax的外面给this重新定义为_this!!
  9. centos配置maven环境
  10. (2)量化交易学习-股票数据下载
  11. ASP敏感词汇过滤函数
  12. python模拟登录教务系统
  13. 数理经济模型(1)---蒙特卡洛仿真Monte Carlo Simulation
  14. 航空爱好者的自问自答(1)
  15. 多元线性回归:客户价值预测
  16. 自动驾驶芯片之——FPGA和ASIC介绍
  17. 如何搭建CA(向CA申请证书)
  18. 应届生招聘的一些感悟和思考
  19. 如何优雅地处理过期订单
  20. mysql 唯一约束_Mysql 唯一性约束添加

热门文章

  1. 如何通过一行代码下载B站视频?
  2. 技术图文:Python 匿名函数 VS. C# Lambda表达式
  3. 【C++】用类来处理排序问题
  4. 我输给了一个 25 岁的男人
  5. 打通语言理论和统计NLP,Transformers/GNNs架构能做到吗?
  6. “编程能力差的程序员,90%会输在这点上”谷歌AI专家:其实都是瞎努力
  7. 干货!3 个重要因素,带你看透 AI 技术架构方案的可行性!
  8. 福利直投!这个活动承包你2020全年技术干货
  9. 色情低俗、暴力恐怖内容...如何用AI“一网打尽”?
  10. 李飞飞谈AI医疗:为什么我要从监督医生洗手开始做起?