作者 | Will Badr

译者 | Linstancy

整理 | Jane

出品 | AI科技大本营(ID:rgznai100)

要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。

近期,亚马逊高级技术顾问 Will Badr 分享了 8 种适用于不同机器学习问题的常用数据集,并给出相应的描述,用法示例以及在某些情况下用于解决与该数据集相关的机器学习问题的代码。

1、Kaggle 数据集

链接:

https://www.kaggle.com/datasets

这是当前数据科学领域最热门,也是最受欢迎的数据集之一。在 Kaggle 中,每个数据集都是对应一项比赛,参赛者可以在这个小社区里讨论数据,查找一些公共代码或在 kernel 中创建自己的项目。Kaggle 中包含大量不同类型,不同大小以及多种不同格式的真实数据集。此外,参赛者还可以看到与每个数据集关联的 kernel,其中许多数据科学家会上传自己的 notebooks 来分析数据集,还能找到解决特定数据集问题的算法实现。

2、Amazon 数据集

链接:

https://registry.opendata.aws/

Amazon 数据库包含不同领域的多种数据集,如公共交通,生态资源,卫星图像等。在数据集官网还有一个搜索框,可以帮助使用者快速找到所需的数据集。每个数据集包含相应的数据集描述和使用示例,数据量非常丰富且易于使用。

此外,依托于 Amazon Web Services (AWS) 平台,如 Amazon S3,这些储存在云端的数据集都有高度的可扩展性服务,这对于那些使用 AWS 进行机器学习开发和实验的用户来说,将非常方便。因为在云端,数据集的传输将非常快。

3、UCI 机器学习数据集

链接:

https://archive.ics.uci.edu/ml/datasets.html

这是由加州大学欧文分校(UCI)信息与计算机科学学院的研究者创建的一个包含 100 多种不同类型数据集的大型数据库。该数据库根据不同的机器学习问题来对数据集进行分类,在这里,用户可以找到单变量、多变量时间序列数据集,分类、回归、推荐系统数据集等。此外,该数据库中的部分数据集已经经过数据清洗过程,是可以直接为用户使用。

4、Google 数据集所搜引擎

链接:

https://toolbox.google.com/datasetsearch

2018 年 9 月,Google 推出了这项服务,它是一个可以按名称搜索相应数据集的工具箱,其目标是集成数万个不同的数据集,并对用户开放使用。

5、Miscrosoft 数据集

链接:

https://msropendata.com/

2018 年 7 月,Miscrosoft 联合其外部的研究社区声明发布 Miscrosoft Research Open Data 服务。这项存储在云端的数据库,包含了一系列在已发表研究中使用过的数据集,致力于促进全球研究社区的研究合作。

6、Awesome 公开数据集

链接:

https://github.com/awesomedata/awesome-public-datasets

Awesome 是一个按不同主题分类的数据库,其中涵盖了如生物学,经济学,教育等不同领域的重要数据集,其中列出的大多数数据集都可供用户免费试用,但在使用任何数据集之前,用户需要通过认证已获得使用许可。



7、government 数据集

在这里你可以找到那些与政府相关的数据集。为显示政府工作的透明度,许多国家机构公开发布了其国家在一些领域的数据集,如下示例:

  • EU Open Data:欧洲政府数据集

链接:

https://data.europa.eu/euodp/data/dataset

  • US Gov Data:美国政府数据 (非政治问题上的数据集,但自特朗普政府上调以来,该网站数据集暂时无法使用)

链接:

https://www.data.gov/

  • New Zealand’s Government Dataset:新西兰政府数据集

链接:

https://catalogue.data.govt.nz/dataset

  • Indian Government Dataset:印度政府数据集

链接:

https://data.gov.in/



8、Computer Vision 领域数据集

链接:

https://www.visualdata.io/

如果是从事图像处理、计算机视觉或深度学习领域的工作,那么该数据集会是最好的实验资源。Visual Data 包含一些可用于构建计算机视觉(CV)模型的优秀数据集。使用者可以通过某个特定的 CV 任务来查找相应的数据集,如语义分割(semantic segmentation)、图像生成标题(image captioning)、图像生成(image generation),甚至是无人驾驶解决方案所需的数据集。

原文链接:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b

(本文为 AI科技大本营编译文章,转载请微信联系 1092722531。

———————————————  征稿  ————————————————

推荐阅读:

  • 2019最新实战!给程序员的7节深度学习必修课,最好还会Python

  • 知否?知否?一文看懂深度文本分类之DPCNN原理与代码

  • PDF翻译神器,再也不担心读不懂英文Paper了

  • Facebook增强版LASER开源:零样本迁移学习,支持93种语言

  • Caicloud 开源 Nirvana:让 API 从对框架的依赖中涅槃重生

  • 程序员有话说 | 那个拒绝加班的程序员后来怎么样了

  • 告别摩拜

  • 6大改进:盘点以太坊的2018冒险之旅

  • 不难!月薪 50K大牛,悉心整理程序员必备技能!

秘籍 | 机器学习数据集网址大全相关推荐

  1. 80+机器学习数据集,还不快收藏

    整理 | suiling 出品 | AI科技大本营(ID:rgznai100) 对于从事机器学习的小伙伴来说,机器学习必须以大量的数据为基础,否则构建再好的模型也不能达到你想要的效果.同时,不同质量的 ...

  2. 机器学习数据集的方法 及 数据集资源

    亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法 1.Kaggle数据集 Kaggle的数据集中,包含了用于各种任务,不同规模的真实数据集,而且有许多不同的格式.此外,你还 ...

  3. 收藏 | 机器学习数据集汇总收集

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 仅作分享,不代表本公众号立场,侵权联系删除 转载于:机器学习算法与 ...

  4. 各领域机器学习数据集汇总

    大学公开数据集 (Stanford)69G大规模无人机(校园)图像数据集[Stanford] http://cvgl.stanford.edu/projects/uav_data/ 人脸素描数据集[C ...

  5. 机器学习数据集哪里找:最佳数据集来源盘点

    很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的.下面的网址列表不仅包含用于实验的大型数据集,还包含描述.使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码. ...

  6. 机器学习数据集哪里找:最佳数据集来源盘点 1

    摘要:很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的.下面的网址列表不仅包含用于实验的大型数据集,还包含描述.使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法 ...

  7. 力荐50个最实用的免费机器学习数据集

    首先,在搜索数据集时要记住这几点: 数据集不应该是混乱的,因为你不希望花费大量时间来清理数据. 数据集不应包含太多行或列,要很容易使用. 数据越干净越好,因为清理大型数据集可能非常耗时. 这个数据集应 ...

  8. AI深度、机器学习数据集资源汇总

    文章目录 前言 一.数据集网站 二.具体数据集 1.记录的具体数据集 2.医疗图像 3.网上数据集汇总链接 总结 前言 继续收集.更新.汇总....................... 一.数据集网 ...

  9. 力荐 50 个最实用的免费机器学习数据集

    https://www.toutiao.com/a6641833252602511879/ 2019-01-02 17:45:11 首先,在搜索数据集时要记住这几点: ♦ 数据集不应该是混乱的,因为你 ...

最新文章

  1. zoj 3554 A Miser Boss
  2. 有哪些看起来很沙雕的公众号,实质上却年薪百万?
  3. mxnet安装及NDArray初体验
  4. android NDK 编译hellojni 例子文件
  5. 人生没有理想,只有目标
  6. [转载] 【python系列】numpy中的tile函数
  7. 十分钟完成的操作系统编写 你信吗?
  8. python类中方法相互调用_python中同一个类,带参的方法直接如何相互调用
  9. 用u盘装linux系统的操作全程图解,笔者教你用u盘装系统的操作全程图解
  10. 新一配:如何对电脑配置进行评判【转载】
  11. 2014网络红人照片网络红人排行榜2014经典语录网络红人斌少
  12. python解析word文档首、尾页
  13. 【离散数学】集合的基数
  14. 在Textview中获取指定文字位置(兼顾网址链接和emoji表情),并在其附近展示图片
  15. mysql的时间最晚日期_MySQL日期时间函数
  16. python包和库的区别_python中模块、包、库的区别和使用
  17. matlab绘制不同角度的抛体运动
  18. 小程序发布测试版本步骤
  19. 洞洞板上的TQFP芯片的焊接模式
  20. 字符输出流 (Write)

热门文章

  1. Android之NDK开发的简单实例
  2. Product Orders(生产订单)状态相关函数BAPI
  3. ORACLE执行计划的一些基本概念
  4. 命令行查看电脑WIFI密码
  5. Centos-安装Docker并使用Docker安装mysql遇到的问题以及解决方法
  6. 面向对象与软件工程---团队作业1
  7. iOS 线程之GCD的高级使用方法
  8. mac下mysql5.7.10密码问题
  9. mongodb的shell命令
  10. jquery radio 取值