要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。

近期,亚马逊高级技术顾问 Will Badr 分享了 8 种适用于不同机器学习问题的常用数据集,并给出相应的描述,用法示例以及在某些情况下用于解决与该数据集相关的机器学习问题的代码。

1、Kaggle 数据集

链接:

https://www.kaggle.com/datasets

这是当前数据科学领域最热门,也是最受欢迎的数据集之一。在 Kaggle 中,每个数据集都是对应一项比赛,参赛者可以在这个小社区里讨论数据,查找一些公共代码或在 kernel 中创建自己的项目。Kaggle 中包含大量不同类型,不同大小以及多种不同格式的真实数据集。此外,参赛者还可以看到与每个数据集关联的 kernel,其中许多数据科学家会上传自己的 notebooks 来分析数据集,还能找到解决特定数据集问题的算法实现。

2、Amazon 数据集

链接:

https://registry.opendata.aws/

Amazon 数据库包含不同领域的多种数据集,如公共交通,生态资源,卫星图像等。在数据集官网还有一个搜索框,可以帮助使用者快速找到所需的数据集。每个数据集包含相应的数据集描述和使用示例,数据量非常丰富且易于使用。

此外,依托于 Amazon Web Services (AWS) 平台,如 Amazon S3,这些储存在云端的数据集都有高度的可扩展性服务,这对于那些使用 AWS 进行机器学习开发和实验的用户来说,将非常方便。因为在云端,数据集的传输将非常快。

3、UCI 机器学习数据集

链接:

https://archive.ics.uci.edu/ml/datasets.html

这是由加州大学欧文分校(UCI)信息与计算机科学学院的研究者创建的一个包含 100 多种不同类型数据集的大型数据库。该数据库根据不同的机器学习问题来对数据集进行分类,在这里,用户可以找到单变量、多变量时间序列数据集,分类、回归、推荐系统数据集等。此外,该数据库中的部分数据集已经经过数据清洗过程,是可以直接为用户使用。

4、Google 数据集所搜引擎

链接:

https://toolbox.google.com/datasetsearch

2018 年 9 月,Google 推出了这项服务,它是一个可以按名称搜索相应数据集的工具箱,其目标是集成数万个不同的数据集,并对用户开放使用。

5、Miscrosoft 数据集

链接:

https://msropendata.com/

2018 年 7 月,Miscrosoft 联合其外部的研究社区声明发布 Miscrosoft Research Open Data 服务。这项存储在云端的数据库,包含了一系列在已发表研究中使用过的数据集,致力于促进全球研究社区的研究合作。

6、Awesome 公开数据集

链接:

https://github.com/awesomedata/awesome-public-datasets

Awesome 是一个按不同主题分类的数据库,其中涵盖了如生物学,经济学,教育等不同领域的重要数据集,其中列出的大多数数据集都可供用户免费试用,但在使用任何数据集之前,用户需要通过认证已获得使用许可。

7、government 数据集

在这里你可以找到那些与政府相关的数据集。为显示政府工作的透明度,许多国家机构公开发布了其国家在一些领域的数据集,如下示例:

EU Open Data:欧洲政府数据集

链接:

https://data.europa.eu/euodp/data/dataset

US Gov Data:美国政府数据(非政治问题上的数据集,但自特朗普政府上调以来,该网站数据集暂时无法使用)

链接:

https://www.data.gov/

New Zealand’s Government Dataset:新西兰政府数据集

链接:

https://catalogue.data.govt.nz/dataset

Indian Government Dataset:印度政府数据集

链接:

https://data.gov.in/

8、Computer Vision 领域数据集

链接:

https://www.visualdata.io/

如果是从事图像处理、计算机视觉或深度学习领域的工作,那么该数据集会是最好的实验资源。Visual Data 包含一些可用于构建计算机视觉(CV)模型的优秀数据集。使用者可以通过某个特定的 CV 任务来查找相应的数据集,如语义分割(semantic segmentation)、图像生成标题(image captioning)、图像生成(image generation),甚至是无人驾驶解决方案所需的数据集。

原文链接:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b

8种适用于不同机器学习问题的常用数据集相关推荐

  1. 机器学习笔记:常用数据集之scikit-learn在线下载开源数据集

    目录 1. 前言 2. 来自真实世界的开源数据集 3. 函数接口 4. 使用代码示例 例1 kddcup99数据集 例2 20类新闻分类数据集 例3 带标签的人脸数据集 1. 前言 机器学习算法是以数 ...

  2. 机器学习笔记:常用数据集之scikit-learn内置玩具数据集

    目录 1. 前言 2. Scikit-learn内置数据集 3. 数据加载示例 例1:鸢尾花数据集 例2:糖尿病数据集 例3:手写数字数据集 1. 前言 机器学习算法是以数据为粮食的,所以机器学习开发 ...

  3. 机器学习、推荐系统常用数据集

    机器学习.推荐系统有关数据集 在学习中整理了机器学习.推荐系统的一些数据集,希望可以对你有所帮助. 1.UCI 这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集. 根据机器学习问题 ...

  4. Sklearn 损失函数如何应用到_机器学习大牛最常用的5个回归损失函数,你知道几个?...

    "损失函数"是机器学习优化中至关重要的一部分.L1.L2损失函数相信大多数人都早已不陌生.那你了解Huber损失.Log-Cosh损失.以及常用于计算预测区间的分位数损失么?这些可 ...

  5. 04_机器学习概述,什么是机器学习,应用场景,数据来源与类型,网上可用的数据集、常用数据集数据的结构组成、特征工程是什么、意义、特征抽取、sklearn特征抽取API、文本特征抽取(学习笔记)

    机器学习概述 人工智能.机器学习.深度学习之间的关系 机器学习框架 Pytorch Caffe2 theano Chainer Scikit-learn 语言支持 机器学习书籍 <面向机器智能 ...

  6. 5种方式将机器学习带到Java、Python以及Go等编程语言

    5种方式将机器学习带到Java.Python以及Go等编程语言 机器学习目前炙手可热,本文搜集了Java.Python以及go等编程语言中常见且实用的开源机器学习工具,对机器学习感兴趣的开发者或者准备 ...

  7. 机器学习之Python常用函数及模块整理

    机器学习之Python常用函数及模块整理 1. map函数 2. apply函数 3. applymap函数 4. groupby函数 5. agg函数 6. lambda函数 7. rank函数 8 ...

  8. 分布式机器学习常用数据集

    今天开始跑分布式机器学习论文实验了,这里介绍一下论文的常用数据集(因为我的研究领域是分布式机器学习,所以下面列出的数据集可能偏向这方面,做其他方向的童鞋参考下就好). 1. CV数据集 (1)FEMI ...

  9. 一种将快捷方式从开始菜单“常用应用”的中去除的方法

    当我们安装一款软件的时候,这款软件的一些快捷方式可能被设置到开始菜单的"常用应用"区域.但是,如果是"卸载"快捷方式被"钉"到该区域,就会造 ...

最新文章

  1. 概率论中高斯分布(正态分布)介绍及C++11中std::normal_distribution的使用
  2. 微服务之API网关接口设计
  3. linux下.rar的文件,Linux下.rar压缩文件处理 (RAR 4.11 for linux )
  4. python目录大纲
  5. Python 文件和目录操作总结
  6. 自己动手写一个 SimpleVue
  7. 堪称暴力美学的可视化大屏是怎么做的?附无代码硬核教程
  8. 不想被时代抛弃,就别远离一线
  9. 如何提升Java应用程序性能
  10. 【114天】尚学堂高琪JAVA300篇视频精华笔记(1-6)
  11. Unified diagnostic services (UDS)
  12. 手机连接Eclipse连接不上
  13. c++输入10个数/输入n个数,求其平均值
  14. 开关电源环路补偿设计及调节笔记
  15. vim 使用体会(1) Normal模式 当你启动Vim后,Vim会处于Normal模式。在Vim的Normal模式下,所有的键就是功能键,下面附上Vim快捷键分布图。 (2) Insert模
  16. Kali从入门到出门-手记
  17. js关于时间(date)的比较
  18. 一起来瞧虚拟化——vtpm实战
  19. 品管七大手法-7直方图(转载)
  20. c语言outl函数,如何调用outlook

热门文章

  1. titan rtx怎么样
  2. java实验总结与心得_java实验心得体会范例精选
  3. isin函数及其反函数
  4. vue实现任务周期cron表达式选择组件
  5. 一文带你理顺C++中的const
  6. 购买的保险是不是夫妻共同财产
  7. 求解大规模稀疏多目标优化问题的一种进化算法(SparseEA)笔记
  8. 毕业设计:新闻大数据搜索系统 (完整代码运行)
  9. ganglia监控hadoop集群配置
  10. sublime text 软件上手指南