前言

数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半。但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验。因而找到合适的数据集是一件很难的事情,接下来我们就盘点一下一些优质的数据集资源,或许会帮到你哦。

Kaggle Datasets

每个dataset都是一个小型社区,您可以在其中讨论数据、查找一些公共代码或在内核中创建自己的项目。它们包含大量的实际数据集,这些数据集具有各种形状、大小和许多不同的格式。您还可以看到与每个数据集关联的“内核”,其中许多不同的数据科学家提供了笔记本来分析数据集。有时候你可以在自己笔记本上想到一些算法来解决这个特定数据集中的预测问题。

https://www.kaggle.com/datasets

Amazon Datasets

该数据源包含不同领域的许多数据集,如:(公共交通、生态资源、卫星图像等)。它也有一个搜索框,以帮助您找到您正在寻找的数据集,它也有数据集描述和使用的所有数据集的例子,这是非常有用的,易于使用!

这些数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。如果您正在使用AWS进行机器学习实验和开发,这将非常方便,因为数据集的传输非常快,因为它是AWS网络的本地数据集

https://registry.opendata.aws/?source=post_page

UCI ML Repository

加州大学信息与计算机科学学院的另一个巨大的数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。您可以为单变量和多变量时间序列数据集、分类、回归或推荐系统找到数据集。UCI中的一些数据集已经被清理并准备好使用。

https://archive.ics.uci.edu/ml/index.php

Google数据集搜索引擎

在2018年末,谷歌尽其所能,推出了另一项伟大的服务。它是一个工具箱,可以按名称搜索数据集。他们的目标是统一成千上万个不同的数据集存储库,使数据集可被发现。干得好,谷歌。

https://toolbox.google.com/datasetsearch?source=post_page

Microsoft Datasets

2018年7月,微软与外部研究界共同宣布启动“微软研究院开放数据”

https://msropendata.com/?source=post_page

Awesome公共数据库

这是一个按主题组织的数据集的伟大来源,如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,您应该始终检查许可要求。

https://github.com/awesomedata/awesome-public-datasets?source=post_page

计算机视觉数据集

如果您正在从事图像处理、计算机视觉或深度学习,那么这应该是您的实验数据来源。

视觉数据包含少量的大型数据集,可用于构建计算机视觉(CV)模型。您可以通过特定的CV主题来查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)来查找数据集。

https://www.visualdata.io/?source=post_page

Lionbridge AI Datasets

https://lionbridge.ai/datasets/?source=post_page

总而言之,似乎有一个全球性的方向,就是让越来越多的数据可用,让研究和机器学习社区更容易获得。这些新数据集的社区将继续增长,使数据更容易访问,以便众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

uci数据集_数据分析找不到数据集?快来看这个盘点相关推荐

  1. 泰坦尼克 数据集_数据分析(一):11招入门数据分析

    作者:奔跑的鳄鱼 阅读本文大概需要3分钟 用Python来玩转数据分析实在是太爽了,因为有强大的Pandas来处理数据非常方便,我个人对数据分析情有独钟,探索数据的秘密非常好玩!前段时间写过一篇小白学 ...

  2. tenflow数据集_计算机视常用的数据集 Data sets

    标签: 在数据集上和别人的结果进行比较,可以量化视觉工作的结果.列举一些从书上摘来的流行的数据集. CUReT: Columbia-Utrecht Reflectance and Texture Da ...

  3. python的自带数据集_解决Keras自带数据集与预训练model下载太慢问题

    keras的数据集源码下载地址太慢.尝试过修改源码中的下载地址,直接报错. 从源码或者网络资源下好数据集,下载好以后放到目录 ~/.keras/datasets/ 下面. 其中:cifar10需要改文 ...

  4. pascal voc数据集_【资源分享】数据集搜索神器BIFROST

    1 前言数据是深度学习的血液.数据的好坏,很大程度上影响了模型的效果.数据集难找?贴心的 Jack,今天给大家带来了一个数据集搜索工具「BIFROST」. 2 BIFROST「BIFROST」一个集美 ...

  5. python创建数据集_利用 python 在本地数据集创建训练集和测试集

    根据自己的数据集,自动划分训练集.测试集 举个栗子: 已经分好的文件: origin 文件夹有三类数据:good,bad,m,每类文件夹包含不同数量的图片,如下: 需要生成数据集的文件: 结果:根据设 ...

  6. pythonsklearn乳腺癌数据集_使用sklearn的样本数据集

    请至PC端网页下载本课程代码课件及数据. Sklearn是python用于数据挖掘以及机器学习的利器,但是其功能庞杂,初学者很难理清脉络,快速学习其应用精髓. 本课程以以CRISP-DM为理论指导,系 ...

  7. war包怎么解压_微信猫和老鼠主题怎么搞?快来看

    猫和老鼠微信主题让很多喜欢猫和老鼠的用户,想要设置成猫和老鼠微信主题,关于微信猫和老鼠主题怎么弄?相信很多玩家都还不知道怎么设置吧!那么下面一起看看微信主题猫和老鼠设置教程. 微信猫和老鼠主题怎么弄: ...

  8. 机器学习实战的数据集在哪找_在哪里找到很棒的机器学习数据集

    机器学习实战的数据集在哪找 Good machine learning research starts with an exceptional dataset. There is no need to ...

  9. 自带的数据集_机器学习练习数据哪里找?两行代码搞定!

    初学者学习机器学习的时候,经常会找不到练习的数据,实际上scikit-learn内置了很多可以用于机器学习的数据,可以用两行代码就可以使用这些数据. 一.自带数据集 自带的小的数据集为:sklearn ...

最新文章

  1. Linux12-文件系统基础
  2. linux使用grep数字个数,51CTO博客-专业IT技术博客创作平台-技术成就梦想
  3. 一阶电路暂态响应的结果分析。_反激式DCDC变换器的分析、计算与仿真精讲
  4. oracle 增长型分区,oracle 11g 分区表创建(自动按年分区)
  5. 实现Android-JNI本地C++调试
  6. 用SAP WebIDE将CRUD Master-Detail应用打包成Hybrid App
  7. 统计概率分布_概率统计中的重要分布
  8. python seaborn 热图 值对应颜色_基于行值的seaborn热图配色方案
  9. Java进阶 | 泛型机制与反射原理
  10. 中国移动开通eSIM 一号双终端将要取代传统SIM卡?
  11. 结对项目-使用计算器的设计和介绍
  12. 死磕java_死磕 java同步系列之AQS起篇
  13. gcd常见结论及gcd与斐波那契结合--hdu6363.
  14. 从把三千行代码重构成15行代码谈起—好牛X的哟!!
  15. 用计算机函数,信息技术应用 用计算机画函数图象教案设计(一等奖)
  16. 蓝桥杯 我们的征途是星辰大海
  17. Description 对于一本共有n页的书,它的页码从1开始编号,一直到n,页码中没有无用的0,则该书页码中分别共用到了多少个0,1,2,3,4,5,6,7,8,9?
  18. css锚点定位不准确问题
  19. 使用TreeMap实现ASCII排序
  20. 若依配置教程(九)若依前后端分离版部署到服务器Nginx(Windows版)

热门文章

  1. 公式中表达单个双引号【】和空值【】的方法及说明
  2. ReactOS,硬件抽象层,HAL概述
  3. 在ASP.NET中自动给URL地址加上超链接(好东东)
  4. spring声明式事务管理方式( 基于tx和aop名字空间的xml配置+@Transactional注解)
  5. AppTheme 属性详解
  6. jquery mobile 从一个html的page跳转到另一个html的page
  7. 分布式锁防止订单重复提交_防止表单重复提交看这里!!!
  8. java与sql2005连接数据库_Java链接数据库SQl Server2005
  9. java solr_通过Java访问Solr服务实例及相关配置
  10. 简单快速的用SpringBoot访问静态资源(图片、html)