摘要:很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的。下面的网址列表不仅包含用于实验的大型数据集,还包含描述、使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码。

1 -Kaggle数据集

网址:https//www.kaggle.com/datasets

这是我最喜欢的数据集网站之一。每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。该网站包含大量形状、大小、格式各异的真实数据集。你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。

2 -亚马逊数据集

网址:https//registry.opendata.aws

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!

3- UCI机器学习库

网址:https//archive.ics.uci.edu/ml/datasets.html

这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。

4-谷歌的数据集搜索引擎

网址:https://toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。

5 -微软数据集

网址:https//msropendata.com

2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。

它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。

6-Awesome公共数据集

网址:https//github.com/awesomedata/awesome-public-datasets

这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。

7 -政府数据集

政府的相关数据集也很容易找到。许多国家为了提高知名度,向公众分享了各种数据集。例如:

欧盟开放数据门户欧洲政府数据集

新西兰政府数据集

印度政府数据集

8-计算机视觉数据集

网址:https//www.visualdata.io

如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。

该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

本文由阿里云云栖社区组织翻译。
文章原标题《Top Sources For Machine Learning Datasets》,译者:黄小凡,审校:袁虎。
文章简译,更为详细的内容,请查看原文。

机器学习数据集哪里找:最佳数据集来源盘点 1相关推荐

  1. 机器学习数据集哪里找:最佳数据集来源盘点

    很难找到一个特定的数据集来解决对应的机器学习问题,这是非常痛苦的.下面的网址列表不仅包含用于实验的大型数据集,还包含描述.使用示例等,在某些情况下还包含用于解决与该数据集相关的机器学习问题的算法代码. ...

  2. 【机器学习】50个最佳机器学习公共数据集

    外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github.福布斯.CMU官网 ...

  3. 速收藏!最强数据集50个最佳机器学习公共数据!

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要5分钟 跟随小博主,每天进步一丢丢 量子位编辑 原文地址 https://medium.com/datadriveninvestor/the-5 ...

  4. 机器学习的 50 个最佳免费数据集

    转载以保存,来源:https://gengo.ai/datasets/the-50-best-free-datasets-for-machine-learning-zh/ 用于机器学习的开放数据集有哪 ...

  5. 使用合成数据改善机器学习中的极度不平衡数据集

    这是我的推广信息,以激励自己更好的分享自己的知识和经验!也希望看到的你能够多多支持,谢谢! 1. 滴滴云AI大师: 目前滴滴云正在大力推广自己的云计算服务,需要购买的朋友们用我的AI大师码 「2049 ...

  6. 深度学习数据集怎么找?

    人工智能的无名英雄就是数据,许多许多标注或未标注的数据.研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤.事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,那么深度学习数据集怎么找?本 ...

  7. ML之分类预测:机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现

    ML之分类预测:机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现 目录 机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现 代码实现

  8. Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding

    Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介.应用之详细攻略--daidingdaiding 目录 箱线图 箱线图 箱线图(box plots):这些图显示 ...

  9. ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测

    ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测 目录 输出结果 数据集展示 输出结果 1.k-NN 2.LoR 4.DT 5.RF ...

最新文章

  1. 《C和C++代码精粹》——2.5 普通指针
  2. ML DL 知乎问题收集
  3. P7 计算机的性能指标
  4. java只有值传递_面试官:为什么 Java 中只有值传递?
  5. 自定义控件(Task01)——可以设置属性的控件
  6. Java并发编程—锁的基本概念
  7. Spring Boot Admin的使用
  8. 如何搭建一个内部组件共享平台
  9. ssm read time out的原因_加盟蜜雪冰城未通过是什么原因?总部公布了两点原因
  10. windows安装composer方法和使用方法
  11. windows删除「WIN+R」的历史记录
  12. Linux/Centos: readelf命令使用说明
  13. modelsim安装_Vivado联合ModelSim
  14. 论文润色软件Stylewriter,whitesmoke,1check使用亲测
  15. 在win11和win10的edge浏览器运行flash网址设置详解
  16. 【桌面运维转网络要做什么准备,高级网工学习路线分享】
  17. xamarin Android activity生命周期详解
  18. 淘宝自动查券找券返利机器人实现方法分享
  19. Mycat读写分离、主从切换、分库分表的操作记录 https://www.cnblogs.com/kevingrace/p/9365840.html
  20. IDT Source Code Running Guide(Linux+ffmpeg-0.11.1+opencv-2.4.2)

热门文章

  1. java打包成jar_把Java程序打包成jar文件包并执行的方法
  2. wepack中loader的分类
  3. android退出图标按钮,android-setCloseButtonIcon(位图可绘制)不适用于...
  4. macos+未能和恢复服务器,macOS Big Sur 完美降级教程
  5. 八皇后(N皇后)问题
  6. 在nodejs项目装一个库的多个版本
  7. html5 中keygen用法,HTML5: keygen 标签
  8. 20200707:动态规划专题之不同路径
  9. 高级工计算机操作试题及答案,计算机系统操作高级工试题和答案[1]
  10. android编辑框显示,为EditText输入框加上提示信息