下面,您将找到一个由用户组织的数据科学和机器学习免费数据集的策划列表。您将找到精选的数据集和我们最喜欢的聚合器。

目录

探索性分析的数据集

通用机器学习的数据集

深度学习数据集

自然语言处理的数据集

云计算机学习的数据集

时间序列分析的数据集

推荐系统的数据集

特定行业的数据集

流式传输的数据集

Web Scraping的数据集

当前事件的数据集

探索性分析的数据集

探索性分析是大多数数据科学练习的第一步。实践探索性分析的最佳数据集应该是有趣的,有趣的和非平凡的(即需要您挖掘一点来揭示所有的见解)。

所有链接都在新标签中打开。

我们的选择:

  • 权力的游戏 - 权力的游戏是一个流行的电视连续剧,基于乔治RR马丁的  系列。使用此数据集,您可以探索其政治格局,角色和战斗。
  • 世界大学排名 - 排名大学可能很困难,也很有争议。有数百个排名系统,他们很少达成共识。该数据集包含三个全球大学排名。
  • IMDB 5000电影数据集 - 该数据集探讨了在电影发布之前我们是否可以预测电影的受欢迎程度的问题。

聚合器:

  • Kaggle数据集 - 由Kaggle社区提供的开放数据集。在这里,你会找到一个主题的抓包。另外,您可以从数据集附带的简短教程和脚本中学习。
  • r / datasets - 由Reddit社区提供的开放数据集。这是有趣和古怪的数据集的另一个来源,但数据集往往不那么精致。

通用机器学习的数据集

在这种情况下,我们将“一般”机器学习称为回归,分类和具有关系(即表格式)数据的聚类。这些是最常见的ML任务。

我们的选择:

  • 葡萄酒质量(回归) - 来自葡萄牙北部的红色和白色vinho verde葡萄酒样品的属性。目标是根据物理化学测试对葡萄酒质量进行建模。(我们也有一个教程。)
  • 信用卡默认(分类) - 预测信用卡默认值是机器学习的宝贵和常见用途。此丰富数据集包括人口统计信息,付款历史记录,信用和默认数据。
  • 美国人口普查数据(聚类) - 基于人口统计数据的聚类是一种经过验证的实施市场研究和细分的方法。

聚合器:

  • UCI机器学习存储库 - UCI ML存储库是机器学习数据集的一种古老且流行的聚合器。提示:他们的大多数数据集都链接了可用于基准测试的学术论文。

深度学习数据集

虽然不适合通用机器学习,但深度学习一直主导某些利基,特别是那些使用图像,文本或音频数据的利基。根据我们的经验,开始深度学习的最佳方法是练习图像数据,因为有丰富的教程。

我们的选择:

  • MNIST - MNIST包含用于手写数字分类的图像。它被认为是深度学习的一个很好的入门数据集,因为它足够复杂以保证神经网络,同时仍然可以在单个CPU上进行管理。(我们也有一个教程。)
  • CIFAR - 难度的下一步是CIFAR-10数据集,其中包含分为10个不同类的60,000个图像。对于更大的挑战,您可以尝试CIFAR-100数据集,该数据集有100个不同的类。
  • ImageNet - ImageNet每年举办一次计算机视觉竞赛,许多人认为它是现代表演的基准。当前图像数据集有1000个不同的类。
  • YouTube 8M - 准备处理视频,但无法节省数TB的存储空间?此数据集包含使用最新深度学习模型预先提取的数百万YouTube视频ID和数  十亿 的音频和视觉功能。

聚合器:

  • Deeplearning.net - 用于对深度学习算法进行基准测试的最新数据集列表。
  • DeepLearning4J.org - 用于深度学习研究的高质量数据集的最新列表。

YouTube的-8M

自然语言处理的数据集

自然语言处理(NLP)是关于文本数据的。对于像文本这样的混乱数据,对于数据集来说,拥有真实世界的应用程序尤为重要,这样您就可以进行简单的健全性检查。

我们的选择:

  • 安然数据集  - 安然高级管理层的电子邮件数据,组织成文件夹。该数据集最初公布,并在联邦能源监管委员会调查期间发布到网上。
  • 亚马逊评论 - 包含来自亚马逊的约3500万条评论,涵盖18年。数据包括产品和用户信息,评级和明文审核。
  • 新闻组分类 - 收集大约20,000个新闻组文档,在20个不同的新闻组中平均分配(几乎)。非常适合练习文本分类和主题建模。

聚合器:

  • nlp-datasets(Github) - 具有用于NLP的文本数据的自由/公共域数据集的字母顺序列表。
  • Quora Answer - NLP注释语料库列表。

云计算机学习的数据集

从技术上讲,如果您只是将数据集上传到云端,那么任何数据集都可用于基于云的机器学习。但是,如果您刚开始并评估平台,则可能希望跳过所有数据管道。

幸运的是,主要的云计算服务都提供了您可以轻松导入的公共数据集。他们的数据集都具有可比性。

我们的选择:

  • AWS公共数据集
  • Google Cloud公共数据集
  • Microsoft Azure公共数据集

时间序列分析的数据集

时间序列分析需要标记时间戳的观察。换句话说,跨时间跟踪每个主题和/或特征。

我们的选择:

  • EOD股票价格 - 由Quandl社区策划的3,000家美国公司的股票价格,股息和分割结束。
  • Zillow房地产研究 - 按大小,类型和等级划分的房屋价格和租金,按邮政编码,社区,城市,都市区,县和州划分。
  • 全球教育统计 - 超过4,000个国际可比指标,用于教育获取,升级,完成,扫盲,教师,人口和支出。

聚合器:

  • Quandl - Quandl包含用于财务分析的免费和高级时间序列数据集。
  • 世界银行 - 包含全球宏观经济时间序列,可按国家或指标搜索。

Zillow房地产数据

推荐系统的数据集

推荐系统已经风靡娱乐和电子商务行业。亚马逊,Netflix和Spotify都是很好的例子。

我们的选择:

  • MovieLens  - 来自MovieLens网站的评级数据集。由于可用的各种数据集大小,非常适合入门。
  • Jester - 构建简单协作过滤器的理想选择。包含来自73,421个用户的100个笑话的410万连续收视率(-10.00到+10.00)。
  • Million Song Dataset - 用于音乐推荐的大型丰富数据集。您可以从纯协作过滤器开始,然后使用其他方法(如基于内容的模型或Web抓取)对其进行扩展。

聚合器:

  • entaroadun(Github) - 推荐系统的数据集集合。提示:查看评论部分以获取最新数据集。

特定行业的数据集

在这个纲要中,我们根据用例组织了数据集。如果您需要练习某种技能,例如深度学习或时间序列分析,这将非常有用。

但是,您可能还希望按特定行业进行搜索,例如神经科学,天气或制造的数据集。以下是几个选项:

聚合器:

  • 令人敬畏的公共数据集 - 按行业划分的高质量数据集。
  • Data.gov - 按行业划分的策划政府数据。

流式传输的数据集

流数据集用于构建实时应用程序,例如数据可视化,趋势跟踪或可更新(即“在线”)机器学习模型。

我们的选择:

  • Twitter API - twitter API是流数据的经典来源。您可以跟踪推文,主题标签等。
  • StockTwits API - StockTwits就像是交易者和投资者的推特。您可以通过使用时间戳和股票代码符号将其连接到时间序列数据集,以许多有趣的方式扩展此数据集。
  • 天气地下 - 全球覆盖的可靠天气API。提供免费套餐和付费选项以扩大规模。

聚合器:

  • Satori - Satori是一个平台,可让您以超低延迟(免费)连接流媒体直播数据。他们经常添加新的数据集。

Web Scraping的数据集

网络抓取是数据科学研究的一个常见部分,但您必须小心违反网站的服务条款。幸运的是,有一个完整的网站可以自由地抓取。

我们的选择:

  • ToScrape.com - 带有两个子域的Web 抓沙箱。您可以练习刮取虚构的书店或列出名人姓名的网站。

虚构的书店

当前事件的数据集

查找当前事件的数据集可能很棘手。幸运的是,一些出版物已经开始发布他们在文章中使用的数据集。

聚合器:

  • FiveThirtyEight - FiveThirtyEight是一个包含数据驱动文章的新闻和体育网站。他们在Github上公开提供他们的数据集。
  • BuzzFeedNews - BuzzFeed因其列表和肤浅的作品而闻名,但他们已经扩展到调查性新闻。他们的数据集可在Github上获得。

原文:https://elitedatascience.com/datasets

【机器学习】机器学习数据集大全相关推荐

  1. 唐宇迪机器学习课程数据集_最受欢迎的数据科学和机器学习课程-2020年8月

    唐宇迪机器学习课程数据集 There are a lot of great online resources and websites on data science and machine lear ...

  2. 机器学习 啤酒数据集_啤酒数据集上的神经网络

    机器学习 啤酒数据集 Artificial neural networks (ANNs), usually simply called neural networks (NNs), are compu ...

  3. 优达(Udacity)-机器学习基础-数据集与问题(安然数据集)

    优达(Udacity)-机器学习基础-数据集与问题(安然数据集) 课程全部代码: #!/usr/bin/python # -*- coding: utf-8 -*- """ ...

  4. 50个最佳机器学习公共数据集

    背景介绍: 说到人工智能必然要了解机器学习,从信息化软件,到电子商务,然后到高速发展互联网时代,到至今的云计算.大数据等,渗透到我们的生活.工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅 ...

  5. 最强数据集集合:50个最佳机器学习公共数据集

    最强数据集集合:50个最佳机器学习公共数据集 https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA 原作 mlmemoirs  郭一璞 编译  量子位 报 ...

  6. 浅谈机器学习之数据集构建

    浅谈机器学习之数据集构建 ​ 正如大家现在知道的,深度学习模型(DL)和机器学习模型(ML)是数据驱动型任务,在近乎完美的数据集面前,模型间的细微差异可以忽略.但要获得覆盖目标场景所有特征的样本,不仅 ...

  7. 50个最佳机器学习公共数据集(附链接)

    来源:机器学习算法那些事 本文约3000字,建议阅读6分钟本文整理一张50个醉驾机器学习公共数据集的榜单. 外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳 ...

  8. 赶紧收藏起这50个最佳机器学习公共数据集

    外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github.福布斯.CMU官网 ...

  9. 【机器学习】50个最佳机器学习公共数据集

    外国自媒体mlmemoirs根据github.福布斯.CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github.福布斯.CMU官网 ...

  10. 机器学习小型数据集_小型计算机与新机器的灵魂

    机器学习小型数据集 命令行英雄播客又回来了,本季它涵盖了运行我上一季介绍的所有编程语言的机器. 正如播客人员所说: "这个季节,我们将观察理想主义的团队聚集在一起建造有远见的机器时会发生什么 ...

最新文章

  1. 第19课:Spark高级排序彻底解密
  2. db2数据备份到mysql_DB2数据库自动备份详解
  3. leetcode 53. 最大子序和 动态规划解法、贪心法以及二分法
  4. Java匿名内部类里为什么能用外部变量
  5. 使用docker搭建FastDFS文件系统
  6. leetcode —— 523. 连续的子数组和
  7. Web前端三大框架的总结,你是否知道呢?
  8. python判断一个数是否是素数
  9. 1、高动态范围成像介绍
  10. shr8.2视图配置注意点
  11. win10浏览器加载很慢_Win10系统打开网页速度很慢的解决办法
  12. P3387 【模板】缩点 Tarjan强连通分量/树上dp
  13. 电脑上的准考证怎样保存电子版
  14. Kali Linux速查手记(长期更新)
  15. Substrate 基础教程(Tutorials) -- 模拟网络 添加可信节点
  16. Ubuntu 下重启网络的方法
  17. 投资区块链做到这五步,规避风险!
  18. 这篇 Linux 总结的很棒啊!
  19. java gif转jpg_Java gif图片转换为jpg格式
  20. 云诊所管理系统 云诊所管理软件 诊所管理软件 诊所管理系统

热门文章

  1. “留得五湖明月在,不愁无处下金钩“太经典,分享一下
  2. win7 IE8无法升级IE11
  3. 如何在dev cpp中使用c++11标准
  4. php api 文档 管理,Api开发者福利之api在线管理,模拟请求测试,文档生成工具--Apizza...
  5. 毛驴县令第二季简介及其下载
  6. 远控免杀专题(10)-TheFatRat免杀(VT免杀率22/70)
  7. rx560d linux 图形设计,RX 560D对比RX 560哪个好?RX560D与560的区别对比详细评测
  8. 网络驱动器无法访问,提示找不到网络路径故障处理过程
  9. WLT8016:模组通信调试
  10. ATAT-mcsqs- 运行后出现报错:段错误(吐核/core dumped)