资源 | 想进行数据科学项目却没有数据集?26个数据集网站汇总
导读:如果用一个句子总结学习数据科学的本质,那就是:
学习数据科学的最佳方法就是应用数据科学。
如果你是初学者,那么每完成一个项目你的能力就会大大提高。如果你是有经验的数据科学从业者,那么你应该懂这个道理。
但是,当我向人们给出这个建议时,他们通常会问:我可以在哪里获得练习的数据集呢? 他们没有意识到存在大量开放的数据集可使用。他们没有意识到通过这些项目,能够不断学习,从而促进自己的职业发展。
如果你认为这符合你的情况,那么你来对地方了!本文将列出一些数据集网站、资源的列表,你可以从使用当中的数据来进行自己的 pet project,甚至创造自己的产品。
00 如何使用这些资源?
如何使用这些数据源是没有限制的。唯一限制你的是创造力和实际应用。
使用它们的最简单方法是进行数据项目并发布到网上。这不仅可以提高数据和可视化技能,还可以改善你的结构化思维。
另一方面,如果你打算或正在处理基于数据的产品,这些数据集可以通过提供新的输入数据来增加产品的活力。
我已经将这些资源分类,从简单,通用和易于处理的数据集,到大型、行业相关的数据集。接着,介绍用于特定目的的数据集:文本挖掘,图像分类,推荐引擎等。
(友情提示:以下网站均需翻墙)
01 简单、通用的数据集
1. data.gov
( https://www.data.gov/ )
美国政府公开数据。该网站在发布时包含超过 19 万个数据点。这些数据包括气候,教育,能源,金融等领域的数据。
2. data.gov.in
( https://data.gov.in/ )
印度政府公开数据。可以查找各行业,气候,医疗保健等数据。还可以在这里得到一些可视化的灵感。根据所在国家,你也可以从其他几个网站上查看类似的网站。
3. World Bank
( http://data.worldbank.org/ )
世界银行的开放数据。该平台提供 Open Data Catalog,世界发展指数,教育指数等几个工具。
4. RBI
( https://rbi.org.in/Scripts/Statistics.aspx )
印度储备银行提供的数据。包括国际收支,银行业务和一些产品使用的货币市场运作指标。
5. Five Thirty Eight Datasets
( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦称作 538,专注与民意调查分析,政治,经济与体育的博客。该数据集为 Five Thirty Eight Datasets 使用的数据集。每个数据集包括数据,解释数据的字典和Five Thirty Eight 文章的链接。如果你想学习如何创建数据故事,不能错过。
02 大型数据集
6. Amazon Web Services(AWS)datasets
( https://aws.amazon.com/cn/datasets/ )
亚马逊提供了一些大数据集,可以在他们的平台或本地计算机上使用。还可以通过 EMR,使用 EC2 和 Hadoop 在云端分析数据。亚马逊的热门数据集包括完整的 Enron 电子邮件数据集,Google Books n-gram,NASA NEX 数据集,百万歌曲数据集等。
7. Google datasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些数据集作为其 Big Query 工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。
8. Youtube labeled Video Dataset
( https://research.google.com/youtube8m/ )
几个月前,谷歌研究小组发布了 YouTube 标签数据集,该数据集由 800 万个 YouTube 视频 ID 和 4800 个视觉实体的相关标签组成。这来自数十亿帧的预先计算和最先进的视觉功能。
03 预测建模与机器学习数据集
9. UCI Machine Learning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI 机器学习存储库显然是最着名的数据存储库。如果你正在寻找与机器学习库相关的数据集,那么这是不可错过的资源。当中包括各种各样的数据集,从泰坦尼克号的幸存数据,到最近的空气质量、GPS 轨迹等待。存储库包含超过 350 个数据集,其中包含域名,问题目的(分类/回归)等标签。你可以使用这些过滤器来确定需要的数据。
10. Kaggle
( https://www.kaggle.com/datasets )
Kaggle 推出了一个平台,人们上传数据集,其他社区成员可以投票并在其上运行脚本。共有 350 多个数据集 ,特征数据集超过 200 个。
11. Analytics Vidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
你可以参与和下载我们的练习问题以及黑客马拉松问题的数据集。数据集基于现实生活中的行业问题,并且相对较小,因为它们是针对 2-7 天的黑客马拉松活动。
12. Quandl
( https://www.quandl.com/ )
Quandl 通过起网站、API 或一些工具的直接集成提供了不同来源的财务、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集为免费,但高级数据集需要付费。通过搜索仍然可以在平台上找到优质数据集。例如,来自印度的证券交易所数据是免费的。
13. Past KDD Cups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 组织的年度数据挖掘和知识发现竞赛。
14. Driven Data
( https://www.drivendata.org/ )
Driven Data 发现运用数据科学带来积极社会影响的现实问题。然后,他们为数据科学家组织在线模拟竞赛,从而开发出最好的模型来解决这些问题。
04 图像分类数据集
15. The MNIST Database
( http://yann.lecun.com/exdb/mnist/ )
最流行的使用手写数字的图像识别的数据集。包括 6 万个火车示例和一个 1 万个示例的测试集。这通常是进行图像识别的第一个数据集。
16. Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
如果你已经掌握手写数字,可以进一步使用该数据集。当中包括自然图像中的字符识别,包含 74,000 个图像。
17. Frontal Face Images
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已经完成了前两个项目,并且能够识别数字和字符,那么在图像识别的下一个挑战就是正面脸部图像。这些图像由 CMU & MIT 收集,并排列在四个文件夹中。
18. ImageNet
( http://image-net.org/ )
是时候构建一些通用的东西了。根据 WordNet 层次的图像数据库(目前仅为名词)。层次结构的每个节点都被描述为数百个图像。目前,这个集合平均每个节点有超过 500 个图像,并且在增加中。
05 文本分类数据集
19. Spam – Non Spam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。
20. Twitter Sentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。
21. Movie Review Data
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
本网站提供电影评论文件的集合,标注其总体情绪极性(正面或负面)和主观评分(例如“两星半”)等。
06 推荐引擎的数据集
22. MovieLens
( https://grouplens.org/ )
MovieLens 是一个帮助人们查找电影的网站。它有成千上万的注册用户。他们进行自动内容推荐,推荐界面,基于标签的推荐页面等在线实验。这些数据集可供下载,可用于创建自己的推荐系统。
23. Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在线笑话推荐系统。
07 来自各种来源的数据集网站
24. KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的数据集页面一直是人们搜索数据集的参考。列表全面,但是某些来源不再提供数据集。因此,需要谨慎选择数据集和来源。
25. Awesome Public Datasets
(https://github.com/caesar0301/awesome-public-datasets)
具有按域分类的数据集列表的 GitHub 存储库。数据集被整齐地划分在不同的领域,然而没有关于存储库本身的数据集的描述
26. Reddit Datasets Subreddit
(https://www.reddit.com/r/datasets/)
由于这是一个社区驱动的论坛,可能与之前的两个数据源相比会一些混乱。但是,你可以根据热度和投票来对数据集进行排序,以查看最流行的数据集。另外,它还有一些有趣的数据集和讨论。
结语
我希望这份资源清单对那些想做项目的人有所帮助。这绝对是一个金矿。
原作者:Kunal Jain
编译:Mika
来源:CDA数据分析师(ID:cdacdacda)
原文:
https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/
推荐阅读
日本老爷爷坚持17年用Excel作画,我可能用了假的Excel···
看完此文再不懂区块链算我输:手把手教你用Python从零开始创建区块链
为什么要学数学?因为这是一场战略性的投资
180页PPT,讲解人工智能技术与产业发展
Q: 你平时都通过哪些途径获取数据?
欢迎留言与大家分享
觉得不错,请把这篇文章分享给你的朋友
转载 / 投稿请联系:baiyu@hzbook.com
更多精彩文章,请在公众号后台点击“历史文章”查看
资源 | 想进行数据科学项目却没有数据集?26个数据集网站汇总相关推荐
- 24个终极数据科学项目(免费获取资源)
数据科学项目为你在这个领域的深入研究提供了一个基础.通过实际应用,你不仅可以学习数据科学,也能够写在简历中提升你的资历.在这上边花费的时间越多,你学到的知识就越多. 初级--这部分的数据集很容易处理, ...
- 独家 | 为你的数据科学项目提供有力支撑——3个寻找数据集的最佳网站
作者:Angelia Toh,Self Learn Data Science联合创始人 翻译:李海明 校对:冯羽 本文约1000字,建议阅读5分钟 本文为你介绍3个寻找数据集的最佳网站. 标签:冠状病 ...
- 美团脱颖而出的经验_使数据科学项目脱颖而出的6种方法
美团脱颖而出的经验 The global COVID-19 pandemic has left many with a lot of time on their hands to work on th ...
- 大数据数据量估算_如何估算数据科学项目的数据收集成本
大数据数据量估算 (Notes: All opinions are my own) (注:所有观点均为我自己) 介绍 (Introduction) Data collection is the ini ...
- 数据科学项目_完整的数据科学组合项目
数据科学项目 In this article, I would like to showcase what might be my simplest data science project ever ...
- 编程课程学习_如果您想学习数据科学,请从以下编程课程之一开始
编程课程学习 by David Venturi 大卫·文图里(David Venturi) 如果您想学习数据科学,请从以下编程课程之一开始 (If you want to learn Data Sci ...
- 想从事数据科学相关岗位,这些数学基础“必备”
很多同学想从事数据科学岗位,对于这个岗位而言,数学知识的储备重要吗? 答案显而易见,掌握好数学对于从事该岗位而言是很重要的.数学一直是任何当代科学学科的基础,几乎所有的现代数据科学技术(包括所有的机器 ...
- 分步式数据库_创建真实数据科学项目的分步指南
分步式数据库 As an inspiring data scientist, building interesting portfolio projects is key to showcase yo ...
- pca针对初学者_针对初学者和专家的12酷数据科学项目创意
pca针对初学者 The domain of Data Science brings with itself a variety of scientific tools, processes, alg ...
最新文章
- 【 C 】字符串查找基础笔记
- 面试中的这些坑,你踩过几个?
- linux 第一个内核模块Hello World
- C++ 读取文件操作
- 不同网段的局域网怎么互通_华为实操系列 | 交换机在局域网中是怎么应用的,看完你肯定懂了!...
- hive相关操作语句
- 注意!微软宣布将停止支持多个版本的 .NET Framework
- scala 正则表达式
- M1芯片CAD如何安装?M1 mac怎么安装AutoCAD?
- 微电子科学与工程是否属于计算机类专业,微电子科学与工程专业属于什么门类...
- python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告
- nginx: [warn] the “user“ directive makes sense only if the master process runs with super-user privi
- 微信小程序中商品列表 不显示
- windows提权常用系统漏洞与对应的补丁编号
- scanf_s()函数的用法
- 华为交换机难点学习:导出配置文件/同步时间
- “成功的人,从不被这一点束缚”
- C++输入中iomanip的使用(基础)
- HTML进行表单验证
- 马云的又一招棋,平台基因怎么让飞猪成为出境游领军者
热门文章
- Arduino笔记-流水点灯
- Java基础入门笔记-构造方法的继承
- 语法推导树之短语,直接短语,句柄
- oracle数据库定时同步工具,[每天自动同步一个数据库表的数据]sql server定时同步oracle数据表...
- php ajax jquery 表单重复提交,jQuery如何防止Ajax重复提交
- java工程如何跑起来的_你编写的Java代码是咋跑起来的?
- 国内首家!腾讯云密钥管理系统通过密码应用验证,积极探索行业标准边界
- 网站图片下载 Python
- python3.8.3好用吗_python使用3.8.3版本,存在报错
- linux 进程监控命令2——ps