作者|Towards AI Team 编译|Flin 来源|medium

此资源不断更新。如果你知道任何其他合适且开放的数据集,请通过电子邮件通知我们:pub@towardsai.net 或者在下面发表评论。

数据集查找器

Google Dataset Search:与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集,无论是一个出版商的网站,一个数字图书馆,还是一个作者的网页。它是一个非凡的数据集查找器,它包含超过2500万个数据集。

  • https://toolbox.google.com/datasetsearch

Kaggle:Kaggle提供了一个庞大的数据集容器,对于热衷于此的专家来说足够了。

  • https://www.kaggle.com/

UCI机器学习库:UCI的机器学习库为开源数据集提供了最新的资源。

  • http://mlr.cs.umass.edu/ml/

VisualData:按类别搜索计算机视觉数据集;它允许搜索查询。

  • https://www.visualdata.io/

CMU库:通过在CMU收集的Wang Huajin Wang,发现高质量的数据集。

  • https://guides.library.cmu.edu/machine-learning/datasets

一般数据集

住房数据集

波士顿住房数据集:包含美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获得的,在整个文献中被广泛用于对算法进行基准测试。

  • https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

地理数据集

Google-Landmarks-v2:用于地标识别和检索的改进数据集。这个数据集包含了来自世界各地的5百万张20万多个地标的图片,这些图片由Wiki Commons社区提供和注释。

  • https://www.kaggle.com/xiuchengwang/python-dataset-download

机器学习数据集:

购物中心客户数据集: 购物中心客户数据集包含特定城市中访问购物中心的人的信息。数据集由不同的列组成,如性别、客户id、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。

  • https://www.kaggle.com/shwetabh123/mall-customers

IRIS数据集:IRIS数据集是一个简单的初学者友好的数据集,包含有关花瓣和萼片宽度的信息。数据分为三个类,每个类有50行。它通常用于分类和回归建模。

  • https://archive.ics.uci.edu/ml/datasets/Iris

MNIST数据集:这是一个手写数字的数据集。它包含60000个训练图像和10000个测试图像。这是一个完美的开始实现图像分类的数据集,你可以从0到9对数字进行分类。

  • http://yann.lecun.com/exdb/mnist/

波士顿住房数据集:包含美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获得的,在整个文献中被广泛用于对算法进行基准测试。

  • https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

假新闻检测数据集:它是一个CSV文件,有7796行,有四列。共有四列:新闻、标题、新闻文本、结果。

  • https://www.kaggle.com/c/fake-news/data

葡萄酒质量数据集:该数据集包含有关葡萄酒的不同化学信息。数据集适用于分类和回归任务。

  • https://archive.ics.uci.edu/ml/datasets/wine+quality

SOCR 数据 - 高度和重量数据集:这是初学者的基本数据集。它只包含25000个18岁的不同人类的身高和体重。这个数据集可以用来建立一个模型,可以预测一个人的身高或体重。

  • http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights

Titanic数据集:该数据集包含诸如姓名、年龄、性别、船上兄弟姐妹人数等信息,以及训练集中891名乘客和测试集中418名乘客的其他信息。

  • https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html

信用卡欺诈检测数据集:该数据集包含由信用卡进行的交易;它们被标记为欺诈性或真实性。这对于拥有交易系统的公司来说,建立一个检测欺诈活动的模型非常重要。

  • https://www.kaggle.com/mlg-ulb/creditcardfraud

计算机视觉数据集

xView:xView是最庞大的空中影像公开数据集之一。它包含来自世界各地复杂场景的图像,并使用边界框进行注释。

  • http://xviewdataset.org/#dataset

ImageNet:最大的计算机视觉图像数据集。根据WordNet的说法,它提供了一个可访问的图像数据库,它是按层次组织的。

  • http://image-net.org/

Kinetics-700:Youtube视频url的大规模数据集。包括以人为中心的行动。它包含超过70万个视频。

  • https://deepmind.com/research/open-source/open-source-datasets/kinetics/

谷歌的开放图像:来自谷歌人工智能的一个巨大的数据集,包含超过1000万张图片。

  • https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

城市景观数据集:这是一个用于计算机视觉项目的开源数据集。它包含在50个不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深层神经网络以了解城市场景。

  • https://www.cityscapes-dataset.com/

imdbwiki数据集:imdbwiki数据集是针对带有性别和年龄标签的人脸图像的最广泛的开源数据集之一。图片来自IMDB和Wikipedia。它有五百万多个标签图像。

  • https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

颜色检测数据集:该数据集包含一个CSV文件,其中有865个颜色名称及其相应的RGB(红色、绿色和蓝色)值。它还有颜色的十六进制值。

  • https://github.com/codebrainz/color-names/blob/master/output/colors.csv

斯坦福狗数据集:它包含20580张图片和120个不同品种的狗。

  • http://vision.stanford.edu/aditya86/ImageNetDogs/

情绪分析数据集

词典编纂者情绪词典:这个数据集是专门用于情绪分析的。数据集包含3000多个负面词汇和2000多个积极情绪词。

  • http://www.lexicoder.com/

IMDB评论:一个有趣的数据集,包含来自Kaggle的50000多个电影评论。

  • https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

斯坦福情绪树库:带情绪注释的标准情绪数据集。

  • http://nlp.stanford.edu/sentiment/code.html

Twitter美国航空公司情绪:2015年2月美国航空公司Twitter数据,分为正面、负面和中性推文

  • https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理(NLP)数据集

HotspotQA数据集:问答数据集,具有自然的、多跳的问题,并对事实进行严格监督,以实现更易于解释的问答系统。

  • https://hotpotqa.github.io/

亚马逊评论:来自亚马逊的庞大数据集,包含超过4500万条亚马逊评论。

  • https://snap.stanford.edu/data/web-Amazon.html

烂番茄评论:超过48万评论档案(新鲜或腐烂)。

  • https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view

英语短信垃圾收集:一个由5574条英语短信垃圾信息组成的数据集。

  • http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

安然电子邮件数据集:它包含超过150个用户的大约50万封电子邮件。

  • https://www.cs.cmu.edu/~enron/

推荐系统数据集:它包含来自流行网站的各种数据集,如Goodreads书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。

  • https://cseweb.ucsd.edu/~jmcauley/datasets.html

UCI Spambase数据集:将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍而有用的任务。该数据集包含4601封电子邮件和57封有关电子邮件的元信息。你可以建立模型来过滤垃圾邮件。

  • https://archive.ics.uci.edu/ml/datasets/Spambase

IMDB评论:大型电影评论数据集包括来自IMDB网站的电影评论,其中超过25000条评论用于培训,25000条评论用于测试集。

  • http://ai.stanford.edu/~amaas/data/sentiment/

自动驾驶(自动驾驶)数据集

Waymo开放数据集:这是来自Waymo员工的一个很棒的数据集资源。包括大量的自动驾驶数据集,足以从零开始训练深度网络。

  • https://waymo.com/open/

Berkeley DeepDrive BDD100k:最大的自动驾驶汽车数据集之一,包含纽约和加利福尼亚州超过2000小时的驾驶体验。

  • http://bdd-data.berkeley.edu/

博世小交通灯数据集:用于深入学习的小交通灯数据集。

  • https://hci.iwr.uni-heidelberg.de/node/6132

LaRa红绿灯识别:另一个红绿灯数据集。这个数据集是从巴黎收集的。

  • http://www.lara.prd.fr/benchmarks/trafficlightsrecognition

WPI数据集:用于交通灯、行人和车道检测的数据集。

  • http://computing.wpi.edu/dataset.html

Comma.ai:它包含诸如车速、加速度、转向角和GPS坐标等详细信息。

  • https://archive.org/details/comma-dataset

MIT AGE Lab:年龄实验室收集的1000多小时多传感器驾驶数据集的样本。

  • http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

LISA:智能与安全汽车实验室,加州大学圣地亚哥数据集:该数据集包括交通标志、车辆检测、交通灯和轨迹模式。

  • http://cvrr.ucsd.edu/LISA/datasets.html

城市景观数据集:这是一个广泛的数据集,包含50个不同城市的街道场景。

  • https://www.cityscapes-dataset.com/

临床数据集

COVID-19数据集:艾伦人工智能研究所(Allen Institute of AI research)发布了一个庞大的研究数据集,包含了45000多篇关于COVID-19的学术文章。

  • https://www.semanticscholar.org/cord19

MIC-III:由麻省理工学院计算生理学实验室开发的公开可用数据集,包括与约40000名危重病人相关的未识别健康数据。它包括人口统计、生命体征、实验室检查、药物治疗等。

  • https://mimic.physionet.org/

推荐系统的数据集

MovieLens:它包含来自MovieLens网站的分级数据集。

  • https://grouplens.org/datasets/movielens/

Jester:它包含了来自73421个用户的100个笑话的410万个连续评级(-10.00到+10.00)。它主要用于协同过滤。

  • http://www.ieor.berkeley.edu/~goldberg/jester-data/

百万歌曲数据集:它可以用于协作和基于内容的过滤。

  • https://www.kaggle.com/c/msdchallenge#description

尾注:

如果你知道其他高质量、免费的数据集,你会推荐给人们用于机器学习、深度学习、数据科学等的研究和应用。请随时在下面的评论中提出建议,或直接发送电子邮件至 pub@towardsai.net

如果推荐理由是可靠的,我们将对其进行分析,并将其列入此列表。另外,请在评论部分告诉我们你使用这些数据集的经验。

参考和来源

[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/

[2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/

[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library.cmu.edu/c.php?g=844845&p=6191907

[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec

[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www.dataquest.io/blog/free-datasets-for-projects/

[8] The Best Datasets for Natural Language Processing, Gengo AI, https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning

[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat.cmu.edu/datasets/

[11] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html

[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html

[13] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[14] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets

[15] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/

[16] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/

[17] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab

[18] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/

[19] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/

[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://data-flair.training/blogs/machine-learning-datasets/

原文链接:https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f

欢迎关注磐创AI博客站: http://panchuang.net/

sklearn机器学习中文官方文档: http://sklearn123.com/

欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/

机器学习和数据科学的最佳公共数据集相关推荐

  1. 机器学习和数据科学的最佳公共数据集机器学习、数据科学、情感分析、计算机视觉、自然语言处理 (NLP)、临床数据等的最佳公共数据集。

    数据集查找器 Google 数据集搜索   Google 数据集搜索Google 数据集搜索:与Google Scholar的工作方式类似,数据集搜索可让您在托管数据集的任何地方查找数据集,无论是出版 ...

  2. 资源 | 想进行数据科学项目却没有数据集?26个数据集网站汇总

    导读:如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学. 如果你是初学者,那么每完成一个项目你的能力就会大大提高.如果你是有经验的数据科学从业者,那么你应该懂这个 ...

  3. 必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢 原创 2017-07-10 爱收藏的 AI科技大本营 作者 | Flavian Hautbois 翻译 | AI科技大

    必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢 原创 2017-07-10 爱收藏的 AI科技大本营 作者 | Flavian Hautbois 翻译 | AI科技大本营( ...

  4. 深度学习数据更换背景_开始学习数据科学的最佳方法是了解其背景

    深度学习数据更换背景 数据科学教育 (DATA SCIENCE EDUCATION) 目录 (Table of Contents) The Importance of Context Knowledg ...

  5. AI 开发者不容错过的 20 个机器学习和数据科学网站

    作者 | Oleksii Kharkovyna 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 以下为译文: 如今,科技界最热门的话题莫过于最先进.最前沿.最令人兴奋的数据科学和机器学习 ...

  6. 《机器学习与数据科学(基于R的统计学习方法)》——1.2 机器学习的实际案例...

    本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第1章,第1.2节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区&q ...

  7. 20本机器学习与数据科学书籍

    20本机器学习与数据科学必读书籍 高校的暑假即将来临,有没有想利用这个暑假为自己充电,为未来的自己赢在起跑线上,成为人工智能界的人生赢家呢?来自 KDnuggets 的 Matthew Mayo 就提 ...

  8. Python机器学习:数据科学,机器学习和人工智能的主要发展技术趋势概述

    1.介绍 Python因易于学习而广为人知,并且它仍然是数据科学,机器学习和科学计算中使用最广泛的语言.根据最近的一项民意的调查,该调查对1,800多名研究人员分析,数据科学和机器学习偏好的参与者进行 ...

  9. 《机器学习与数据科学(基于R的统计学习方法)》——2.11 R中的SQL等价表述...

    本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第2章,第2.11节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区& ...

最新文章

  1. HDU-1698-Just a Hook
  2. ansible-playbook之条件判断
  3. 35岁之后,你还会继续写代码吗?
  4. JAVA多线程提高十四: 面试题
  5. HTTP 中POST GET 区别
  6. python读取一行数组_python 把文件中的每一行以数组的元素放入数组中的方法
  7. 《指针的编程艺术(第二版)》一3.8 改错题
  8. [导入][转载]5行代码实现无缝滚动
  9. python贴吧-贴吧python登录
  10. 养生秘诀呼吸吐纳真的可以养生嘛?
  11. 03.C 语言实现3.5寸虚拟软盘
  12. Microsoft office 2013安装图解
  13. 华为鸿蒙的科技话题作文800字,关于科技的话题作文3篇
  14. 4.3_deferred-init
  15. compare比对工具
  16. Win10打包tar.gz文件,Win10使用tar命令,Win10使用linux基本命令
  17. Ubuntu安装Caffe .build_release/tools/caffe: error while loading shared libraries: libcudart.so.8.0
  18. HTTP 提交方式有哪些
  19. 【CV/Matlab系列】基于matlab的视频质量仿真评价系统设计【含Matlab源码】
  20. linux搭建filebrowser教程,使用File Browser 搭建远程文件管理器

热门文章

  1. hdu 1116 并查集和欧拉路径
  2. 【oracle学习】2.集合运算
  3. c语言数据类型int的用法,C语言基本数据类型:整型(int)用法详解|C语言学习
  4. 最左前缀 mysql优化器_mysql查询优化之索引类型、最左前缀
  5. creo显示agent未初始化_三, 初步配置使用zabbix
  6. 田蕴章书法讲座《每日一题,每日一字》(2) 文字整理 ——火字、必字与书法笔顺
  7. u盘插电脑计算机卡了,U盘连接电脑非常卡的解决方法-电脑自学网
  8. 如何把excel里面中文小写数字转换成阿拉伯数字
  9. Internal Error (Network has dynamic or shape inputs, but no optimization profile has been defined.)
  10. 修改hosts不管用。为什么修改127.0.0.1指向的域名,访问域名却弹出别的网站