数据集查找器

Google 数据集搜索 Google 数据集搜索Google 数据集搜索：与Google Scholar的工作方式类似，数据集搜索可让您在托管数据集的任何地方查找数据集，无论是出版商的网站、数字图书馆还是作者的网页。这是一个了不起的数据集查找器，它包含超过 2500 万个数据集。
Kaggle：Kaggle 提供了一个庞大的数据集容器，足以满足爱好者到专家的需要。
UCI 机器学习存储库：UCI 的机器学习存储库为开源数据集提供最新资源。
VisualData：按类别发现计算机视觉数据集；它允许可搜索的查询。
CMU Libraries :借助 CMU 的 Huajin Wang 的收藏，发现高质量的数据集。
The Big Bad NLP Database：这个很酷的数据集列表包含各种自然语言处理任务的数据集，由Quantum Stat创建和管理。

通用数据集

住房数据集

波士顿住房数据集：包含美国人口普查局收集的有关波士顿马萨诸塞州住房的信息。它是从StatLib档案中获得的，并在整个文献中广泛用于基准算法。

地理数据集

Google-Landmarks-v2：用于地标识别和检索的改进数据集。该数据集包含来自世界各地 200k+ 地标的 5M+ 图像，由 Wiki Commons 社区提供来源和注释。

机器学习数据集：

购物中心客户数据集：购物中心客户数据集包含有关在特定城市访问购物中心的人的信息。该数据集由各种列组成，例如性别、客户 ID、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。

IRIS 数据集：鸢尾花数据集是一个简单且对初学者友好的数据集，其中包含有关花瓣和萼片宽度的信息。数据分为三类，每类50行。它通常用于分类和回归建模。

MNIST 数据集：这是一个手写数字的数据库。它包含 60,000 张训练图像和 10,000 张测试图像。这是开始实施图像分类的完美数据集，您可以在其中将数字从 0 分类到 9。

波士顿住房数据集：包含美国人口普查局收集的有关波士顿马萨诸塞州住房的信息。它是从StatLib档案中获得的，并在整个文献中广泛用于基准算法。

假新闻检测数据集：它是一个 CSV 文件，有 7796 行，4 列。有四列：新闻、标题、新闻文本、结果。

葡萄酒质量数据集：该数据集包含有关葡萄酒的不同化学信息。该数据集适用于分类和回归任务。

SOCR 数据 - 身高和体重数据集：这是初学者的基本数据集。它仅包含 25,000 名 18 岁的不同人类的身高和体重。该数据集可用于构建可以预测人类身高或体重的模型。

Titanic 数据集：该数据集包含姓名、年龄、性别、船上兄弟姐妹数量等信息，以及有关训练集中 891 名乘客和测试集中 418 名乘客的其他信息。

信用卡欺诈检测数据集：该数据集包含信用卡进行的交易；它们被标记为欺诈或真实的。这对于拥有交易系统的公司建立检测欺诈活动的模型非常重要。

计算机视觉数据集

xView： xView 是最大规模的公开可用的高架图像数据集之一。它包含来自世界各地复杂场景的图像，并使用边界框进行注释。

ImageNet：最大的计算机视觉图像数据集。根据 WordNet，它提供了一个分层组织的可访问图像数据库。

Kinetics-700：来自 Youtube 的大规模视频 URL 数据集。包括以人为本的行动。它包含超过 700,000 个视频。

Google 的开放图像：来自 Google AI 的庞大数据集，包含超过 1000 万张图像。

Cityscapes Dataset：这是一个用于计算机视觉项目的开源数据集。它包含在 50 条不同城市街道上拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深度神经网络以了解城市场景。

IMDB-Wiki 数据集： IMDB-Wiki 数据集是用于标记性别和年龄的面部图像的最广泛的开源数据集之一。这些图像是从 IMDB 和 Wikipedia 收集的。它有超过 500 万张带标签的图像。

颜色检测数据集：该数据集包含一个 CSV 文件，该文件具有 865 个颜色名称及其对应的 RGB（红色、绿色和蓝色）颜色值。它还具有颜色的十六进制值。

斯坦福犬数据集：它包含 20,580 张图像和 120 个不同的犬种类别。

情绪分析数据集

Lexicoder Sentiment Dictionary：该数据集专门用于情感分析。该数据集包含超过 3000 个否定词和超过 2000 个积极情绪词。

IMDB 评论：一个有趣的数据集，包含来自 Kaggle 的超过 50,000 条电影评论。

斯坦福情绪树库：带有情绪注释的标准情绪数据集。

Twitter 美国航空公司情绪： 2015 年 2 月以来美国航空公司的 Twitter 数据，分为正面、负面和中性推文

自然语言处理 (NLP) 数据集

The Big Bad NLP Database：这个很酷的数据集列表包含各种自然语言处理任务的数据集，由Quantum Stat创建和管理。

HotspotQA 数据集：以自然、多跳问题为特征的问答数据集，对支持事实进行严格监督，以实现更可解释的问答系统。

Amazon Review s：来自亚马逊的庞大数据集，包含超过 4500 万条亚马逊评论。

烂番茄评论：档案超过 480,000 条评论（新鲜或烂）。

SMS Spam Collection in English：包含 5,574 条英语 SMS 垃圾邮件的数据集。

安然电子邮件数据集：它包含超过 150 位用户的约 50 万封电子邮件。

推荐系统数据集：它包含来自流行网站的各种数据集，如 Goodreads 书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。

UCI Spambase Dataset：将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍且有用的任务。该数据集包含 4601 封电子邮件和 57 个有关电子邮件的元信息。您可以构建模型以过滤掉垃圾邮件。

IMDB 评论：大型电影评论数据集包含来自 IMDB 网站的电影评论，其中包含超过 25,000 条训练评论和 25,000 条测试集评论。

自动驾驶（Autonomous Driving）数据集

Waymo 开放数据集：这是来自 Waymo 的出色数据集资源。包括庞大的自动驾驶数据集，足以从零开始训练深度网络。

Berkeley DeepDrive BDD100k：最大的自动驾驶汽车数据集之一，包含纽约和加利福尼亚超过 2000 小时的驾驶体验。

Bosch Small Traffic Light Dataset：用于深度学习的小型交通灯数据集。

LaRa Traffic Light Recognition：交通灯的另一个数据集。该数据集是从巴黎收集的。

WPI 数据集：交通信号灯、行人和车道检测的数据集。

Comma.ai：它包含汽车的速度、加速度、转向角和 GPS 坐标等详细信息。

MIT AGE Lab：在 AgeLab 收集的 1,000 多个小时的多传感器驾驶数据集样本。

LISA：智能与安全汽车实验室，加州大学圣地亚哥分校数据集：该数据集包括交通标志、车辆检测、交通信号灯和轨迹模式。

Cityscape Dataset：这是一个广泛的数据集，包含 50 个不同城市的街景。

临床数据集

MaskedFace-Net： MaskedFace-Net 是一个真实的数据集，包含带有正确和错误佩戴口罩的人脸。它包含超过 137k 的图像，这些图像基于Flick-Faces-HQ 数据集[21]。有关数据集及其用途的更多详细信息，请访问Github 上的文档。

COVID-19 数据集：艾伦人工智能研究所发布了一个庞大的研究数据集，其中包含超过 45,000 篇关于 COVID-19 的学术文章。

MIMIC-III：由麻省理工学院计算生理学实验室开发的公开可用的数据集，包括与约 40,000 名重症监护患者相关的去识别健康数据。它包括人口统计、生命体征、实验室测试、药物等。

机器学习和数据科学的最佳公共数据集机器学习、数据科学、情感分析、计算机视觉、自然语言处理 (NLP)、临床数据等的最佳公共数据集。