机器学习和数据科学的最佳公共数据集机器学习、数据科学、情感分析、计算机视觉、自然语言处理 (NLP)、临床数据等的最佳公共数据集。
数据集查找器
- Google 数据集搜索 Google 数据集搜索Google 数据集搜索:与Google Scholar的工作方式类似,数据集搜索可让您在托管数据集的任何地方查找数据集,无论是出版商的网站、数字图书馆还是作者的网页。这是一个了不起的数据集查找器,它包含超过 2500 万个数据集。
- Kaggle:Kaggle 提供了一个庞大的数据集容器,足以满足爱好者到专家的需要。
- UCI 机器学习存储库:UCI 的机器学习存储库为开源数据集提供最新资源。
- VisualData:按类别发现计算机视觉数据集;它允许可搜索的查询。
- CMU Libraries :借助 CMU 的 Huajin Wang 的收藏,发现高质量的数据集。
- The Big Bad NLP Database:这个很酷的数据集列表包含各种自然语言处理任务的数据集,由Quantum Stat创建和管理。
通用数据集
住房数据集
波士顿住房数据集:包含美国人口普查局收集的有关波士顿马萨诸塞州住房的信息。它是从StatLib档案中获得的,并在整个文献中广泛用于基准算法。
地理数据集
Google-Landmarks-v2:用于地标识别和检索的改进数据集。该数据集包含来自世界各地 200k+ 地标的 5M+ 图像,由 Wiki Commons 社区提供来源和注释。
机器学习数据集:
购物中心客户数据集:购物中心客户数据集包含有关在特定城市访问购物中心的人的信息。该数据集由各种列组成,例如性别、客户 ID、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。
IRIS 数据集:鸢尾花数据集是一个简单且对初学者友好的数据集,其中包含有关花瓣和萼片宽度的信息。数据分为三类,每类50行。它通常用于分类和回归建模。
MNIST 数据集:这是一个手写数字的数据库。它包含 60,000 张训练图像和 10,000 张测试图像。这是开始实施图像分类的完美数据集,您可以在其中将数字从 0 分类到 9。
波士顿住房数据集:包含美国人口普查局收集的有关波士顿马萨诸塞州住房的信息。它是从StatLib档案中获得的,并在整个文献中广泛用于基准算法。
假新闻检测数据集:它是一个 CSV 文件,有 7796 行,4 列。有四列:新闻、标题、新闻文本、结果。
葡萄酒质量数据集:该数据集包含有关葡萄酒的不同化学信息。该数据集适用于分类和回归任务。
SOCR 数据 - 身高和体重数据集:这是初学者的基本数据集。它仅包含 25,000 名 18 岁的不同人类的身高和体重。该数据集可用于构建可以预测人类身高或体重的模型。
Titanic 数据集:该数据集包含姓名、年龄、性别、船上兄弟姐妹数量等信息,以及有关训练集中 891 名乘客和测试集中 418 名乘客的其他信息。
信用卡欺诈检测数据集:该数据集包含信用卡进行的交易;它们被标记为欺诈或真实的。这对于拥有交易系统的公司建立检测欺诈活动的模型非常重要。
计算机视觉数据集
xView: xView 是最大规模的公开可用的高架图像数据集之一。它包含来自世界各地复杂场景的图像,并使用边界框进行注释。
ImageNet:最大的计算机视觉图像数据集。根据 WordNet,它提供了一个分层组织的可访问图像数据库。
Kinetics-700:来自 Youtube 的大规模视频 URL 数据集。包括以人为本的行动。它包含超过 700,000 个视频。
Google 的开放图像:来自 Google AI 的庞大数据集,包含超过 1000 万张图像。
Cityscapes Dataset:这是一个用于计算机视觉项目的开源数据集。它包含在 50 条不同城市街道上拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深度神经网络以了解城市场景。
IMDB-Wiki 数据集: IMDB-Wiki 数据集是用于标记性别和年龄的面部图像的最广泛的开源数据集之一。这些图像是从 IMDB 和 Wikipedia 收集的。它有超过 500 万张带标签的图像。
颜色检测数据集:该数据集包含一个 CSV 文件,该文件具有 865 个颜色名称及其对应的 RGB(红色、绿色和蓝色)颜色值。它还具有颜色的十六进制值。
斯坦福犬数据集: 它包含 20,580 张图像和 120 个不同的犬种类别。
情绪分析数据集
Lexicoder Sentiment Dictionary:该数据集专门用于情感分析。该数据集包含超过 3000 个否定词和超过 2000 个积极情绪词。
IMDB 评论:一个有趣的数据集,包含来自 Kaggle 的超过 50,000 条电影评论。
斯坦福情绪树库:带有情绪注释的标准情绪数据集。
Twitter 美国航空公司情绪: 2015 年 2 月以来美国航空公司的 Twitter 数据,分为正面、负面和中性推文
自然语言处理 (NLP) 数据集
The Big Bad NLP Database:这个很酷的数据集列表包含各种自然语言处理任务的数据集,由Quantum Stat创建和管理。
HotspotQA 数据集:以自然、多跳问题为特征的问答数据集,对支持事实进行严格监督,以实现更可解释的问答系统。
Amazon Review s:来自亚马逊的庞大数据集,包含超过 4500 万条亚马逊评论。
烂番茄评论:档案超过 480,000 条评论(新鲜或烂)。
SMS Spam Collection in English:包含 5,574 条英语 SMS 垃圾邮件的数据集。
安然电子邮件数据集:它包含超过 150 位用户的约 50 万封电子邮件。
推荐系统数据集:它包含来自流行网站的各种数据集,如 Goodreads 书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。
UCI Spambase Dataset:将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍且有用的任务。该数据集包含 4601 封电子邮件和 57 个有关电子邮件的元信息。您可以构建模型以过滤掉垃圾邮件。
IMDB 评论:大型电影评论数据集包含来自 IMDB 网站的电影评论,其中包含超过 25,000 条训练评论和 25,000 条测试集评论。
自动驾驶(Autonomous Driving)数据集
Waymo 开放数据集:这是来自 Waymo 的出色数据集资源。包括庞大的自动驾驶数据集,足以从零开始训练深度网络。
Berkeley DeepDrive BDD100k:最大的自动驾驶汽车数据集之一,包含纽约和加利福尼亚超过 2000 小时的驾驶体验。
Bosch Small Traffic Light Dataset:用于深度学习的小型交通灯数据集。
LaRa Traffic Light Recognition:交通灯的另一个数据集。该数据集是从巴黎收集的。
WPI 数据集:交通信号灯、行人和车道检测的数据集。
Comma.ai:它包含汽车的速度、加速度、转向角和 GPS 坐标等详细信息。
MIT AGE Lab:在 AgeLab 收集的 1,000 多个小时的多传感器驾驶数据集样本。
LISA:智能与安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志、车辆检测、交通信号灯和轨迹模式。
Cityscape Dataset:这是一个广泛的数据集,包含 50 个不同城市的街景。
临床数据集
MaskedFace-Net: MaskedFace-Net 是一个真实的数据集,包含带有正确和错误佩戴口罩的人脸。它包含超过 137k 的图像,这些图像基于Flick-Faces-HQ 数据集[21]。有关数据集及其用途的更多详细信息,请访问Github 上的文档。
COVID-19 数据集:艾伦人工智能研究所发布了一个庞大的研究数据集,其中包含超过 45,000 篇关于 COVID-19 的学术文章。
MIMIC-III:由麻省理工学院计算生理学实验室开发的公开可用的数据集,包括与约 40,000 名重症监护患者相关的去识别健康数据。它包括人口统计、生命体征、实验室测试、药物等。
推荐系统的数据集
MovieLens:它包含来自 MovieLens 网站的评级数据集。
Jester:它包含来自 73,421 个用户的 100 个笑话的 410 万个连续评分(-10.00 到 +10.00)。它主要用于协同过滤器。
百万歌曲数据集:它可用于协作和基于内容的过滤。
机器学习和数据科学的最佳公共数据集机器学习、数据科学、情感分析、计算机视觉、自然语言处理 (NLP)、临床数据等的最佳公共数据集。相关推荐
- 情感分析之——电商产品评论数据
1.数据挖掘目标 对京东平台上的热水器评论进行文本挖掘分析,数据挖掘建模目标如下: (1).分析某一品牌热水器的用户情感倾向. (2).从评论文本中挖掘出该品牌热水器的优点与不足. (3).提炼不同品 ...
- python电商评论情感分析_电商产品评论数据情感分析
来自:Python数据分析与挖掘实战--张良均著 1. 分析方法与过程 本次建模针对京东商城上"美的"品牌热水器的消费者评论数据,在对文本进行基本的机器预处理.中文分词.停用词过滤 ...
- 图片情感分析(1):图像数据预处理
图片情感分析,重点是颜色特征的提取,将每一个像素点的颜色特征转换成一个值,最终效果是把一个图片转换成一个二维矩阵,矩阵中每一个值都代表该像素点的颜色特征.概括来说就是将每个像素点的RGB值转换为HSV ...
- 数据可视化大屏(柱状图、条形图、情感分析饼图、地域图、词云图、数据表格图、涟漪散点图)
基于pyecharts.charts绘制图形 最终效果展示: 准备工作 import pandas as pd from pyecharts.charts import Map, Pie, Bar, ...
- 机器学习-文本处理之电影评论多分类情感分析
一.背景 文本处理是许多ML应用程序中最常见的任务之一.以下是此类应用的一些示例 语言翻译:将句子从一种语言翻译成另一种语言 情绪分析:从文本语料库中确定对任何主题或产品等的情绪是积极的.消极的还是中 ...
- 机器学习-情感分析-入门实战案例
前言 情感分析属于自然语言处理的一部分,其任务是,给定一个文本,判断这个文本所表达的情感是正面的,中立的,还是负面的.这被广泛用于: 1. 商品好评度自动检测. 2. 微博推特等平台用户发言是开心赞美 ...
- 【工大SCIR笔记】自然语言处理领域的数据增广方法
点击上方,选择星标或置顶,每天给你送干货! 作者:李博涵 来自:哈工大SCIR 1.摘要 本文介绍自然语言处理领域的数据增广方法.数据增广(Data Augmentation,也有人将Data Aug ...
- 数据矿工学习-情感分析框架DeepEmo论文-个人中文翻译
DeepEmo: Learning and Enriching Pattern-Based Emotion Representations 作者: Elvis Saravia /National Ts ...
- 文本情感分析-机器学习实验三
情感分析-机器学习实验三 实验目的: 通过实验,掌握文本分析的整体流程,了解文本分类.情感分析.自动摘要等内容 通过给定的文本内容,完成分词.文本向量化.文本分类.情感分析等相关实验 实验可从文本分类 ...
- paddle2.0高层API实现自定义数据集文本分类中的情感分析任务
paddle2.0高层API实现自定义数据集文本分类中的情感分析任务 本文包含了: - 自定义文本分类数据集继承 - 文本分类数据处理 - 循环神经网络RNN, LSTM - ·seq2vec· - ...
最新文章
- java 基础知识三 java变量
- G41显卡Linux驱动,Intel最新G41/G43/G45集成显卡驱动下载
- pku 1191 棋盘分割 DP / 记忆化搜索
- Asp.Net就业课之案例实践第二次课
- Vss服务端用户存在,但客户端登陆不进去
- 软件测试:测试一个网站
- 做前端的你有没有觉得很吃力?
- 学生信息表 -通过选择年级和班级得到详细的学生信息名单
- android开发内存优化——利用软引用
- 两侧列固定中间列变宽Div布局参考
- 学习爬虫的第三天 (bs4 \ urllib \ xlwt \ re 的练习爬取豆瓣top250保存成excel格式)
- Acwing 1402. 星空之夜(搜索+哈希)
- MyEclipse闪退的解决办法
- reduce具体使用以及使用reduce,toString,flat进行数组降维
- CSS设置表格行列,给bootstrap table设置行列单元格样式
- 解决关于腾讯会议黑屏问题(ThinkpadE420型号)
- Selenium + Python 自学笔记(第九天)
- 世纪性难题:剪不断、理还乱的开发测试关系
- 操作系统实验五:用户进程管理(详细分析)
- 第08课:子窗口交互