机器学习和数据科学中常用的公开数据集(含计算机视觉最全数据集汇总)
数据集查找器
Google Dataset Search:与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集,无论是出版商的网站,还是数字图书馆,又或者是一个作者的网页。它是一个非凡的数据集查找器,包含了超过2500万个数据集。
https://toolbox.google.com/datasetsearch
Kaggle:Kaggle提供了一个庞大的数据集容器,对于热衷于Kaggle的专家来说,数据集是足够了的。
https://www.kaggle.com/
UCI机器学习库:UCI的机器学习库为开源数据集提供了最新的资源。
http://mlr.cs.umass.edu/ml/
VisualData:按类别搜索计算机视觉数据集;它允许搜索查询。
https://www.visualdata.io/
CMU库:通过CMU收集的Wang Huajin Wang可以用来发现高质量的数据集。
https://guides.library.cmu.edu/machine-learning/datasets
一般数据集
住房数据集
波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。
https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
地理数据集
Google-Landmarks-v2:用于地标识别和检索的数据集。该个数据集包含了来自世界各地的5百万张,包含20万多个地标的图片,这些图片由Wiki Commons社区提供和注释。
https://www.kaggle.com/xiuchengwang/python-dataset-download
机器学习数据集:
购物中心客户数据集: 购物中心客户数据集包含了特定城市中访问购物中心的客户信息。数据集由不同的列组成,包括性别、客户id、年龄、年收入和支出分数。它通常用于根据年龄、收入和兴趣对客户进行细分。
https://www.kaggle.com/shwetabh123/mall-customers
IRIS数据集:IRIS数据集是一个简单的和适合初学者的数据集,包含了有关花瓣和萼片宽度的信息。数据分为三个类,每个类有50行,它通常用于分类和回归建模。
https://archive.ics.uci.edu/ml/datasets/Iris
MNIST数据集:这是一个手写数字的数据集,它包含60000个训练图像和10000个测试图像,是一个适合新手用于实现图像分类的数据集,你可以从0到9对数字进行分类。
http://yann.lecun.com/exdb/mnist/
波士顿住房数据集:包含了美国人口普查局收集的有关波士顿地区住房的信息。它是从StatLib档案中获取的,在许多文献中被广泛用于对算法进行基准测试。
https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html
假新闻检测数据集:它是一个CSV文件,有7796行和4列。4列分别是:新闻、标题、新闻文本、结果。
https://www.kaggle.com/c/fake-news/data
葡萄酒质量数据集:该数据集包含有关葡萄酒的不同化学信息。数据集适用于分类和回归任务。
https://archive.ics.uci.edu/ml/datasets/wine+quality
SOCR 数据 - 身高和重量数据集:这是初学者的基本数据集。它包含25000个18岁的不同人类的身高和体重。该数据集可以用来建立一个模型去预测一个人的身高或体重。
http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_020108_HeightsWeights
Titanic数据集:该数据集包含诸如姓名、年龄、性别、船上兄弟姐妹人数等信息,训练集有891名乘客信息,测试集有418名乘客信息。
https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html
信用卡欺诈检测数据集:该数据集包含由信用卡进行的交易信息,且交易信息被标记为欺诈性或真实性,这对于拥有交易系统的公司来说,建立一个检测欺诈活动的模型是非常有用。
https://www.kaggle.com/mlg-ulb/creditcardfraud
计算机视觉数据集
xView:xView是最庞大的空中影像公开数据集之一,它包含来自世界各地复杂场景的图像,并使用边界框进行注释。
http://xviewdataset.org/#dataset
ImageNet:最大的计算机视觉图像数据集。根据WordNet的说法,它提供了一个可访问的图像数据库,而且它是按层次进行组织的。
http://image-net.org/
Kinetics-700:Youtube视频url的大规模数据集,包含以人为中心的行动信息。它包含超过70万个视频。
https://deepmind.com/research/open-source/open-source-datasets/kinetics/
谷歌的开放图像:来自谷歌人工智能的一个巨大的数据集,包含超过1000万张图片。
https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
城市景观数据集:这是一个用于计算机视觉项目的开源数据集,它包含在50个不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深层神经网络来了解城市场景。
https://www.cityscapes-dataset.com/
imdbwiki数据集:imdbwiki数据集是带有性别和年龄标签的人脸图像数据,是最广泛的开源数据集之一。图片数据来自IMDB和Wikipedia,有五百万多个标签图像。
https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
颜色检测数据集:该数据集包含一个CSV文件,其中有865个颜色名称及其相应的RGB(红色、绿色和蓝色)值。
https://github.com/codebrainz/color-names/blob/master/output/colors.csv
斯坦福狗数据集:它包含20580张图片,120个不同品种的狗。
http://vision.stanford.edu/aditya86/ImageNetDogs/
情绪分析数据集
词典编纂者情绪词典:这个数据集是专门用于情绪分析的。数据集包含3000多个负面词汇和2000多个积极情绪词。
http://www.lexicoder.com/
IMDB评论:一个有趣的数据集,包含来自Kaggle的50000多个电影评论。
https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews
斯坦福情绪树库:带情绪注释的标准情绪数据集。
http://nlp.stanford.edu/sentiment/code.html
Twitter美国航空公司情绪:2015年2月美国航空公司的Twitter数据,数据分为正面、负面和中性推文
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
自然语言处理(NLP)数据集
HotspotQA数据集:问答数据集,包含了大量的自然且多转折陈述的问题,而且对事实进行严格监督,以实现更易于解释的问答系统。
https://hotpotqa.github.io/
亚马逊评论:来自亚马逊的庞大数据集,包含超过4500万条亚马逊评论。
https://snap.stanford.edu/data/web-Amazon.html
烂番茄评论:超过48万的评论档案(新鲜或腐烂)。
https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view
英语短信垃圾收集:一个由5574条英语短信垃圾信息组成的数据集。
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
安然电子邮件数据集:它包含超过150个用户的大约50万封电子邮件。
https://www.cs.cmu.edu/~enron/
推荐系统数据集:它包含来自流行网站的各种数据集,如Goodreads书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。
https://cseweb.ucsd.edu/~jmcauley/datasets.html
UCI Spambase数据集:将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍而有用的任务。该数据集包含4601封电子邮件和57封有关电子邮件的元信息,你通过该数据集建立模型来过滤垃圾邮件。
https://archive.ics.uci.edu/ml/datasets/Spambase
IMDB评论:大型电影评论数据集,包括了来自IMDB网站的电影评论,其中超过25000条评论为训练集,25000条评论为测试集。
http://ai.stanford.edu/~amaas/data/sentiment/
自动驾驶(自动驾驶)数据集
Waymo开放数据集:这是来自Waymo员工的一个很棒的数据集资源,包括大量的自动驾驶数据集,足以从零开始训练深度网络。
https://waymo.com/open/
Berkeley DeepDrive BDD100k:最大的自动驾驶汽车数据集之一,包含纽约和加利福尼亚州超过2000小时的驾驶体验。
http://bdd-data.berkeley.edu/
博世小交通灯数据集:小交通灯数据集。
https://hci.iwr.uni-heidelberg.de/node/6132
LaRa红绿灯识别:红绿灯数据集。这个数据集是从巴黎收集的。
http://www.lara.prd.fr/benchmarks/trafficlightsrecognition
WPI数据集:用于交通灯、行人和车道检测的数据集。
http://computing.wpi.edu/dataset.html
Comma.ai:它包含诸如车速、加速度、转向角和GPS坐标等详细信息。
https://archive.org/details/comma-dataset
MIT AGE Lab:MIT AGE实验室收集的1000多小时的多传感器驾驶数据集的样本。
http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/
LISA:加州大学圣地亚哥的智能与安全汽车实验室的数据集:该数据集包括交通标志、车辆检测、交通灯和轨迹模式的数据。
http://cvrr.ucsd.edu/LISA/datasets.html
城市景观数据集:这是一个广泛的数据集,包含50个不同城市的街道场景。
https://www.cityscapes-dataset.com/
临床数据集
COVID-19数据集:艾伦人工智能研究所(Allen Institute of AI research)发布的一个庞大的研究数据集,包含了45000多篇关于COVID-19的学术文章。
https://www.semanticscholar.org/cord19
MIC-III:由麻省理工学院计算生理学实验室开发的公开可用数据集,包括与约40000名危重病人相关的未识别健康数据。它包括人口统计、生命体征、实验室检查、药物治疗等。
https://mimic.physionet.org/
推荐系统的数据集
MovieLens:它包含来自MovieLens网站的分级数据集。
https://grouplens.org/datasets/movielens/
Jester:它包含了来自73421个用户中100个笑话的410万个连续评级(-10.00到+10.00)。它主要用于协同过滤。
http://www.ieor.berkeley.edu/~goldberg/jester-data/
百万歌曲数据集:它可以用于协作和基于内容的过滤。
https://www.kaggle.com/c/msdchallenge#description
参考和来源
[1] The 50 Best Free Datasets for Machine Learning, Lionbridge AI, https://lionbridge.ai/datasets/the-50-best-free-datasets-for-machine-learning/
[2] Google Cloud Public Datasets, Google, https://cloud.google.com/public-datasets/
[3] Machine Learning and AI Datasets, Carnegie Mellon University, https://guides.library.cmu.edu/c.php?g=844845&p=6191907
[4] Big Data and AI: 30 Amazing and Free Public Data Sources, Forbes, https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/#f3bdeb5f8aec
[5] Awesome Autonomous Vehicles Datasets, Github, https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets
[6] Fueling the Gold Rush, The Greatest Public Datasets for AI, StartupGrind, https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2
[7] Places to Find Free Datasets for Data Science Projects, Dataquest, https://www.dataquest.io/blog/free-datasets-for-projects/
[8] The Best Datasets for Natural Language Processing, Gengo AI, https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/
[9] Awesome Public Datasets, Github, https://github.com/awesomedata/awesome-public-datasets#machinelearning
[10] StatLib Datasets Archive, Carnegie Mellon, http://lib.stat.cmu.edu/datasets/
[11] Institutional Research and Analysis | Common Datasets | https://www.cmu.edu/ira/CDS/index.html
[12] Datasets and Project Suggestions | Andrew W. Moore | http://www.cs.cmu.edu/~awm/15781/project/data.html
[13] Datasets | Machine Learning Repository | MIT | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/
[14] Datasets | MIT Lincoln Laboratory | https://www.ll.mit.edu/r-d/datasets
[15] Stanford Large Network Dataset Collection | Stanford University | https://snap.stanford.edu/data/
[16] Stanford Common Dataset | Stanford University | https://snap.stanford.edu/data/
[17] Datalab | UC Berkeley | http://www.lib.berkeley.edu/libraries/data-lab
[18] Exploring Datasets | Data Science at Berkeley | https://datascience.berkeley.edu/open-data-sets/
[19] DeepDrive | UC Berkeley | https://bdd-data.berkeley.edu/
[20] Machine Learning Datasets and Project Ideas — Work on real-time Data Science Projects | Data Flair | https://data-flair.training/blogs/machine-learning-datasets/
参考链接:https://medium.com/towards-artificial-intelligence/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。
↓扫描二维码添加小编↓
机器学习和数据科学中常用的公开数据集(含计算机视觉最全数据集汇总)相关推荐
- 工程计算和数据科学中常用的9种测量距离
很多算法中,无论是自动驾驶算法还是人工智能算法,都会涉及到距离测量的内容.例如:欧氏距离或者cos相似度,在KNN.UMAP.HDBSCAN等算法中很常见. 理解这些距离测量使用的具体领域,对于我们理 ...
- 【机器学习】数据科学中 17 种相似性和相异性度量(上)
本文解释了计算距离的各种方法,并展示了它们在我们日常生活中的实例.限于篇幅,便于阅读,将本文分为上下两篇,希望对你有所帮助. "There is no Royal Road to Geome ...
- r怎么对两组数据统计检验_数据科学中最常用的统计检验是什么
r怎么对两组数据统计检验 Business analytics and data science is a convergence of many fields of expertise. Profe ...
- 数据科学中一些不常用但很有用的Python库
Parul Pandey 2020-09-22 Tuesday ➤ 00导读 提到数据科学的python包,大家想到的估计是numpy,pandas,scikit-learn之类的,这里给大家介绍一些 ...
- 《机器学习与数据科学(基于R的统计学习方法)》——2.11 R中的SQL等价表述...
本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第2章,第2.11节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区& ...
- DS:机器学习之数据科学方向最强学习路线之数据分析、数据挖掘、机器学习工程化团队之详细攻略(更新中)
DS:机器学习之数据科学方向最强学习路线之数据分析.数据挖掘.机器学习工程化团队之详细攻略(更新中) 目录 最强学习路线 DS市场岗位要求 DS应用领域 基本必备技能
- 机器学习、数据科学与金融行业 系列四:智能投顾、量化投资与机器学习
机器学习.数据科学与金融行业 系列四:智能投顾.量化投资与机器学习 难点不在于没有新思维,而在于无法摆脱陈旧思想的束缚.-- 巴菲特 历史不会重演,但却有韵律.-- 马克吐温 我可以计算出天体的运动和 ...
- Python机器学习:数据科学,机器学习和人工智能的主要发展技术趋势概述
1.介绍 Python因易于学习而广为人知,并且它仍然是数据科学,机器学习和科学计算中使用最广泛的语言.根据最近的一项民意的调查,该调查对1,800多名研究人员分析,数据科学和机器学习偏好的参与者进行 ...
- 数据科学中的6个基本算法,掌握它们要学习哪些知识
晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI 如果想从事数据科学,但是又没有数学背景,那么有多少数学知识是做数据科学所必须的? 统计学是学习数据科学绕不开的一门数学基础课程,但数据科学也 ...
最新文章
- 2019年终总结之SAP项目实践篇
- 51Nod:1085 背包问题
- ES等待任务——是master节点上的task任务
- [C++][数据结构]栈(stack)的实现
- js post中文乱码 php,AJAX之POST数据中文乱码如何解决
- C#LeetCode刷题之#367-有效的完全平方数(Valid Perfect Square)
- linux查看cpu缓存大小,如何在Linux中获取CPU Cache的大小
- 一. Vue项目引入字体(思源黑体)
- Android阿里云推送
- java60秒倒计时
- M26 SDK开发环境搭建
- ORA-19511 ANS1017E (RC-50) Session rejected: TCP/IP connection failure
- hosts : IP - 主机名/域名映射
- python-树-BST_Traversal-二叉搜索树的遍历
- 模型会忘了你是谁吗?两篇Machine Unlearning顶会论文告诉你什么是模型遗忘
- Licheepi zero SPI Flash 系统编译
- google map的配置(Android版)
- 如何在局域网内进行内部访问网站?
- 阿里云ECS用docker建Discuz!论坛和mediawiki
- 见她之前再见她,冥冥之中有天意
热门文章
- /date()/转换成常见的时间格式
- 9种防止电脑辐射的方法
- 神奇的CSS用法之border-radius
- 《健康地奋斗着——程序员自己的养生书》作者:中医程序猿
- PHP技术与应用基础
- java从高位到低位输出_任意输入一个正整数,从高位向低位依次输出,或从低位向高位依次输出(数组,调用函数两种方法)...
- 绕过content-type检测文件类型上传webshell
- java播放器使用教程_[Java教程]Java音乐播放器
- SQL SERVER 2005/vs2008快捷键
- pandas 入门(pandas 数据结构介绍)