入门 | 从文本处理到自动驾驶:机器学习最常用的50大免费数据集
机器学习领域里有哪些开放数据集?Gengo 近日发布了一份高质量免费数据集列表,其搜索范围不仅包含内容广泛(如 Kaggle),也包括高度特化的(如自动驾驶汽车专用数据集)数据集种类。
首先,在选择数据集时要记住几个重要标准:
- 数据集不能是混乱的,因为你不希望花费大量时间整理数据。
- 数据集不应该有过多的行或者列,这样才能容易处理。
- 数据越干净越好——清理大型数据集可能会非常耗时。
- 该数据集可以用于回答一些有趣的问题。
这样的话,让我们看看能找到点什么?
查找数据集
Kaggle:一个数据科学竞赛网站,其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中(www.kaggle.com/datasets)找到各种小众数据集,从拉面的评分、篮球数据,到西雅图的宠物牌照。
UCI Machine Learning Repository:它是网络中最古老的数据集源之一,是寻找各种有趣数据集的第一选择。在这里,尽管数据集都是用户自行贡献的,但清洁程度仍然很高。此外,你可以直接从 UCI Machine Learning Repository 上下载数据,无需注册。
通用数据集
公共政府数据集
Data.gov:这个网站可以从多个美国政府机构下载数据,从政府预算到学校成绩。不过要注意:其中的大部分数据需要进一步研究。
链接:www.data.gov/
Food Environment Atlas:包含有关本地食物选择如何影响美国饮食习惯的数据。
链接:
catalog.data.gov/dataset/foo…
School system finances:美国学校系统财务状况调查。
链接:
catalog.data.gov/dataset/ann…
Chronic disease data:美国各地慢性病指标数据。
链接:
catalog.data.gov/dataset/u-s…
The US National Center for Education Statistics:美国和世界各地教育机构和教育人口统计数据。
链接:nces.ed.gov/
The UK Data Centre:英国最大的社会、经济和人口数据收集。
链接:www.ukdataservice.ac.uk/
Data USA:美国公共数据的全面可视化。
链接:datausa.io/
金融类
Quandl:很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。
链接:www.quandl.com/
World Bank Open Data:涵盖人口统计和世界各地大量经济和发展指标的数据集。
链接:data.worldbank.org/
IMF Data:国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。
链接:www.imf.org/en/Data
Financial Times Market Data:世界金融市场的最新信息,包括股票价格指数、商品和外汇。
链接:markets.ft.com/data/
Google Trends:观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。
链接:
www.google.com/trends?q=go…
AmericanEconomic Association (AEA):寻找美国宏观经济数据的来源。
链接:www.aeaweb.org/resources/d…
机器学习数据集
图像
Labelme:注释图像的大数据集。
链接:
labelme.csail.mit.edu/Release3.0/…
ImageNet:著名的 ImageNet,由斯坦福大学教授李飞飞等人发起,它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。
链接:image-net.org/
LSUN:场景理解和许多辅助任务(房间布局估计、显著性预测等)。
链接:lsun.cs.princeton.edu/2016/
MS COCO:ImageNet 之外另一个常用的图像数据集,包含通用图像理解和注释。
链接:cocodataset.org/
COIL100:100 个不同的物体在 360°旋转中以每个角度成像。
链接:
www1.cs.columbia.edu/CAVE/softwa…
Visual Genome:非常详细的视觉知识库,配有约 100K 个图像的注释。
链接:visualgenome.org/
Google's Open Images:Creative Commons 下的 900 万个图片的网址集合,「已经标注了跨越 6000 多个类别的标签」。
链接:
research.googleblog.com/2016/09/int…
Labelled Faces in the Wild:13000 张贴有标签的人脸图像,用于开发涉及人脸识别的应用。
链接:vis-www.cs.umass.edu/lfw/
Stanford Dogs Dataset:包含 20580 个图像和 120 个不同品种的狗类别。
链接:
vision.stanford.edu/aditya86/Im…
Indoor Scene Recognition:非常具体的数据集,适用于大多数场景识别模型,因为后者在「外部」表现更好。包含 67 个室内类别,总共 15620 个图像。
链接:
web.mit.edu/torralba/ww…
情感分析
Multidomain Sentiment analysis dataset:有点旧的一个数据集,以亚马逊的产品评论为特色。
链接:
www.cs.jhu.edu/~mdredze/da…
IMDB reviews:用于二进制情感分类的较旧的、相对较小的数据集,具有 25000 个电影评论。
链接:
ai.stanford.edu/~amaas/data…
Stanford Sentiment Treebank:带有情感注释的标准情感数据集。
链接:
nlp.stanford.edu/sentiment/c…
Sentiment140:一个流行的数据集,使用 16 万条预先删除表情符号的推文
链接:help.sentiment140.com/for-student…
Twitter US Airline Sentiment:2015 年 2 月以来美国航空公司的推特数据,分为正面、负面和中性。
链接:
www.kaggle.com/crowdflower…
自然语言处理
Enron Dataset:Enron 公司高层管理人员的电子邮件数据,整理成文件夹。
链接:www.cs.cmu.edu/~./enron/
Amazon Reviews:包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。
链接:snap.stanford.edu/data/web-Am…
Google Books Ngrams:Google 书籍中的词汇集合。
链接:
aws.amazon.com/cn/datasets…
Blogger Corpus:从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。
链接:
u.cs.biu.ac.il/~koppel/Blo…
Wikipedia Links data:维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。
链接:code.google.com/p/wiki-link…
Gutenberg eBooks List:古腾堡计划电子书注释清单。
链接:
www.gutenberg.org/wiki/Gutenb…
Hansards text chunks of Canadian Parliament:加拿大第 36 届国会记录 130 万对文本。
链接:www.isi.edu/natural-lan…
Jeopardy:机智问答节目 Jeopardy 中存档的 20 多万个问题。
链接:
www.reddit.com/r/datasets/…
SMS Spam Collection in English:由 5574 条英文短信垃圾邮件组成的数据集
链接:
www.dt.fee.unicamp.br/~tiago/smss…
Yelp Reviews:Yelp 发布的开放数据集包含 500 多万条评论。
链接:www.yelp.com/dataset
UCI's Spambase:大型垃圾邮件数据集,可用于垃圾邮件过滤。
链接:
archive.ics.uci.edu/ml/datasets…
自动驾驶
Berkeley DeepDrive BDD100k:目前最大的自动驾驶人工智能数据集。包含 100000 多段视频,内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。
链接:bdd-data.berkeley.edu/
Baidu Apolloscapes:百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目,如汽车、自行车、行人、建筑物、路灯等。
链接:apolloscape.auto/
Comma.ai:7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。
链接:archive.org/details/com…
Oxford's Robotic Car:一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
链接:robotcar-dataset.robots.ox.ac.uk/
Cityscape Dataset:记录 50 个不同城市街道场景的大型数据集。
链接:www.cityscapes-dataset.com/
CSSAD Dataset:该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。
链接:
aplicaciones.cimat.mx/Personal/jb…
KUL Belgium Traffic Sign Dataset:比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。
链接:
www.vision.ee.ethz.ch/~timofter/t…
MIT AGE Lab:在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。
链接:lexfridman.com/carsync/
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此数据集包括交通标志、车辆检测、交通灯和轨迹模式。
关注公众账号
【飞马会】
▼
往期福利关注飞马会公众号,回复对应关键词打包下载学习资料;回复“入群”,加入飞马网AI、大数据、项目经理学习群,和优秀的人一起成长!
微软大牛人工智能系列课
(扫码试听或订阅)
m.qlchat.com/live/channe… (二维码自动识别)
回复 数字“2”机器学习 & 数据科学必读的经典书籍,内附资料包!
回复 数字“3”走进AI & ML:从基本的统计学到机器学习书单(附PDF下载)
回复 数字“12”小白| Python+Matlab+机器学习+深度神经网络+理论+实践+视频+课件+源码,附下载!
回复 数字“13”大数据技术教程+书籍+Hadoop视频+大数据研报+科普类书籍
回复 数字“14”小白| 机器学习和深度学习必读书籍+机器学习实战视频/PPT+大数据分析书籍推荐!
回复 数字“16”100G Python从入门到精通!自学必备全套视频教程+python经典书籍!
回复 数字“18”526份行业报告+白皮书:AI人工智能、机器人、智能出行、智能家居、物联网、VR/AR、 区块链等(附下载)
回复 数字“19”800G人工智能学习资料:AI电子书+Python语言入门+教程+机器学习等限时免费领取!
回复 数字“20”17张思维导图,一网打尽机器学习统计基础(附下载)
回复 数字“22”吴恩达新书,教你构建机器学习项目:《Machine Learning Yearning》
回复 数字“23”机器学习:怎样才能做到从入门到不放弃?(内含福利)
回复 数字“24”限时下载 | 132G编程资料:Python、JAVA、C,C++、机器人编程、PLC,入门到精通~
回复 数字“25”限资源 | 177G Python/机器学习/深度学习/算法/TensorFlow等视频,涵盖入门/中级/项目各阶段!
回复 数字“27”资源 | 吴恩达斯坦福CS230深度学习课程全套资料放出(附下载)
回复 人工智能下载《FMI人工智能与大数据峰会嘉宾演讲PPT》
回复 AI 江湖下载《十大AI江湖领域》
回复 ML实践下载《机器学习实践经验指导(英文版)》
回复 DL论文下载《深度学习100篇以上论文资料》
回复 算法 下载《数据挖掘十大经典算法》
回复 6.10 下载《6.10饿了么&飞马网项目管理实践PPT》
入门 | 从文本处理到自动驾驶:机器学习最常用的50大免费数据集相关推荐
- 自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战
自动驾驶深度多模态目标检测和语义分割:数据集.方法和挑战 原文地址:https://arxiv.org/pdf/1902.07830.pdf Deep Multi-Modal Object Detec ...
- 自动驾驶深度学习常用中英文对照表
自动驾驶深度学习常用中英文对照表 A B C D E F G H I J K L M N O P Q R S T U V W Z A 英文 中文 词性 activation 激活值 n,名词 acti ...
- 自动驾驶入门技术(8)—— 自动驾驶仿真技术
1.什么是自动驾驶汽车 1.1 基本概念定义 1)自动驾驶汽车是通过搭载先进的车载传感器.控制器和数据处理器.执行机构等装置,借助车联网.5G和V2X等现代移动通信与网络技术实现交通参与物与彼此间的互 ...
- 马斯克召集百名员工测试完全自动驾驶,1.3万美元大优惠!先到先得
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 怎么快速提高公司的自动驾驶能力? 让员工自己去测试啊. 听起来可能有点匪夷所思,但正在大洋彼岸的特斯拉上演. 召集员工测试 就在马斯克与美 ...
- CODA:自动驾驶中道路目标检测的极端情况数据集
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨计算机视觉深度学习和自动驾驶 2022年3月arXiv论文"CODA: A Real- ...
- 百度自动驾驶出租车服务在北京全面开放 可免费试乘
来源:手机中国 [CNMO新闻]10月11日晚,百度官方正式宣布,即日起,百度自动驾驶出租车服务在北京全面开放,北京的朋友们可在北京经济技术开发区.海淀区.顺义区的数十个自动驾驶出租车站点,无需预约, ...
- 国内能打自动驾驶出租车了!行驶平稳还免费,首个量产车型开放道路试运营...
郭一璞 发自 长沙 量子位 报道 | 公众号 QbitAI 我们终于在国内开放的大马路上,体验了一回L4级自动驾驶. 而且,这不是在封闭的路测园区里实验性的行驶,而是拿出了可以量产的车型,在长沙市区的 ...
- Kaggle新赛:Lyft 自动驾驶运动预测,发布迄今最大预测任务数据集
近日,国外著名出行公司 Lyft 在Kaggle 竞赛平台发起自动驾驶汽车的运动预测挑战赛,旨在促进自动驾驶汽车的研究,并发布了迄今最大的运动预测数据集. 任务介绍 挑战参赛者对自动驾驶场景中出现的行 ...
- 51VR披露自动驾驶仿真平台细节,更大的布局在5G、智慧交通...
自动驾驶仿真技术正在掀起一波浪潮. L3及其以上级别自动驾驶车辆的开发,在车辆系统复杂程度.使用环境复杂程度方面均急剧增加.算法测试.传感器测试.安全性测试已不能通过汽车领域的车辆动力学等仿真方法来解 ...
- 51VR披露自动驾驶仿真平台细节,更大的布局在5G、智慧交通
自动驾驶仿真技术正在掀起一波浪潮. L3及其以上级别自动驾驶车辆的开发,在车辆系统复杂程度.使用环境复杂程度方面均急剧增加.算法测试.传感器测试.安全性测试已不能通过汽车领域的车辆动力学等仿真方法来解 ...
最新文章
- MinGW-notepad++开发c/c++程序
- 自研开源框架 Midway Serverless ,让前端提效 50% 背后的故事
- squid之反向代理服务器
- 拥抱.NET Core系列:MemoryCache 缓存过期
- 【算法系列之三】单链表反转
- 【李宏毅机器学习】regress case study 回归案例研究(p3) 学习笔记
- 两个字符串的最长公共子序列长度_算法学习笔记(58): 最长公共子序列
- 含蓄:为彼此的交往留下余地 — 《别输在不会表达上》
- launchpad乐器_launchpad可以作为一种乐器加入乐队吗?
- 利用AirPlayer空中播放PC服务器视频、音乐、图片
- 威金病毒(viking)残留文件手动清除办法
- plc原理及应用_【工控资料】西门子、三菱、欧姆龙PLC电气设计与编程自学宝典(双色版)...
- 计算机系统维护技术txt,计算机系统维护技术作业装系统.docx
- 转载 SpringMVC详解(一)------入门实例
- Multipass中文文档-教程
- 《裂变式创业》读书心得
- MySQL主从- slave跳过错误
- Android11/Android Q分屏功能实现
- Windows 11 新功能 Microsoft Teams
- 乔布斯的斯坦福演讲(双语)
热门文章
- mysql mssql 性能对比_详解mysql分区实验测试--非分区表与分区表的性能对比
- win10 C语言qt调试,如何在Windows中调试Qt(MSVC)应用程序
- 计算机组成原理自测题,计算机组成原理自测练习题
- java面经_字节跳动 暑期实习 广告部 后台开发 java 一二面经
- java 字符单词匹配_如何使用Java RegEx匹配单词字符?
- java模拟http_java模拟http请求的错误问题整理
- Angr安装与使用之使用篇(四)
- myeclipse 扩展内存大小
- 160304-01、mysql数据库插入速度和读取速度的调整记录
- 编辑器sublime text3和插件package control、Sidebar Enhancements插件安装