首先,在搜索数据集时要记住这几点:

  • 数据集不应该是混乱的,因为你不希望花费大量时间来清理数据。
  • 数据集不应包含太多行或列,要很容易使用。
  • 数据越干净越好,因为清理大型数据集可能非常耗时。
  • 这个数据集应该可以回答一个非常有趣的问题。

话不多说,开始吧!

数据集查找器

1、Kaggle:一个包含各种外部贡献数据集的数据科学网站。你可以在其主列表中找到各种合适的数据集,从拉面评级到篮球数据,甚至是西雅图宠物许可证,应有尽有。

https://www.kaggle.com/

2、UCI 机器学习库:网络上最古老的数据集源之一,是寻找有趣的数据集的第一站。虽然这里的数据集是用户贡献的,因此清洁度不一,但绝大多数都是干净的。你可以直接从 UCI 机器学习库下载数据,无需注册。

http://mlr.cs.umass.edu/ml/

一般数据集

政府公开数据集

3、Data.gov:该网站可以从多个美国政府机构下载数据。数据范围从政府预算到学校绩效分数。但请注意:大部分数据有待进一步研究。

https://www.data.gov/

4、食物环境地图集:包含当地食物选择如何影响美国饮食的数据。

https://catalog.data.gov/dataset/food-environment-atlas-f4a22

5、学校系统财务:对美国学校系统财务状况的调查。

https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

6、慢性病数据:美国各地区慢性病指标数据。

https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

7、美国国家教育统计中心:来自美国和世界各地的教育机构和教育人口统计数据。

https://nces.ed.gov/

8、英国数据服务:英国最大的社会、经济和人口数据集。

https://www.ukdataservice.ac.uk/

9、Data USA:美国公共数据的全面可视化。

http://datausa.io/

金融与经济

10、Quandl:经济和金融数据很好的数据源,有助于建立预测经济指标或股票价格模型。

https://www.quandl.com/

11、世界银行开放数据:涵盖全球人口统计数据和大量经济和发展指标的数据集。

https://data.worldbank.org/

12、国际货币基金组织数据:国际货币基金组织公布的有关国际金融、债务利率、外汇储备、商品价格和投资的数据。

https://www.imf.org/en/Data

13、金融时报市场数据:来自世界各地的金融市场最新信息,包括股票价格指数、商品和外汇。

https://markets.ft.com/data/

14、谷歌趋势:检查和分析世界各地的互联网搜索活动和热门新闻报道的数据。

https://trends.google.com/trends/?q=google&ctab=0&geo=all&date=all&sort=0

15、美国经济协会(AEA):寻找美国宏观经济数据的良好来源。

https://www.aeaweb.org/resources/data/us-macro-regional

机器学习数据集

图像

16、Labelme:带图像标注的大型数据集。

http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

17、ImageNet:业界最新算法图像数据集。根据 WordNet 层次结构进行组织,其中层次结构的每个节点由数百和数千个图像描述。

http://image-net.org/

18、LSUN:有众多辅助任务的场景理解(房间布局估计、特点预测等)

http://lsun.cs.princeton.edu/2016/

19、MS COCO:通用图像理解和字幕。

http://mscoco.org/

20、COIL100:100 个不同的物体,在 360 度旋转的每个角度成像。

http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

21、视觉基因组:非常详细的视觉知识库,带有~100K 图像的字幕。

http://visualgenome.org/

22、谷歌的开放图像:在知识共享版权下的 900 万个图像网址集合,“超过 6000 个类别标签注释”。

https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html

23、Labelled Faces in the Wild:13,000 张人脸标记图像,用于开发人脸识别应用程序。

http://vis-www.cs.umass.edu/lfw/

24、斯坦福狗数据集:包含 20,580 张图片和 120 种不同的狗品种。

http://vision.stanford.edu/aditya86/ImageNetDogs/

25、室内场景识别:一种非常特殊的数据集,因为大多数场景识别模型都最好建立在“室外”,这个数据集非常实用。包含 67 个室内类别,总共 15620 张图像。

http://web.mit.edu/torralba/www/indoor.html

情绪分析

26、多域情绪分析数据集:一个有点老旧的数据集,其中包含来自亚马逊的产品评论。

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

27、IMDB 评论:一个较旧的,相对较小的二元情绪分类数据集,包含 25,000 个电影评论。

http://ai.stanford.edu/~amaas/data/sentiment/

28、斯坦福情绪树库:带有情感注释的标准情绪数据集。

http://nlp.stanford.edu/sentiment/code.html

29、Sentiment140:一个流行的数据集,使用 160,000 条预先删除表情符号的推文。

http://help.sentiment140.com/for-students/

30、Twitter 美国航空公司情绪:2015 年 2 月美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。

https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

31、安然数据集:来自安然高级管理层的电子邮件数据,以文件夹形式分类存放。

https://www.cs.cmu.edu/~./enron/

32、亚马逊评论:包含亚马逊 18 年来约 3500 万条评论。数据包括产品和用户信息、评级和明文审核。

https://snap.stanford.edu/data/web-Amazon.html

33、Google Books Ngrams:Google 图书中的一系列文字。

https://aws.amazon.com/datasets/google-books-ngrams/

34、Blogger Corpus:收集了来自 blogger.com 的 681288 篇博文。每个博客至少包含 200 个常用英语单词。

http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

35、维基百科链接数据:维基百科全文。该数据集包含来自 400 多万篇文章的近 19 亿个单词。你可以按段落、短语或段落本身的一部分进行搜索。

https://code.google.com/archive/p/wiki-links/downloads

36、Gutenberg 电子书列表:Project Gutenberg 的电子书注释列表。

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

37、加拿大议会议事录:来自第 36 届加拿大议会记录的 130 万对文本。

http://www.isi.edu/natural-language/download/hansard/

38、Jeopardy:来自有奖竞猜节目 Jeopardy 的超过 200,000 个问题归档。

https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

39、英语短信垃圾邮件集:由 5574 条英文短信垃圾邮件组成的数据集。

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

40、Yelp 评论:Yelp 发布的一个开放数据集,包含超过 500 万条评论。

https://www.yelp.com/dataset

41、UCI 垃圾邮件集:一个大型垃圾邮件数据集,对垃圾邮件过滤非常有用。

https://archive.ics.uci.edu/ml/datasets/Spambase

更详细列表:

https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

自动驾驶

42、Berkeley DeepDrive BDD100k:目前是自动驾驶 AI 的最大数据集。包含超过 100000 个视频,包括一天中不同时段和天气条件下超过 1100 小时的驾驶体验。带注释的图像来自纽约和旧金山地区。

http://bdd-data.berkeley.edu/

43、百度 Apolloscapes:大型数据集,定义了 26 种不同的语义项目,如汽车、自行车、行人、建筑物、路灯等。

http://apolloscape.auto/

44、Comma.ai:超过 7 小时的高速公路驾驶数据。细节包括汽车的速度、加速度、转向角和 GPS 坐标。

https://archive.org/details/comma-dataset

45、牛津的机器人汽车:在英国牛津的同一条路线重复行驶 100 多次、耗时一年多收集的数据集。该数据集包含天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。

http://robotcar-dataset.robots.ox.ac.uk/

46、城市景观数据集:一个大型数据集,记录 50 个不同城市的城市街景。

https://www.cityscapes-dataset.com/

47、CSSAD 数据集:此数据集对于自动驾驶车辆的感知和导航非常有用。但该数据集严重偏向发达国家的道路情况。

http://aplicaciones.cimat.mx/Personal/jbhayet/ccsad-dataset

48、KUL 比利时交通标志数据集:比利时法兰德斯地区数以千计的物理交通标志,有超过 10000 多个交通标志注释。

http://www.vision.ee.ethz.ch/~timofter/traffic_signs/

49、麻省理工学院实验室:在 AgeLab 收集的 1000 多个小时多传感器驾驶数据集的样本。

http://lexfridman.com/automated-synchronization-of-driving-data-video-audio-telemetry-accelerometer/

50、LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志、车辆检测、交通信号灯和轨迹模式。

http://cvrr.ucsd.edu/LISA/datasets.html

原文链接:

https://gengo.ai/datasets/the-50-best-free-datasets-for-machine-learning/

力荐!50 个最实用的免费机器学习数据集相关推荐

  1. 力荐50个最实用的免费机器学习数据集

    首先,在搜索数据集时要记住这几点: 数据集不应该是混乱的,因为你不希望花费大量时间来清理数据. 数据集不应包含太多行或列,要很容易使用. 数据越干净越好,因为清理大型数据集可能非常耗时. 这个数据集应 ...

  2. 力荐 50 个最实用的免费机器学习数据集

    https://www.toutiao.com/a6641833252602511879/ 2019-01-02 17:45:11 首先,在搜索数据集时要记住这几点: ♦ 数据集不应该是混乱的,因为你 ...

  3. 2020年学计算机需要什么配置,2020年9月开学季,从实用到高端,力荐10款DIY电脑配置...

    Hello大家好,我是兼容机之家的小牛! 一晃眼,已经是九月中旬,大部分高校已经开学了,众多大一新生已经开启了丰富多彩的大学生活. 作为大学生活的一部分,电脑是必不可少的.一台性能强劲的电脑不仅能够提 ...

  4. 网友力荐教子名言 只有50句却能改变儿女一生

    从当今的家庭来看,大多数的家长把自己的一切希望寄托在孩子的身上,这个〝望子成龙〞或〝盼女成凤〞的希望能否成为现实,需要多方面的努力,而家庭是孩子的第一所〝学校〞, 父母是孩子的第一位〝老师〞,家庭教育 ...

  5. 阿里巴巴400集python教程_摆摊吧,程序员!阿里巴巴力荐Python400集视频

    阿里巴巴力荐的视频,对于初学者想更轻松的学好Python开发,爬虫技术,Python数据分析,人工智能等技术,这里也给大家准备了一套系统教学资源,下面介绍下大型Python400集视频学习资料 有五个 ...

  6. 百度推广——搜索营销新视角(百度官方出品,俞敏洪、吴晓波、徐雷力荐!)

    百度认证系列丛书 百度推广--搜索营销新视角(百度官方出品,俞敏洪.吴晓波.徐雷力荐!) 百度营销研究院 著 ISBN 978-7-121-20311-4 出版年月:2013年6月出版 定价:59.0 ...

  7. 百度推广——搜索营销新视角(百度官方出品,俞敏洪、吴晓波、徐雷力荐!)...

    百度认证系列丛书 百度推广--搜索营销新视角(百度官方出品,俞敏洪.吴晓波.徐雷力荐!) 百度营销研究院 著 ISBN 978-7-121-20311-4出版年月:2013年6月出版 定价:59.00 ...

  8. 新书发布《数字化转型方法论》:聚7万+企业数字化转型精华,获100+大咖力荐

    新书发布<数字化转型方法论>:聚7万+企业数字化转型精华,获100+大咖力荐 近日,由国云数据CEO马晓东所著的国内第一本从战略.技术.人才.管理四个维度全方位.立体化地阐述数字化转型方法 ...

  9. 精选收集50个计算机热门视频教程免费下载[原创]

    精选收集50个计算机热门视频教程免费下载[原创] 发扬网络共享精神,让免费资源传遍整个互联网.以下是本人精心挑选的50个计算机视频教程.收集不易,请各位网友多多支持. 欢迎大家转载,发扬共享精神. 0 ...

最新文章

  1. java NIO模型和三大核心原理
  2. 配置DATAGUARD 时关于 LOG_FILE_NAME_CONVERT配置错误的解决
  3. ssm read time out的原因_加盟蜜雪冰城未通过是什么原因?总部公布了两点原因
  4. 预备作业03 20162316刘诚昊
  5. 计算机基础是高校必修课,高校计算机基础教育教学方式改革
  6. PHP probuf详细步骤_【转】protobuffer php使用
  7. 为啥arm架构比x86 x64省电?
  8. 如何在Exchange 2013中禁用对ECP的外部访问
  9. shell中expr强大功能(2)
  10. ASP.NET OAuth 2.0 新手上路
  11. Linux下安装Zookeeper环境
  12. 无觅相关文章插件主页新版推出
  13. 区块链简介与PMD投资方式
  14. 无线路由器的连接与设置
  15. Vue3中关于getCurrentInstance的大坑
  16. JVM源码分析之Attach机制实现完全解读
  17. 在Word2007文档中设置页面边框
  18. 网络变压器的检测设备(5):检测单个元件时选择组合参数的方法
  19. 安卓逆向从入门到嗝屁之另一道CTF题目
  20. access是用来干什么的_Access是干嘛的,可以用来干什么?

热门文章

  1. WinForm容器内控件批量效验是否允许为空?设置是否只读?设置是否可用等方法分享
  2. Theano安装教程
  3. 【8086汇编】DOS系统中 edit 文本编辑器详解
  4. oracle 11g rac 恢复,11G RAC 异机恢复至单实例测试
  5. jquery获取已选择和未选择的checkBox项以及清空所选项
  6. QGIS制图中面积小的区域不显示注记
  7. Mac电脑查看本机的mac地址和ip地址
  8. 十进制100转换成八进制是多少?
  9. linux配置iscsi无账号密码,linux iscsi Initiator配置CHAP认证
  10. win10去掉快捷方式小箭头(win10桌面快捷方式小箭头怎么去掉)