2022年,人工智能早已成为各行各业科技转型最受关注的“顶流”。然而实际情况是:大多数AI项目由于种种因素最终无法实现成功部署。这其中一个重要因素就是数据质量低或数据不足

解决数据瓶颈问题,购买或使用免费的成品数据集是一个良好的起点。成品数据集的优点主要包括:

合规性

在数据安全要求越来越严格的情况下,能够用于部署机器学习模型的数据也就变得更难获取。

减少偏见

通过成品数据集的数据来源,可以了解到数据在创建时是否已纳入偏见检查。

加快进入市场

收集和准备数据通常非常耗时,在速度至关重要的今天,现成的数据集能够快人一步。

成本效益

许多成品数据集可免费或以较低的价格获得,这在预算有限的情况下不失为一个好的选择。

在本文中,我们收集了现有的42个高质量机器学习数据存储库和数据集,并按照项目类型和行业对它们进行了分类。点击相应的文字链接即可一键get,马上抱走并分享给小伙伴们吧!

01 数据存储库 / Data Repositories

Kaggle

Kaggle是规模最大的在线数据集存储库之一,涵盖体育、医学和政府等一系列主题。它的平台由社区主导,这意味着用户可以上传自己的数据集。鉴于Kaggle的数据来源多种多样,彻底检查您取自其中的数据集的质量非常重要。此外,Kaggle还提供关于机器学习主题的讨论以及关于关键流程的教程。

Google数据集

Google提供一个数据集搜索引擎,您可以在其中按名称搜索数据集。该引擎允许您按多种功能对数据集进行排序,例如文件类型、主题、最新更新和相关性。它还可以从互联网上的数千个数据库中获取数据集,因此您可以真正地通过广泛的选项进行搜索。数据集的上传者包括众多国际组织,如哈佛大学和世界卫生组织。

Papers with Code

Papers with Code现有超过四千个数据集(还在不断增加)。这些数据集由社区上传。您可以按模态、任务和语言轻松地筛选这些数据集。数据库中还包含指向其他数据库的链接,后者也提供多种数据集。

DataFlair

DataFlair链接到70多个机器学习数据集,还包括源代码和项目思路等有用信息。例如,在包含手写数字的数据集列表中,DataFlair建议创建图像分类算法来识别纸张中的手写数字。利用该网站可以启发新思路。

EliteDataScience

EliteDataScience包括免费数据集和最热门的聚合器的精选列表。这些数据集按用例组织,其中包括可用于深度学习、自然语言处理、网络抓取等的数据集。

UCI机器学习库

UCI拥有500多个机器学习数据集,可按文件类型、任务、应用领域和主题进行排序。其中许多数据集都包含可用于基准测试的学术论文链接。

Github公开数据集

Github提供公共数据集的开源集合。您可以在其中查看目录,选择一个主题,主题涵盖农业、交通等领域。Github还包括一般机器学习模型的集合。大多数链接的数据集都是免费的。

Azure公共数据集

Microsoft Azure拥有一个公共数据集数据库,开发人员可将其用于原型设计和测试。数据库类别包括美国政府和机构数据、其他统计和科学数据以及在线服务数据。此外,您还可以在其中阅读有关SQL以及如何构建移动和Web应用程序的文档。

Snowflake数据集市

Snowflake包括超过175家第三方数据提供商和数据服务提供商的650+个实时和随时可查询的数据集,为数据科学家、商业智能和分析专业人士以及所有希望数据驱动决策的人士提供了便利。

AWS开放数据注册

AWS有一个注册表,其中包含可通过AWS资源获得的数据集。用户可以分享自己的数据集或添加如何使用特定数据集的示例。注册表中有超过280个可搜索的数据集。

KDNuggets

KDNuggets具有全面的数据存储库列表,其中包括各种各样的数据集。列表中包括超过75个数据存储库,其中一些是国际数据存储库。

澳鹏Appen成品训练数据集

目录包括80多种语言的250+个可授权数据集,涵盖多种方言、机器学习用例及一系列文件类型(文本、图像、视频、语音、音频等)。例如:

▶ 用于广播、呼叫中心、车载和电话应用程序的完全转录语音数据集;

▶ 发音词典,包括通用词汇和特定领域的词汇(例如名称、地点、自然数等);

▶ 带有词性标记的词典和词库;

▶ 带有词法信息和名称实体符号的文本语料库。

02 计算机视觉数据集 / Computer Vision Datasets

ImageNet

ImageNet是根据WordNet层次结构组织的一组名词,其中每个节点都有数千个相关联的图像。该存储库中的数据供研究人员免费使用。

MNIST数据库

MNIST以手写数字图像为特色。其中包括60,000个示例的训练集和10,000个示例的测试集。

IMDB-Wiki数据集

IMDB-Wiki数据集提供最大的人脸图像集合,拥有超过500,000张图像。许多图像来自名人和维基百科。每张图像都附有性别和年龄标签。

LabelMe数据集

LabelMe Dataset使用LabelMe标注工具构建。该工具使用户能够勾勒出对象的轮廓,并为对象添加标签。这个数据集可用于图像识别项目。

MS COCO数据集

MS COCO全称为“Microsoft Common Objects in Context Dataset”,即Microsoft上下文中的常见对象数据集,为解决“上下文中的常见对象”问题而发布。它包含超过120,000张图像,每张图像都有多个与目标检测、分割等图像标注技术相关的标签。数据集中的图像分为91个类别。

Chars74K

Chars74K,顾名思义,它包括74,000张图像。数据包括自然图像中的字符识别(例如,餐厅标志的图像)。

Kinetics-700

Kinetics-700包含一系列主要标注为人类行为的YouTube视频链接。其中有超过65万个视频片段,涵盖700种人类行为。

Places2 Database

Places2 Database是麻省理工学院发布的数据集,包含超过1,000万张图像,涵盖400多个场景。它对场景分类和场景解析等项目很有帮助。

Open Images

Open Images数据集是具有对象位置标注功能的最大数据集之一。它拥有超过900万张图像,每张图像都带有对象边界框、分割和其他标注。总共有1600万个边界框,涵盖600个类别。

MPII人体姿态数据集

MPII人体姿态数据集包括约25,000张涉及410个人体姿态的图像。图像中包含大约40,000个不同的人,每张图像都标注了人体关节。这些图像收集自YouTube视频。

03 自然语言处理数据集 / Natural Language Processing Datasets

Google Blogger Corpus

Google Blogger Corpus包括来自blogger.com的近700,000篇博客文章。每一篇文章至少有200个英语单词。总体而言,这些博客文章包含许多常见的英语单词。

Yelp Reviews

Yelp Reviews数据集涵盖餐厅的排名和评论,包含与此主题相关的丰富信息。该数据集中的评论可用于情感分析项目。

WikiQA语料库

WikiQA语料库是一个问答数据集,由Bing搜索数据编译而成。它包括3,000多个问题,提供29,000个回答句,其中1,500个标注为回答句。

M-AI Labs语音数据集

M-AI Labs语音数据集包括近1,000小时的音频与转录。包括使用多种语言的男性和女性语音。

LibriSpeech

LibriSpeech包括大约1000小时的语音数据,这些数据已经被分段和对齐。这些数据编译自LibriVox项目的有声读物。

WordNet

WordNet是一个按词义分组的英语单词数据库。共有117,000个同义词集(根据同义词配对的单词),然后链接到相关的同义词集。您在下一个文本分类项目就可以使用它。

OpinRank数据集

OpinRank数据集包含来自Edmunds和TripAdvisor的300,000条评论。它们根据旅游目的地、酒店和其他相关因素分类。

多域情感数据集

多域情感数据集包括Amazon.com四个领域的产品评论:DVD、书籍、厨房和电子产品。每个领域都有几千条评论,附有1-5星评级。顾名思义,这个数据集对情感分析项目很有用。

Twitter情感分析

Twitter情感分析数据集包括超过150万条分类推文。数据集的每一行都有一个排名:1表示正面情绪,0表示负面情绪。

20 Newsgroups

20 Newsgroups包含20,000个文档,顾名思义,它来自20多个不同的新闻组。它包含的主题很多,其中一些主题相对相似。该数据集包括三个版本:一个是初始版本,一个是删除日期的版本,还有一个是删除重复的版本。

04 按行业划分的数据集 / Datasets by Industry

政府 - 美国政府数据门户

美国政府数据门户包括美国承诺提供的所有政府数据。通过访问门户,您可以搜索超过300,000个数据集(例如,学生贷款数据和医疗机构收费数据)。

政府 - 欧盟开放数据门户

欧盟开放数据门户提供一种搜索欧盟机构数据的方法,如人口数据、教育数据等。

医疗 - 世界卫生组织

世界卫生组织提供涵盖世界饥饿、医疗保健和疾病等重要主题的数据。

医疗 - 博德研究所

博德研究所提供许多涉及癌症的数据集,涵盖从排序到分类等相关主题。

金融 - Google金融

Google金融包括超过40年的股票市场数据,并连续实时更新。

汽车 - Berkeley DeepDrive

Berkeley DeepDrive由加州大学伯克利分校创建,包括超过100,000个不同地理分布、环境和天气情况的视频剪辑。这些剪辑使用边界框进行标注,以检测对象、车道标线和各种形式的分割。该数据集可以用来帮助训练自动驾驶汽车。

汽车 - Level5

Level5由拼车公司Lyft创建。该数据集包括原始传感器摄像头和激光雷达数据,由众多自动驾驶汽车在特定的地理区域捕获。该数据集使用特定目标对象的三维边界框进行标注。

农业 - USDA开放数据目录

USDA开放数据目录包括美国农业部捕获的数据。主题涵盖从美国农业的测量生产率到食源性疾病的成本估算等领域。

零售 - Fashion-MNIST

Fashion-MNIST包括时装业产品的近60,000张图像和10,000张测试图像,分为10个类别。这些数据对产品分类项目很有用。

零售 - 电子商务搜索相关性

电子商务搜索相关性数据集包括各种产品的功能链接、这些产品在页面上的排名,提供结果的搜索查询以及其他相关属性。其中的数据来自5大英语电子商务网站。

吐血整理:42个人工智能机器学习数据集推荐相关推荐

  1. 吐血整理!10 个机器学习教程汇总,爱可可推荐!

    点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 今天给大家推荐 10 个机器学习课程清单,含课程视频.这份教程是由一名来自硅谷的计算机科学家 ...

  2. 【吐血整理】国外产品经理课程推荐,总有一款适合你!

    本文出自Mockplus团队,Mockplus是一款更快更简单的原型设计工具. 关于产品经理的发展史,虽然可以追溯到1927年美国P&G公司首次提出Product Management的制度, ...

  3. 吐血整理:人工智能、机器学习领域13个常见概念

    作者:阿米特·V. 乔希(Ameet V Joshi) 来源:大数据DT(ID:hzdashuju) 01 人工智能 艾伦·图灵(Alan Turing)对人工智能的定义如下: 如果窗帘后面有一台机器 ...

  4. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载...

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

  5. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

  6. 吐血整理:关于机器学习不可不知的15个概念

    导读:本文介绍不同类型的机器学习方法,以及模型评估的相关概念. 作者:布奇·昆托(Butch Quinto) 来源:大数据DT(ID:hzdashuju) 01 有监督学习 有监督学习是利用训练数据集 ...

  7. python基础教程第三版豆瓣-数据结构与算法必读书单吐血整理推荐【附网盘链接】...

    前言:技术书阅读方法论 一.速读一遍(最好在1~2天内完成) 人的大脑记忆力有限,在一天内快速看完一本书会在大脑里留下深刻印象,对于之后复习以及总结都会有特别好的作用. 对于每一章的知识,先阅读标题, ...

  8. 【干货收藏】统计分析/机器学习吐血整理最强指南

    http://mp.weixin.qq.com/s?__biz=MzAxNzc3NDA3OA==&mid=2651304431&idx=1&sn=4e82688613ecc6a ...

  9. 史上最系统的算法与数据结构书籍推荐!!!!!吐血整理!!

    史上最系统的算法与数据结构书籍推荐!!!!!吐血整理!! 史上最系统的算法与数据结构书籍推荐!!!!!吐血整理!! 前言:技术书阅读方法论 一.速读一遍(最好在1~2天内完成) 人的大脑记忆力有限,在 ...

最新文章

  1. Report Studio值提示通过prompt宏函数给sql查询传参
  2. python打包zip文件_python 解压文件,合并文件 打包成zip格式文件 生成MD5值
  3. 深度学习总结:用pytorch做dropout和Batch Normalization时需要注意的地方,用tensorflow做dropout和BN时需要注意的地方,
  4. sql同时向两个表插入数据_SQL入门-数据库和客户端的安装,表的创建和数据插入...
  5. Matplotlib——创建散点图
  6. 网络设备和OSI参考模型关系
  7. 谷歌浏览器安装过程-0223
  8. 布尔盲注怎么用,一看你就明白了。布尔盲注原理+步骤+实战教程
  9. oraccle 索引管理
  10. HTML5 之 FileReader(图片上传)
  11. 生产调度系统算法模型简要设计
  12. FastStone Capture 下载
  13. ectouch微信支付,带微信H5支付
  14. 简易四六级成绩管理系统
  15. android应用统计获取api,APICloud
  16. UBUNTU开启CRONTAB日志记录及解决NO MTA INSTALLED, DISCARDING OUTPUT问题
  17. 定制 Windows 10 安装程序
  18. 第六次前端培训(JavaScript的基础语法(二))
  19. 重新注册组件修复IE
  20. 全志F1C600芯片处理器介绍

热门文章

  1. java websocket netty_用SpringBoot集成Netty开发一个基于WebSocket的聊天室
  2. 【算法练习】字符串处理 poj2690:首字母大写
  3. mysql存储过程default的意思,针对新手的MYSQL存储过程详解
  4. 基于Sentinel-2的杞县大蒜提取试验
  5. Leetcode883 三维形体投影面积 高效解法
  6. 研发者的重要武器!5大就业方向供你选择
  7. GSMA RCS标准的演变
  8. AXI总线详解完结篇
  9. mysql 挑战握手协议_[中文协议]PPP挑战握手认证协议(CHAP)
  10. 大厂对软件测试的误解这么深吗?测试岗会越来越少吗?该怎样提升技术?