今天给大家分享一个免费获取机器学习数据集网站:

Machine Learning Datasets | Papers With Code

有想法但没有数据集的同学的福音,网站届满很简洁,及本本上提供的了一般可用的各类数据集,我们可以进行各类影像、评论和点云等数据集的搜罗。

CIFAR-10

由 Krizhevsky 等人介绍。在从微小图像中学习多层特征

CIFAR -10数据集(加拿大高级研究所,10 个类别)是 Tiny Images 数据集的子集,由 60000 张 32x32 彩色图像组成。这些图像标有 10 个相互排斥的类别之一:飞机、汽车(但不是卡车或皮卡车)、鸟、猫、鹿、狗、青蛙、马、船和卡车(但不是皮卡车)。每类有 6000 张图像,每类有 5000 张训练图像和 1000 张测试图像。

判断图像是否属于某个类别的标准如下:

  • 班级名称应该在“这张照片中有什么?”问题的可能答案列表中排在前面。
  • 图像应该是照片般逼真的。贴标机被指示拒绝画线图。
  • 图像应仅包含该类所指对象的一个​​突出实例。只要标记者仍然清楚物体的身份,物体就可能被部分遮挡或从不寻常的角度看到。

资源:CIFAR-10 and CIFAR-100 datasets

城市景观

由 Cordts 等人介绍。在用于语义城市场景理解的 Cityscapes 数据集中

Cityscapes是一个专注于城市街景语义理解的大型数据库。它为分为 8 个类别(平面、人类、车辆、建筑、物体、自然、天空和虚空)的 30 个类别提供语义、实例和密集像素注释。该数据集由大约 5000 个精细标注的图像和 20000 个粗糙标注的图像组成。在几个月、白天和良好的天气条件下,在 50 个城市捕获了数据。它最初是作为视频录制的,因此手动选择帧以具有以下特征:大量动态对象、变化的场景布局和变化的背景。

资源:应用于语义分割的深度学习技术综述

宾夕法尼亚树库

由 Mitchell P. Marcus 等人介绍。在建立一个大型带注释的英语语料库:Penn Treebank

英语Penn Treebank ( PTB ) 语料库,特别是与华尔街日报 (WSJ) 文章相对应的语料库部分,是用于评估序列标签模型的最知名和最常用的语料库之一。该任务包括用词性标签注释每个单词。在这个语料库最常见的分割中,从 0 到 18 的部分用于训练(38 219 个句子,912 344 个标记),从 19 到 21 的部分用于验证(5 527 个句子,131 768 个标记),从22 到 24 用于测试(5 462 个句子,129 654 个标记)。语料库也常用于字符级和词级语言建模。

资源:Seq2Biseq:用于序列建模的双向输出循环神经网络

IMDb 电影评论

由 Andrew L. Maas 等人介绍。在学习用于情感分析的词向量

IMDb 电影评论数据集是一个二元情感分析数据集,由来自互联网电影数据库 (IMDb) 的 50,000 条评论组成,标记为正面或负面。该数据集包含偶数个正面和负面评论。只考虑高度两极分化的评论。负面评论的得分≤4(满分10),正面评论的得分≥7(满分10)。每部电影包含的评论不超过30条。数据集包含其他未标记的数据。

资源:Sentiment analysis | NLP-progress

主页

模型网

由吴等人介绍。在3D ShapeNets 中:体积形状的深度表示

ModelNet 40数据集包含合成对象点云。作为最广泛使用的点云分析基准,ModelNet40 因其类别多样、形状清晰、数据集结构良好等而广受欢迎。原来的 ModelNet40 由 40 个类别(如飞机、汽车、植物,灯),其中 9,843 个用于训练,其余 2,468 个用于测试。相应的点云数据点从网格表面均匀采样,然后通过移动到原点并缩放成单位球体进行进一步预处理。

资源:用于点云分类的几何反馈网络

CARLA(汽车学习行动)

由 Dosovitskiy 等人介绍。在CARLA:一个开放的城市驾驶模拟器

CARLA(CAR Learning to Act)是一个开放的城市驾驶模拟器,作为 Unreal Engine 4 上的一个开源层而开发。从技术上讲,它的运行方式类似于 Unreal Engine 4 上的一个开源层,以以下形式提供传感器RGB 摄像头(可定制位置)、地面实况深度图、具有 12 个专为驾驶(道路、车道标记、交通标志、人行道等)设计的语义类别的地面实况语义分割图、环境中动态对象的边界框,以及代理本身的测量(车辆位置和方向)。

资源:深度学习的合成数据

以上就是简单的给大家介绍了几个常用的数据集,请大家自己去网站获取更多数据 。

免费的机器学习数据集网站(6300+数据集)相关推荐

  1. 资源 | 想进行数据科学项目却没有数据集?26个数据集网站汇总

    导读:如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学. 如果你是初学者,那么每完成一个项目你的能力就会大大提高.如果你是有经验的数据科学从业者,那么你应该懂这个 ...

  2. 【干货】数据集网站汇总!

    数据查询网站: 1.企业产生的用户数据 百度指数:http://index.baidu.com/ 阿里指数:https://alizs.taobao.com/ TBI 腾讯浏览指数:http://tb ...

  3. 最全数据集网站汇总,绝对是一个金矿请查收!

    如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学. 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道 ...

  4. 这30个高质量的数据集网站,你必须要试试!

    点击上方"程序IT圈",选择"星标"公众号超级无敌干货,第一时间送达!!! 一.数据查询网站 1.企业产生的用户数据 百度指数:http://index.bai ...

  5. 史上最全数据集网站汇总

    如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学. 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道 ...

  6. 30个高质量的数据集网站,你必须要试试!

    点击上方"Python人工智能编程",选择"星标"公众号超级无敌干货,第一时间送达!!! 一.数据查询网站 1.企业产生的用户数据 百度指数:http://in ...

  7. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载...

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

  8. 数据别愁!机器学习、深度学习数据集汇总

    数据集汇总 寻找一个好用的数据集需要注意以下几点: 数据集不混乱,否则要花费大量时间来清理数据: 数据集不应包含太多行或列,否则会难以使用: 数据越干净越好,清理大型数据集可能非常耗时: 应该预设一个 ...

  9. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统 微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的 ...

最新文章

  1. 智能POS常见问题整理
  2. 安卓复杂的首页布局_到底该如何快速进入安卓编程?
  3. 如何在Window下安装node\npm\cnpm,并安装vue.js,创建项目
  4. Linux掛載samba
  5. 一周一论文(翻译 总结)— [SOCC 14] DaRPC: Data Center RPC 基于RDMA的高性能通信RPC
  6. linux下面升级 Python版本并修改yum属性信息
  7. 每天10分钟用python学数据分析_用Python做数据分析,Numpy,Pandas,matp
  8. 如何使用Jemeter对HTTP接口压测
  9. Jquery.ajax不能解析json对象,报Invalid JSON错误的原因和解决方法
  10. CIELAB色差计算
  11. JAVA计算机毕业设计随心淘网管理系统源码+系统+mysql数据库+lw文档
  12. 物联网计算机控制技术,远距离物联网控制系统技术,你知道几个?
  13. 观点 | 滴滴 AI Labs 负责人叶杰平教授:深度强化学习在滴滴的探索与实践+关于滴滴智能调度的分析和思考+滴滴派单和Uber派单对比
  14. 网吧游戏更新对比软件技术报告
  15. web前端开发的6个福利网站
  16. 使用端到端深度学习模型完成PPI任务两篇论文笔记
  17. 西门子step7安装注册表删除_西门子的软件如何卸载干净
  18. 探花交友_第2章-完善个人信息与MongoDB入门
  19. 你们以为洗白了张柏芝,自己就不是婊子
  20. 微信小程序苹果手机边框显示不全解决办法

热门文章

  1. ST202EB_15KV ESD保护5V RS-232收发器,温度范围[-40℃, 85℃]——科时进商城
  2. JavaScript 高级程序设计 —— 对象
  3. ubuntu 通过文件夹打开终端,通过终端打开文件夹
  4. 今天看到一篇过千粉条友的懊悔分享
  5. 不花钱,自己查论文抄袭程度
  6. 一维数据二维化的办法汇总(一)
  7. MyCat是使用介绍
  8. 学习笔记0521----mysql管理
  9. 修复 IDEA 使用 Gradle 构建出错时的乱码问题(maven项目转Gradle后乱码,并报“错误,找不到符号”)
  10. GFD233A 3BHE022294R0103