数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的理论派。

今天便来谈谈这个问题,同时介绍一个好的学习社区供大家讨论与提升。

文/编辑 | 言有三

1 需要掌握哪些内容

在公司实战项目做久了的同学,应该都有这个感慨。吾本欲在算法领域大展拳脚,奈何清洗和增加数据就可以让模型性能突飞猛进。我们确实会花费很多的时间去折腾数据,总的来说包括:

(1) 获取数据。

(2) 整理数据。

(3) 分析数据。

(4) 使用数据。

(5) 迭代数据。

所谓获取数据,包括公开数据集的搜索和下载,使用爬虫等工具从零建立数据集。

所谓整理数据,包括格式化,重命名,去重,标注等。

所谓分析数据,包括数据的统计和可视化分析等。

所谓使用数据,包括在开源框架中数据集的接口定义,数据增强策略的使用等。

所谓数据迭代,主要就是针对自己的任务不断调整数据以优化模型等。

2 有三AI已经做了什么

作为这么重要的一个课题,我们当然已经分享过很多的内容了,下面汇总一下。

2.1 数据获取

关于数据获取问题,我们给大家介绍过许多领域的数据集以及数据集对深度学习的影响,相关文章如下:

【技术综述】一文道尽“人脸数据集”

【数据集】自动驾驶都有什么测试基准?

【数据集】一文道尽医学图像数据集与竞赛

【数据】短视频识别,都有那些行业标准?

【数据】深度学习从“数据集”开始

也多次介绍过爬虫算法,推荐过不少好的项目,相关文章如下:

【杂谈】深度学习必备,各路免费爬虫一举拿下

【AI白身境】学深度学习你不得不知的爬虫基础

2.2 数据整理

关于数据整理问题,我们在开源GitHub项目yousan.ai中提供了整套的python和shell脚本,覆盖图像遍历,重命名,随机打乱,去重等功能。

2.3 数据分析

关于数据分析问题,我们已经多次介绍过数据可视化相关的内容,相关文章如下:

【AI白身境】深度学习中的数据可视化

【技术综述】“看透”神经网络

2.4 数据使用

关于数据使用问题,我们已经在yousan.ai中对12个常用的深度学习开源项目如何从头开始定义数据读取和增强API进行了详细的解读,相关文章如下

【完结】给新手的12大深度学习开源框架快速入门项目

【技术综述】深度学习中的数据增强方法都有哪些?

【开源框架】一文道尽主流开源框架中的数据增强

关于数据迭代,每一个领域的做法都不同,因此我们在公众号还没有相关内容,后续会在知识星球中针对具体的任务进行讲解。

3 哪里有更多更新

以上就是全部了吗?当然远远不是。有三在知识星球平台有更多内容,覆盖珍贵的数据集下载,相关经验分享

3.1 经验分享

有一些非常干货的内容,有三只会提供给咱们付费成员,比如数据增强的实战经验,以后还会有更多。

3.2 数据集分享和下载

在有三AI知识星球中会对各大领域中的数据集进行系统性介绍,另外为了方便大家收藏阅读,有三将分享做成了卡片的形式,并提供了下载链接,案例如下:

有三AI知识星球-数据集

Distracted Driver Detection

Distracted Driver Detection是一个司机状态检测数据集,包含10个状态,共22425张图 。

作者/编辑 言有三

数据集地址:https://www.kaggle.com/c/state-farm-distracted-driver-detection/data,发布于2016年。

每年很多的交通事故的发生都是因为司机没有专注于自动驾驶,因此一个好的辅助驾驶系统不仅要关注车外的情况,也要时刻关注车内驾驶员的情况。

这一个数据集来自于Kaggle平台,该包含了10种状态,如下:

c0: safe driving

c1: texting - right

c2: talking on the phone - right

c3: texting - left

c4: talking on the phone - left

c5: operating the radio

c6: drinking

c7: reaching behind

c8: hair and makeup

c9: talking to passenger

一些样本如下,每一类约2000多张图像,共22425张图。

现在咱们星球已经覆盖非常多的重磅数据集下载,覆盖大型数据集如ImageNet,人脸各个方向的数据集,自动驾驶各方向数据集,美学各方向数据集,人像各个方向数据集,3D数据集,动植物各个方向数据集,仔细瞧瞧,一定会有惊喜!

同时小伙伴们也会来经常分享自己的数据集,相信在大家的努力下,这里东西的价值无法想象。

预告一下,有三后面还会在星球内部搞比赛,提供自己标注的数据集,敬请期待。

4 最后要说的话

数据的使用的确是一门经验活,很多的时候我们都卡在了这里,甚至连数据集的下载都搞不定

因此,我们在有三AI知识星球中提供相关分享,更提供相关的经验交流,如果真的需要,就加入有三AI知识星球,一起讨论学习吧。

另外,数据集只是有三AI知识星球中的一个板块,还有很多重磅,比如网络结构设计:如何系统性掌握深度学习模型设计和优化,相信你不会失望。

转载文章请后台联系

侵权必究

  • 有三AI知识星球官宣,BAT等大咖等你来撩

  • 揭秘7大AI学习板块,这个星球推荐你拥有

  • 有三AI 1000问回归,备战秋招,更多,更快,更好,等你来战!

  • 【知识星球】做作业还能赢奖金,传统图像/机器学习/深度学习尽在不言

  • 【知识星球】颜值,自拍,美学三大任务简介和数据集下载

  • 【知识星球】数据集板块重磅发布,海量数据集介绍与下载

  • 【知识星球】猫猫狗狗与深度学习那些事儿

  • 【知识星球】超3万字的网络结构解读,学习必备

  • 【知识星球】视频分类/行为识别网络和数据集上新

  • 【知识星球】3D网络结构解读系列上新

  • 【知识星球】动态推理网络结构上新,不是所有的网络都是不变的

  • 【知识星球】Attention网络结构上新,聚焦才能赢

  • 【知识星球】几个人像分割数据集简介和下载

  • 【知识星球】总有些骨骼轻奇,姿态妖娆的模型结构设计,不知道你知不知道,反正我知道一些

  • 【知识星球】从SVM对偶问题,到疲劳驾驶检测,到实用工业级别的模型压缩技巧

如何系统性掌握深度学习中的数据使用相关推荐

  1. 【AI白身境】深度学习中的数据可视化​​​​​​​

    文章首发于微信公众号<有三AI> [AI白身境]深度学习中的数据可视化 今天是新专栏<AI白身境>的第八篇,所谓白身,就是什么都不会,还没有进入角色. 上一节我们已经讲述了如何 ...

  2. 【技术综述】深度学习中的数据增强(下)

    文章首发于微信公众号<有三AI> [技术综述]深度学习中的数据增强(下) 今天带来深度学习中的数据增强方法的下篇.我们将从以下几个方向入手.1,介绍一下什么是无监督的数据增强方法.2,简单 ...

  3. [综述类] 一文道尽深度学习中的数据增强方法(上)

    今天带来一次有关于深度学习中的数据增强方法的分享. 00 什么是数据增强 在深度学习项目中,寻找数据花费了相当多的时间.但在很多实际的项目中,我们难以找到充足的数据来完成任务. 为了要保证完美地完成项 ...

  4. 对pca降维后的手写体数字图片数据分类_【AI白身境】深度学习中的数据可视化...

    今天是新专栏<AI白身境>的第八篇,所谓白身,就是什么都不会,还没有进入角色. 上一节我们已经讲述了如何用爬虫爬取数据,那爬取完数据之后就应该是进行处理了,一个很常用的手段是数据可视化. ...

  5. 深度学习中的数据增强(上)

    feic非[技术综述] 深度学习中的数据增强(上) - 知乎 https://zhuanlan.zhihu.com/p/38345420 [技术综述]深度学习中的数据增强(下) - 知乎 https: ...

  6. gan 总结 数据增强_深度学习中的数据增强(下)

    言有三 毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人 编辑 | 言有三 今天带来深度学习中的数据增强方法的下篇.我们将从以下几个方向入手.1,介绍一下什么是无监督的数据增强方法.2,简单 ...

  7. 嵌入式AI —— 6. 为糖葫芦加糖,浅谈深度学习中的数据增广

    没有读过本系列前几期文章的朋友,需要先回顾下已发表的文章: 开篇大吉 集成AI模块到系统中 模型的部署 CMSIS-NN介绍 从穿糖葫芦到织深度神经网络 又和大家见面了,上次本程序猿介绍了CMSIS- ...

  8. 深度学习中图片数据增强方法

    简 介: 在深度学习中需要对图像进行不同的处理.本文对比了基于Numpy以及Paddle.vision.transforms函数中对于图片处理的效果. 关键词: 图像预处理,cv2,paddle #m ...

  9. 总结 62 种在深度学习中的数据增强方式

    数据增强 数据增强通常是依赖从现有数据生成新的数据样本来人为地增加数据量的过程 这包括对数据进行不同方向的扰动处理 或使用深度学习模型在原始数据的潜在空间(latent space)中生成新数据点从而 ...

最新文章

  1. 关于一对多,多对多的多表查询的控制
  2. 神经网络与深度学习——TensorFlow2.0实战(笔记)(五)(Matplotlib绘图基础<1>python)
  3. 4.聚合aggregate
  4. Modbus协议栈应用实例之四:ModbusTCP服务器应用
  5. 漫画:什么是布隆算法?
  6. 微信小程序 promise 化
  7. Docker的安装及操作
  8. (译)MySQL的10个基本性能技巧
  9. 数据库期末总结笔记(零基础)-第三章 关系数据库SQL
  10. 《进击的虫师》百度文库下载器
  11. 最全人工智能专业术语表(中英文对照)
  12. 读书 -- 个人购书经验总结
  13. 《深度学习入门:基于Python的理论与实现》源代码
  14. Python数据交互式可视化 - 交互式可视化
  15. 关于计算机英语演讲ppt模板,英语演讲ppt模板(英语演讲8分钟ppt模板) 最新免费版...
  16. 《九日集训》第五天打卡
  17. iPad Pro机身无故弯曲 Apple对此做出回应及应对
  18. L1-034 点赞 (20分)
  19. PCB吉米哥:如何阅读电路原理图及PCB设计
  20. 台湾大学郭彦甫matlab百度云,台湾国立大学郭彦甫Matlab教程笔记(23) linear systems...

热门文章

  1. 后端开发实践:Spring Boot项目模板,拿去用吧!
  2. 计算营业额的python代码_【每日一练】巧用python实现利润计算
  3. (仿头条APP项目)8.新闻详情页面实现和butterknife插件使用
  4. 关于浮点数的原理详解
  5. 求解两个非负整数的最大公约数(C语言实现)
  6. Java 里的HashMap(HashTable) 简介.
  7. Java 多态的简单介绍.
  8. 电销机器人价格_供应商电话销售机器人服务为先
  9. caj文件浏览器_解决CAJ阅读器读取学位论文卡到爆炸的问题
  10. 【基础大全】一文带你打好网工路由基础......