前言

最近，几个CV相关的项目陆续暴露出识别准确率不高的问题，导致客户反应强烈。其实在项目初期时我就指出过，只有千级的训练数据是无法训练出一个准确率高的模型的。

在此写一篇博文记录一下。

正文

《数据量不够大，别玩深度学习》

2017年 Jeff Leek 在 Simply Stats 上发表了一篇题为《数据量不够大，别玩深度学习》（Don’t use deep learning your data isn’t that big）的博文。

作者指出，当样本数据集很小时，简单的线性模型也能优于深度网络模型的。

为了证明自己的论点，Leek 举了一个基于 MNIST 数据库进行图像识别的例子，分辨 0 或 1。当用仅 80 个样本的 MNIST 数据集中进行 0 和 1 的分类时，一个简单的线性预测器要比深度神经网络的预测准确度更高。

原文链接：You can probably use deep learning even if your data isn’t that big

谷歌与CMU联合发文：审视数据对深度学习的重要性

深度学习在视觉问题上所取得的成功可归因于以下几点：

高容量模型;
高速增长的计算力;
大规模标记数据的可用性。

原文链接：Revisiting Unreasonable Effectiveness of Data in Deep Learning Era

Why go large with Data for Deep Learning?

从原理了解为什么需要大量训练数据

1957年，弗兰克罗森布拉特设计了第一个模拟单个神经元活动的rst感知器。

感知器（感知机）如下图所示：

线性单元如下图所示：

神经网络如下图所示：

卷积神经网络的示意图：
一个卷积神经网络由若干卷积层、Pooling层、全连接层组成。你可以构建各种不同的卷积神经网络，它的常用架构模式为：

INPUT -> [[CONV]*N -> POOL?]*M -> [FC]*K
以图像识别为例子

图像识别是神经网络应用的主要领域之一，涉及识别隐藏在数据像素后面的大量特征。为了获取这些特征，采用了多层感知机。

常用反向传播将输出与训练数据的误差进行比较，并计算输出中的误差。然后，紧靠输出层的层会调整其权重，导致后续内层中的权重调整，直到错误率降低。

深度学习需要大量不同实例的数据集，模型从中学习要查找的特征并生成带有概率向量的输出。
深度学习的性能能否提升取决于数据集的大小

模型学习的参数越多，训练所需的数据也会增加。否则，具有更多维数和小数据的问题会导致过拟合。

为了验证大数据的必要性，我们来看看2个大容量训练数据的成功应用场景：

1、Facebook上著名的现代人脸识别系统称为“DeepFace”，部署了一套4000多个身份的4百万面部图像，并且在带标签的数据集上达到了97.35％的准确率。

2、Alex Krizhevsky与Geoffrey Hinton等其他学者，描述了一个涉及手眼协调的机器人抓握学习模型。为了训练他们的网络，共收集了800,000次抓握尝试，机器人手臂成功地学习了更多种类的抓握策略。

原文链接：Why go large with Data for Deep Learning?

AI实战：深度学习必须使用大量数据？数据量对深度学习的重要性可能超乎你的想象！相关推荐

【AI实战】深度学习基础环境搭建（Ubuntu + anaconda + tensorflow + GPU + PyCharm）
为方便日常的深度学习模型开发与测试,本人在自己笔记本上搭建一个深度学习的基础环境,便于学习AI使用.本人使用的笔记本配置是CPU为8代i5,显卡为GTX1060,内存为8G,基本上可满足日常的AI研究 ...
开放下载！《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践
来源:开发者社区本文约2000字,建议阅读5分钟. 阿里经济体大数据及AI典型场景最佳实践全揭秘.2019不容错过的大数据实战手册--<阿里巴巴大数据及AI实战>现在可以免费下载阅读啦! ...
深入云原生 AI：基于 Alluxio 数据缓存的大规模深度学习训练性能优化
作者 | 车漾(阿里云高级技术专家).顾荣(南京大学副研究员) 导读:Alluxio 项目诞生于 UC Berkeley AMP 实验室,自开源以来经过 7 年的不断开发迭代,支撑大数据处理场景的数 ...
AI实战：深度学习模型压缩：模型裁剪——Pruning with Keras
前言上一篇文章 AI实战:深度学习模型压缩:模型裁剪--Pruning with Tensorflow 介绍了使用Tensorflow裁剪模型的方法,本文继续介绍使用Keras裁剪模型的方法及源码分 ...
自监督学习，如何从数据困境中拯救深度学习？
2020-02-03 05:35:08 作者 | Thalles Silva编译 | 翻译官balala 编辑 | 丛末大规模标注的数据集的出现是深度学习在计算机视觉领域取得巨大成功的关键因素之一. ...
数据不够怎么训练深度学习模型？不妨试试迁移学习 ——重用神经网络的结构2...
数据不够怎么训练深度学习模型?不妨试试迁移学习本质就是这个图!pretrained model就是你截取的部分神经网络模型(迁移学习),而nanonet就是你自己加入的网络层. 随着深度学习技术在机 ...
【深度学习】基于PyTorch深度学习框架的序列图像数据装载器
作者 | Harsh Maheshwari 编译 | VK 来源 | Towards Data Science 如今,深度学习和机器学习算法正在统治世界.PyTorch是最常用的深度学习框架之一,用于 ...
大数据时代下的迁移学习_继深度学习后,下一个热点技术是迁移学习
最早提出大数据时代到来的是知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪 ...
本周AI热点回顾：十四五规划“人工智能第一！”；深度学习漫画第一卷现已开源；英伟达GPU“屠榜”MLPerf
点击左上方蓝字关注我们 01 人工智能第一!十四五规划建议正式发布近日,中国共产党第十九届中央委员会第五次全体会议深入分析国际国内形势后,就制定国民经济和社会发展「十四五」规划和2035年远景目标提 ...

AI实战：深度学习必须使用大量数据？数据量对深度学习的重要性可能超乎你的想象！

前言

正文

《数据量不够大，别玩深度学习》

谷歌与CMU联合发文：审视数据对深度学习的重要性

Why go large with Data for Deep Learning?

AI实战：深度学习必须使用大量数据？数据量对深度学习的重要性可能超乎你的想象！相关推荐

最新文章

热门文章