训练集来自和开发集不同的分布,误差显示有数据不匹配的问题,该如何解决?

这个问题没有完全系统的解决方案,但有一些可以尝试的事情。


翻译为:

  • 人工做误差分析,尝试了解训练集(training set)和开发集(dev set)的具体差异。
  • 使训练集更像开发-测试集,或收集更多的像开发-测试集的数据。

这里只给出粗略的指南,列出可以做的尝试。这不是一个系统化的过程,并不一定能保证make progress。
但是这种manual insight,我们可以一起尝试收集更多的和真正重要的场合相似的数据,这通常有助于解决很多问题。

要使训练数据(training data)更像开发集数据(dev data),我们可以用人工合成数据的方法。

人工合成数据的潜在问题:
当重复使用car noise的次数过多,会有对car noise过拟合的风险。

总而言之:
如果你认为存在数据不匹配的问题,最好做一些误差分析,看一下训练集training set和开发集dev set,试图了解和找出这两个数据的分布到底有何不同。
然后看看是否有办法收集更多看起来像开发集的数据作为训练集数据。谈到的一种方法是人工合成数据。在使用人工合成数据时,一定要谨慎,要记住你有可能从所有的可能性空间只选了很小一部分去模拟数据。

吴恩达神经网络和深度学习-学习笔记-25-定位数据不匹配相关推荐

  1. 吴恩达神经网络与深度学习——深度神经网络

    吴恩达神经网络与深度学习--深度神经网络 深度神经网络 符号 前向传播 矩阵维度 m个样本 为什么使用深层表示 搭建深层神经网络块 正向传播和反向传播 前向和反向传播 前向传播 反向传播 参数和超参数 ...

  2. 吴恩达神经网络和深度学习

    [前言] 在学习了深度学习和神经网络之后,为什么我要以博客的形式来做笔记?这CSDN有那么多的优秀文章,我自己写的都比不上 别人的我写的真的有意义吗,为什么我要浪费大量的时间去做这项工作?我相信一句话 ...

  3. 吴恩达神经网络与深度学习——浅层神经网络

    吴恩达神经网络与深度学习--浅层神经网络 神经网络概述 神经网络表示 计算神经网络的输出 m个样本的向量化 for loop 向量化 向量化实现的解释 激活函数 sigmoid tanh函数 ReLu ...

  4. 吴恩达神经网络和深度学习-学习笔记-38-使用开源的方案+迁移学习+数据增强data augmentation

    使用别人的开源成果 想要用现成的网络,最好在网络上找到开源的实现,这要比从头开始实现快得多. 比如:直接在Google上搜索resnets github,找到合适的后点击下载会得到URL,然后在cmd ...

  5. 吴恩达神经网络和深度学习-学习笔记-28-端到端的深度学习(end-to-end deep learning )

    深度学习最令人振奋的最新动态之一,就是端到端深度学习end-to-end deep learning的兴起. 什么是"端到端深度学习" 以前有一些数据处理系统或学习系统,它们需要多 ...

  6. 吴恩达神经网络和深度学习-学习笔记-8-梯度消失与爆炸 + 梯度检测

    梯度消失与爆炸 介绍 直观理解是: 权重W只比1(即单位矩阵)大一点,深度神经网络的激活函数将爆炸式增长. 权重W只比1(即单位矩阵)小一点,深度神经网络的激活函数将指数式递减. 虽然我(吴恩达老师) ...

  7. 吴恩达-神经网络和深度学习课程-学习心得(一)

    前言: 陆陆续续学完了吴恩达老师在网易云课堂上开设的深度学习工程师微专业的部分内容(01.神经网络与深度学习,04.卷积神经网络,02.改善深层神经网络),在进一步应用实践之前,对之前的学习的内容做个 ...

  8. 吴恩达神经网络和深度学习-学习笔记-39-计算机视觉现状

    Data vs hand-engineering 你可以把大部分的机器学习问题看成是在你的数据相对较少的地方,应用到你拥有大量数据的地方. 我们今天有相当数量的语音识别数据,至少相对于这个问题的复杂性 ...

  9. 吴恩达神经网络和深度学习-学习笔记-22-误差分析

    单一误差分析 假设我们面对一个猫分类器的准确率不够的原因. 队友看了一下算法分类出错的例子,注意到算法将一些够狗分类为猫. 在这种条件下,我们应不应该做一个项目专门处理狗?比如搜集更多的狗的图片,或者 ...

  10. 吴恩达神经网络和深度学习-学习笔记-21-何时该改变开发集+测试集或指标

    需要我们改变开发集+测试集或指标的情况,是现有的指标或开发测试集并不能帮助我们选择出最好的模型! 如果你的评估指标,无法正确评估好算法的排名,那么就需要花时间定义一个新的评估指标. (加权来排除某一类 ...

最新文章

  1. 既使用maven编译,又使用lib下的Jar包
  2. 中值滤波_Halcon联合C#编程自学笔记三之中值滤波
  3. 网络知识科普 | 你未必了解的DNS
  4. 010 Android之逆向入门
  5. 证书体系: PFX 文件格式解析
  6. MySQL基础篇(05):逻辑架构图解和InnoDB存储引擎详解
  7. JavaScript缓存处理代码
  8. pythonbyte转int_Python将byte数组转换为int详解
  9. ndk编译libiconv
  10. MySQL table 添加_「primarykey」MySQL中为table添加primary key的两种方法 - seo实验室
  11. java字体设置框_CSS样式更改——字体设置Font边框Border
  12. [开发过程]<项目管理>TAPD工具
  13. vue 路由地址不跳转 解决办法
  14. 我的世界JAVA会支持光追吗_我的世界怎么开启光追
  15. 论坛上关于几个国家别称的由来
  16. PostgreSQL使用PgAdmin导入数据
  17. CSP-J2020复赛题解
  18. response Headers与request Headers字段详解
  19. SetContentView源码解析
  20. Tornado.Cash终于,终于发币了!TORN治理机制都在这里

热门文章

  1. 学python要多久-目前Python学习需要多长时间?老男孩Python入门培训
  2. java 获取js元素,表单元素值获取方式js及java方式的简单实例
  3. 【java笔记】转换流
  4. 【动态规划】区间dp: P1063能量项链
  5. Adobe Premiere 基本使用
  6. js 复制图片到剪切板 和 js复制文本到剪切板
  7. jQuery判断页面是电脑端还是手机端
  8. html中logo不变形,CSS3如何实现LOGO中的文本变形动画
  9. LayUI数据表格复选框显示不居中问题
  10. 【编辑器】用CodeRunner打造VScode的C++开发环境