以后做的整理尽量精简。。日后定及时整理。
1.hold-out cross validation/development set验证集
数据集的常见划分:7 3分 train test 6 2 2 前几年这么认为
现在数据量太大,100万, 验证集不用太多,为了快速判别出好的算法。
测试集为了快速评估性能1万只需要1000。
98::1:1
超过百万
99.5 0.4 0.1
训练集和验证集 来自统一分布
不需要无偏评估算法性能。不要测试集。 普通的交叉验证,把测试集放在了验证集里
这时候验证集有可能被称为测试集
2.
偏差:在训练集上,高偏差,说明拟合的不好。数据拟合度低
在训练集上过度的拟合了部分数据,导致高方差。
方差:在验证集上的一种度量。高方差,拟合了太多错误的。高偏差,灵活性高。
偏差:通常是在训练集。高偏差,选择新模型。
最优误差:人类水平
3.高偏差怎么办?训练集无法拟合,选择新网络架构等等,增大网络。
高方差(在验证集上表现不好),怎么办?1.去获得更多数据2.正则项3.新模型
机器学习中传统的 方差偏差平衡。 深度学习中貌似可以不用太考虑
4。
正则化:ng省略了b,他认为参数w包含了大部分的参数

1范数和2范数。有人认为1范数会导致参数
numerator 分子
denominator 分母
多层模型中,W矩阵的范数的平方叫做Frobenius
5.为什么正则化可以避免过拟合。 labda大,导致z小,导致线性,一班来说,越线性,拟合度低,不会过拟合。
6.dropout正则化
1.反向随机失活(inverted dropout)选择keep-prob进行对a进行单元处理,random < keep_prob =0。
z=a*w+b,为了保持Z的期望不变,除以keep_prob
在测试阶段,不使用dropout, 我们希望结果不随机的。(dropout用在训练时候)
7.why dropout work?
会随机删除某个单元,我们不会把权重放在某个input上,而是尽可能的传播开。主要用于计算机视觉。
缺点是J不确定了。
8.其它正则化方法:
1.data argumentation 数据扩增。一个图片的旋转
2.提前停止(Early Stopping)的策略是:在验证误差不在提升后,提前结束训练;而不是一直等待验证误差到最小值。
机器学习的几个步骤1.选择一个算法来优化代价函数2.not overfit:正则化。
迭代到某个位置停止。。 缺点:不能同时进行这2个任务。
3. l2正则化 必须尝试很多正则化labda。 early stoping只需要运行一次
17.10.5

深度学习(数据集划分偏差方差)相关推荐

  1. 深度学习中的偏差和方差

    偏差和方差的意义 深度学习中,偏差指的是预测值和真实值之间的误差,方差可以理解为训练数据集精度和测试数据集精度之间的差异.下表则表示在训练神经网络时可能出现的结果,低偏差低方差则是我们期待的结果. 1 ...

  2. 深度学习数据集标注工具、图像语料数据库等资源

    NLP+VS︱深度学习数据集标注工具.图像语料数据库.实验室搜索ing... 2017年02月07日 12:12:01 阅读数:27032 ~~因为不太会使用opencv.matlab工具,所以在找一 ...

  3. NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing..

    一.NLP标注工具 来源:<构想:中文文本标注工具(附开源文本标注工具列表)> Chinese-Annotator   来源:https://github.com/crownpku/Chi ...

  4. NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing....

    from: https://blog.csdn.net/sinat_26917383/article/details/54908389 一.NLP标注工具 来源:<构想:中文文本标注工具(附开源 ...

  5. 【图像标注】NLP+VS︱深度学习数据集标注工具、图像语料数据库、实验室搜索ing

    因为不太会使用opencv.matlab工具,所以在找一些比较简单的工具.  .  . 一.NLP标注工具BRAT BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的 ...

  6. 深度学习数据集定义与加载

    深度学习数据集定义与加载 深度学习模型在训练时需要大量的数据来完成模型调优,这个过程均是数字的计算,无法直接使用原始图片和文本等来完成计算.因此与需要对原始的各种数据文件进行处理,转换成深度学习模型可 ...

  7. 深度学习数据集制作工作_创建我的第一个深度学习+数据科学工作站

    深度学习数据集制作工作 My Home Setup 我的家庭设置 Creating my workstation has been a dream for me, if nothing else. 创 ...

  8. 捡漏!用谷歌图片搜索自制深度学习数据集 | 教程

    铜灵 编译整理 量子位 出品 | 公众号 QbitAI 就怕前脚刚立志搞个新研究,后脚就发现没有合适的数据集可用.AI工程师从入门到放弃,可能就是这么一会的功夫. 别找了,现在深度学习数据集也能自制了 ...

  9. 深度学习数据集的准备

    深度学习数据集的准备 下面介绍一个做了很久的项目,其中最简单的一部分是将该乳腺X线数据集进行有病没病的分类训练,说到训练最基本的就是数据集的准备,在这里先讲讲数据集怎么准备.下图是原始数据集的一部分. ...

最新文章

  1. 组合求解器 + 深度学习 =?这篇ICLR 2020论文告诉你答案
  2. 2.7 程序示例--多分类问题-机器学习笔记-斯坦福吴恩达教授
  3. SAP Spartacus user form页面的css设计重构
  4. UML实践----用例图、顺序图、状态图、类图、包图、协作图
  5. AngualrJS之服务器端通信
  6. 【剑指offer】面试题63:股票的最大利润(Java)
  7. 面试突击 | Redis 如何从海量数据中查询出某一个 Key?视频版
  8. ubuntu 16.0安装mysql8_ubuntu16.0.4 安装 mysql8.0.18的
  9. python中type(12.34)_下面代码的输出结果是
  10. Qt Creator 使用技巧(功能快捷键如注释、声明和实现之间切换)
  11. MobileNetV3 论文
  12. 【CS106】编译原理笔记4 —— 用普遍性泵引理(Pumping lemma)证明语言的正则性
  13. linux程序设计学习心得,几点学习Linux编程的建议
  14. Python爬虫之实习僧招聘信息及数据分析
  15. 废旧手机变成远程摄像头
  16. 8 NoSQL数据库有哪些?
  17. numpy.outer()函数
  18. Vue--Router--路由模式--种类/区别/原理
  19. 上海航芯| BMS专题之BMS基础功能模块概述分享
  20. 联通linux用户名是什么意思,揭秘 linux 通过新联通宽带拨号上网不成功原因及解决办法!...

热门文章

  1. 组装微型计算机时 下列哪些部件,2016年9月计算机三级网络技术考试试题及答案...
  2. rust怎么上邮轮_20年内泰坦尼克号将消失 英公司推三千米沉船之旅
  3. python调用函数_Python 函数中的 4 种参数类型
  4. 数据结构无向图顶点的度c语言_图-储存及基本操作
  5. oracle表字段获取,获取oracle表结构的字段信息
  6. 无法将类型int隐式转换为string_Scala implicit 隐式转换安全驾驶指南
  7. 百度云服务器安装git并做远程仓库
  8. Numpy 之Fancy indexing
  9. webserver之定时器
  10. gvim 配置_Python与开源GIS教程:1.3. 配置Python开源GIS环境