1.train/dev/test data

我们将数据划分为训练集、验证集(也称开发集:development data)和测试集。

1.1 为什么要分成三类?

在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试输出(一般来说,论文中的模型效果都是使用这个测试集的结果),测试集上的误差作为泛化误差的近似。
关于验证集的划分可以参考测试集的划分,其实都是一样的,这里不再赘述。

可以简单地将上述三者对应学习过程:
训练集看成是家庭作业;
开发(验证)集看出是小测试;
测试集看成是期末考试。

2.交叉验证(cross-validation)

2.1 为什么要这么做?


上图说明的问题是:如果采用不同的 Training set,validation set ,当模型取最佳效果时,超参数c可能落在不同的取值处所以我们就需要轮流验证(也就是交叉验证)。这么看来,其实交叉验证的根本原因是: 为了避免数据集太小,而带来对参数估计出现的问题。

2.2 目的

验证集用来调节超参数, 可以得到效果更好的模型

2.3 做法

将原始的训练集分成训练集和验证集,然后轮流取出一部分作为验证集进行验证,这种思想就是交叉验证。
比如说,现在有五份数据集:A,B,C,D,E,F 然后我们将其中的每一份都轮流作为验证集,这样做的目的是为了剔除“验证集”的随机性,因为可能某份验证集就存在数据倾斜的情况,如果拿5份数据分别作为验证集那么就可以避免数据集不平整带来的调参失败问题。

算法工程师面试题八之交叉验证相关推荐

  1. 面经 |算法工程师面试题汇总分享

    面经 |算法工程师面试题汇总分享 来源:https://github.com/PPshrimpGo/AIinterview 0 导读 本文汇总了 深度学习(模型评估方法.基本方法.优化方法.深度学习基 ...

  2. 名企笔试:京东 2016 算法工程师笔试题(登楼梯)

    名企笔试:京东 2016 算法工程师笔试题(登楼梯) 2017-02-04 算法爱好者 有一段楼梯台阶有 15 级台阶,以小明的脚力一步最多只能跨 3 级,请问小明登上这段楼梯,有多少种不同的走法? ...

  3. 【数据挖掘】2022年昆仑万维 算法工程师笔试题

    [数据挖掘]2022年昆仑万维 算法工程师笔试题 企业:昆仑万维 1 单选题 1.ABCDE,出栈的顺序不可能是? 栈的知识 2.连续投硬币,第一次正面,奇数次A赢,偶数次B赢.则A赢的概率是多少 问 ...

  4. 【数据挖掘】2022年京东算法工程师笔试题(23届)

    时间:90分钟 2022年京东算法工程师笔试题(23届) 1 单选题 1.MySQL内部存储代码的优势 服务器上执行还可以节省带宽和网络延迟 代码重用.可以方便的统一业务规则,保证某些行为的一致性,所 ...

  5. 算法工程师面试题【集锦cv/ml/dl】

    (一)            机器学习方面 SVM 1.  支撑平面---和支持向量相交的平面:::分割平面---支撑平面中间的平面(最优分类平面) 2.  SVM不是定义损失,而是定义支持向量之间的 ...

  6. 京东2019春招算法工程师笔试题-牛牛下象棋(编程题3)

    这次京东2019的春招算法工程师笔试时间是2018-04-09 19:00~21:00,其中有三道编程题目,当时就做了2个,后一个时间原因就没做,就截了一个图,今天又突然看到了,练练手吧哈. 题目要求 ...

  7. 【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题

    岗位:高级机器学习算法工程师 笔试时间:2022-9-28 1 简答题 1.神经网络中防止过拟合的方法 (1)降低模型复杂度 (2)正则化 ,正则化正是通过在损失函数上添加额外的参数稀疏性惩罚项(正则 ...

  8. 算法工程师 面试题与解答

    题目来源: 作者:xfcherish 链接:https://www.nowcoder.com/discuss/65323?type=0&order=0&pos=50&page= ...

  9. 计算机视觉与深度学习算法工程师面试题整理

    整理自牛客 在梯度下降法中,为什么梯度的负方向是函数下降最快的方向?     为什么引入Relu呢?     softmax,softmax loss和cross entropy     bias的作 ...

最新文章

  1. 浅析Python中的序列化存储的方法
  2. 大话设计模式—适配器模式
  3. linux dmaengine编程
  4. (Ipython)Matplotlib 中将二叉树可视化
  5. vue-cli中config目录下的index.js文件详解
  6. 脉位调制解调 matlab,通信原理与matlab仿真v2 第五章 DBPSK调制解调器(1)
  7. 【数据库系统】数据模型、模式、数据的概念辨析
  8. 使用Docker启动Kafka-Manager
  9. wait, notify, notifyAll
  10. np.dot和np.matmul的区别与联系
  11. c语言头文件malloc,头文件malloc.h:函数 mallopt()的选项
  12. 0201 0402 0603 0805 1206焊盘封装尺寸
  13. MapGuide安装
  14. 2019年全国/全球马拉松比赛日程
  15. mysql update join 更新_mysql多表join时候update更新数据的方法 | 很文博客
  16. python中秋月饼
  17. JVM垃圾回收器-G1垃圾收集器
  18. 圭尔夫大学计算机科学硕士,圭尔夫大学到底有多高大上?你可能还不知道
  19. java util包排序_实现java.util.Comparator接口,对对象集合进行多属性组合排序
  20. 涅槃重生,力荐大型分布式手册,凤凰架构让你浴火成神,良心分享

热门文章

  1. css3动画图片旋转绕轴,css3图片旋转如何实现?css3实现图片旋转动画效果的方法...
  2. 浪潮8460m4安装linux,NF8460M4(DDR4) – IPMI设置
  3. pytorch安装教程新手入门
  4. 让ESXi7.0不支持的板载网卡发挥余热
  5. 组蛋白ChIP-seq研究思路及应用案例分享
  6. Maching Learning
  7. 【运筹学】线性规划数学模型 ( 线性规划求解 | 根据非基变量的解得到基变量解 | 基解 | 基可行解 | 可行基 )
  8. 揭开中国人使用计算机互联网的序幕的人,_____发出了中国第一封电子邮件,从此揭开了中国人使用Internet的.._简答题试题答案...
  9. 学校计算机操作培训方案,学校信息化培训方案.doc
  10. 我们爬了上千个数据分析师信息, 你真的懂数据分析师嘛?