数据集

数据的形式：结构化、非结构化、图片、序列数据（语音、视频）、时序数据（流媒体文件数据、传感器数据、股价、日志数据等）
时序数据一般使用循环神经网络来处理

数据集：机器学习中的一组数据

样本：一组数据中的每一个数据

特征：反应样本的某些性质或者属性

标签：要被预测的数据

训练集（train dataset）：构建机器学习模型，从数据中确定模型参数的过程称为学习、训练。（根据经验）

验证集（validation dataset）：辅助构建模型，用于构建过程中评估模型，调整模型参数

测试集（test dataset）：评估训练好的最终模型的性能

数据集分割

如何确定训练集和测试集是同分布的？

留出法

直接将数据集拆分为互斥的训练集、验证集和测试集

训练集 : 验证集 : 测试集 = 10%: 15% : 15%

1、单次使用留出法会导致模型不稳定。（可以多次随机划分，重复进行实验评估后取平均值作为留出法的评估结果。）
2、保证三种数据集中样本比例的相似性。（例 : 1000个样本 (正 :600 ;负: 400) 。则训练集和测试集中，正例和负例的比也要求为3:2。实现方式 : 随机分层抽样。）
3、适合大数据集

K折交叉验证法

实际上通常训练集和测试集不是同分布的，我们要尽可能使训练集和测试集的数据分布的属性一致，找到更多与测试集样本相更匹配的训练集数据

偏差与方差

偏差
- 训练集误差
- 训练集预测值 - 真实值
- 原因：算法的拟合程度：真实模型没有包含在训练模型中，比如用线性模型预测非线性模型
- 结果距靶心
  
  什么是拟合、过拟合、拟合不足？深度学习之数据集相关推荐
  1. 快速构建深度学习图像数据集，微软Bing和Google哪个更好用？
    译者 | Serene 编辑 | 明明出品 | AI 科技大本营(公众号ID:rgznai100) [AI 科技大本营导读]在本文中,作者将利用微软的 Bing Image Search API 来 ...
  2. python爬取百度图片（用于深度学习中数据集的收集）
    6_python爬取百度图片(用于深度学习中数据集的收集)(6-20181225-) 参考: https://blog.csdn.net/guyuealian/article/details/7873 ...
  3. camvid数据集介绍_深度学习图像数据集介绍（MSCOCO）
    深度学习图像数据集介绍(MSCOCO) MSCOCO数据集是微软开发维护的大型图像数据集,次数聚集的任务包括识别(recognition),分割(segementation),及检测(detectio ...
  4. 25个深度学习开源数据集
    简介学习深度学习最重要的就是数据集啦.小编在刚开始学习深度学习的时候最头疼的一件事就是没有数据,徒有很多想法,但却无法实现,这里小编给大家介绍25个常用的深度学习开源数据集,这是从国外的一篇博客中看 ...
  5. 国内外深度学习开放数据集下载集合(值得收藏，不断更新)
    国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一.Image processing data set 1.MNIST ,是最流行的深度学习数据集之一.这是一个手写数字数据集,包含一个有着 6 ...
  6. MATLAB深度学习（1） --- 想要做好深度学习？数据集是第一步
    MATLAB深度学习(1) --- 想要做好深度学习?数据集是第一步创作目的项目简介本期重点---数据集构建本文所使用数据集简介用table来搭建训练集总结创作目的大家好,这里是微信公 ...
  7. Duplicate Cleaner - 重复文件 / 相似文件扫描 - 构建深度学习标注数据集
    Duplicate Cleaner - 重复文件 / 相似文件扫描 - 构建深度学习标注数据集 https://www.duplicatecleaner.com/ Duplicate Cleaner ...
  8. 深度学习大数据集处理_大规模深度学习数据集管理系统
    深度学习大数据集处理 Machine learning is data-driven. Most artificial intelligence (AI) practitioners would a ...
  9. 图像处理语音识别深度学习开放数据集
    从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集本文介绍了 25 个深度学习开放数据集,包括图像处理.自然语言处理.语音识别和实际问题数据集. 介绍深度学习(或生活中大部分领域)的关 ...
  10. 从图像处理到语音识别，25款数据科学家必知的深度学习开放数据集
    选自Analytics Vidhya,作者:Pranav Dar,机器之心编译. 本文介绍了 25 个深度学习开放数据集,包括图像处理.自然语言处理.语音识别和实际问题数据集. 介绍深度学习(或生活 ...
  最新文章
  热门文章

什么是拟合、过拟合、拟合不足？深度学习之数据集

文章目录

数据集

数据集分割

偏差与方差

什么是拟合、过拟合、拟合不足？深度学习之数据集相关推荐

最新文章

热门文章