摘要: 本文讲解一些关于机器学习数据集的小技巧,分享个人经验,可供读者参考。

对于深度学习而言,合适的数据集以及合适的模型结构显得至关重要。选择错误的数据集或者错误的模型结构可能导致得到一个性能不佳的网络模型,甚至可能得到的是一个不收敛的网络模型。这个问题无法通过分析数据得到很好的解决,只能是通过一次次的制作数据集、搭建模型并进行仿真实验才能发现如何最好地利用数据集以及选取什么样的模型结构。
本文讲解一些有关于数据集的实用知识,通过本文你将了解以下三点:

  • 探索可能的模型框架;
  • 开发一套“视图”对输入数据进行系统测试;
  • 特征选择、特征工程和数据准备中的想法可以对问题产生更多的观点;

1.问题框架

用多种方法建模预测问题。
问题的框架是指:

  • 输入
  • 输出
  • 问题的类型

比如

  • 可以使用更多或更少的数据作为模型的输入吗?
  • 可以预测其它的东西吗?
  • 能把问题转换为回归/分类/序列等问题吗?

 越有创造力,思考得就越全面。在这个过程中,可以借鉴一些其它项目、论文和领域中的想法,或者是展开头脑风暴等。在之前的博客《如何定义你的机器学习问题》中,我总结了一些框架,可供读者参考。

2.收集更多的数据

 数据越多越好,只要是与预测结果相关的数据都是可以的。因为对于某个具体任务而言,不清楚多少数据量才算合适。数据是开发模型期间使用的货币!
数据一般花费在以下任务上:

  • 模型训练;
  • 模型评价;
  • 模型调优;
  • 模型验证;

 此外,对于一个新项目而言,没有实际经验可供参考,一切都得自己摸索,这个时候就得将数据收集齐全,以便后续足够实验阶段使用。

3.研究数据

将能够想到数据都可视化,从各个角度来看收集的数据。

  • 查看原始数据会有所帮助;

查看汇总统计会有所帮助;

数据可视化很有用,将更加的形象化以便能够了解更多的知识;
  对于原始数据处理和汇总统计、数据可视化而言,可以在上面花费很多的时间。这些工作可以帮助你更好地了解数据,从而更好地选择、设计相应的模型。

4.训练数据样本大小

 使用少量的数据样本做敏感性分析,看看实际需要多少数据,可参考博客《机器学习中训练需要多少样本》。此外,不要认为训练数据越多越好,适合的才是最好的。因此,需要做到以下两点:

设计实验以了解模型性能随着样本的大小发生怎样的变化
使用统计数据来了解趋势是如何随样本大小的变化而变化的
基于以上两点才能对模型性能曲线有所了解。

5.特征选择

 创建许多不同的输入特征视图并对其测试,因为我们不知道哪些变量对预测模型问题有所帮助。

可以假设猜想;
可以使用某个领域专家的建议;
可以借鉴来自特征选择方法的建议;
 以上所有的这些都是猜测,需要具体实验验证。
设计实验并仔细测试和比较各个特征视图,通过实验数据来告诉我们哪些特征和哪些视图是最具代表性的。有关特征选择的更多内容,可参考博客《特征选择导论》。

6.特征工程

 使用特征工程在预测建模问题上创建附加的特征和视图。
例子包括:

日期/时间;
交易;
描述;
 将这些数据分解为更简单的附加组件特性,比如计数、标志或其它元素等。尽可能简化建模过程。有关特征工程的更多内容,可参考博客《发现特征工程、如何设计特征并利用好它》。
7.数据准备
 可以用能想到的任何一种方式预处理数据,以满足算法的要求。预处理的方法有很多,比如特征选择、特征工程以及在输入特征上创建附加视图。常用的预处理操作比如:

归一化输入特征;
标准化输入特征;
使输入特征变得平稳;
 应用所能想到的数据预处理方法,对问题建立新的观点,并用一套或多套模型进行测试,看看性能如何。我们的目标是发现数据的视图,最佳地将映射问题的未知底层结构展现给学习算法。

 通过这篇文章,你将学到一些小的技巧,可以最大限度地利用数据。具体而言,学到以下三点:

  • 探索可能的模型框架;
  • 需要开发一套“视图”对输入数据进行系统测试;
  • 特征选择、特征工程和数据准备可以对问题产生更多的观点;

作者信息
Jason Brownlee,专注于机器学习教育、推广个人主页:https://machinelearningmaster...
本文由阿里云云栖社区组织翻译。
文章原标题《How to Get the Most From Your Machine Learning Data》,译者:海棠,审校:Uncle_LLD。
详情请阅读原文

如何从机器学习数据中获取更多收益 1相关推荐

  1. 如何从机器学习数据中获取更多收益

     对于深度学习而言,合适的数据集以及合适的模型结构显得至关重要.选择错误的数据集或者错误的模型结构可能导致得到一个性能不佳的网络模型,甚至可能得到的是一个不收敛的网络模型.这个问题无法通过分析数据得到 ...

  2. 无法从套接字中获取更多数据_数据科学中应引起更多关注的一个组成部分

    无法从套接字中获取更多数据 介绍 (Introduction) Data science, machine learning, artificial intelligence, those terms ...

  3. 如何才能在大数据中获取价值

    从数据中获取价值都是一个挑战,不管你所在的行业和企业规模如何.然而,在早期阶段,这一挑战与可用数据量没多大关系.如果对数据处理过程和数据值提取的结构设计不合理,那么至少按照现在的标准,企业有数据和没数 ...

  4. 大数据时代:9种从大数据中获取商业价值的方法

    很多大数据都是来自一些新的来源,这代表客户或合作伙伴互动的新渠道.和任何新的数据来源一样,大数据值得探索.通过数据探索,你可以了解一些之前所不知道的商业模式和事实真相. 关于管理大数据的调查显示,89 ...

  5. MySQL中数组内的JSON数据中获取值

    MySQL中JSON数据获取值 1.MySQL中JSON数据中获取值 数据源: {"observeTruth": "111","preventHume ...

  6. JavaScript:在一段时间不连续的数据中获取某一段时间段内相同时间间隔的数据

    需求:绘制highchats折线图,绘制某一个时间段内相同时间频率的图像. 如:绘制2020年5月11日-2020年6月11日之前,每隔4小时一次的数据(绘制近一个月内数据) 请求回的数据如下: 难点 ...

  7. 机器学习数据中类别变量(categorical variable)的处理方法

    类别变量(categorical variable):只有有限个值得变量,如性别就是一个类别变量,类似于这种. 如果不对这些变量做预处理,训练出来的模型可能是错误的. 主要有三种方法来处理这个变量. ...

  8. mysql一次性获取几十万数据_《快速念咒——MySQL自学入门指南》:第2章——从表中获取更多数据(前言)...

    (欢迎大家关注订阅号--"快速念咒") 下一节我们将会使用两张新表--happyorder和happydetail.创建两张表的代码如下-- 创建happyorder表: CREA ...

  9. 《快速念咒——MySQL自学入门指南》:第2章——从表中获取更多数据(前言)

    欢迎大家扫码关注订阅号: 下一节我们将会使用两张新表--happyorder和happydetail.创建两张表的代码如下-- 创建happyorder表: CREATE TABLE happyord ...

最新文章

  1. Codeforces Round #649 (Div. 2)C. Ehab and Prefix MEXs[排列的构造]
  2. 从源码分析DEARGUI之add_plot和add_line_series
  3. 20返回指针的函数与指向函数的指针
  4. python小工具myqr生成动态二维码
  5. 好用的浏览器_“遇见”一个好用的浏览器,功能非常强大到无法想象
  6. Leetcode 1109.航班预定统计 差分
  7. 根据经纬度坐标配准_扫描地图投影的识别及其配准
  8. 避免畸形儿受孕时间有10忌
  9. opencv 修改图像数值_【1】Introduction to OpenCV (2)使用VS生成OpenCV应用程序
  10. html是描述型语言,JavaScript_JavaScript基础教程——入门必看篇,JavaScript他是一种描述性语言, - phpStudy...
  11. 推荐一个 Linux 刻盘工具 gcdw(转)
  12. 【学习笔记】计算机网络-DNS层次查询
  13. 西电计组II 实验1
  14. 微信公众平台开发的相关问题
  15. c语言sizeof用法计算char,C语言里sizeof(char)是什么意思
  16. Matplotlib中画图,使用带有边框的条线
  17. 【FinE】资产组合理论(2) 均值方差模型
  18. 非模态对话框和模态对话框_创建
  19. 计算机网络常见的面试题(牛客网总结)
  20. 自学计算机等级可以在哪学,计算机二级怎么自学

热门文章

  1. 不让自己的应用程序在桌面的图标列表里启动显示的方法
  2. Android错误-error:Foundtextwhereitemtagisexpected
  3. JavaScript Binding
  4. Java并发编程—AQS原理分析
  5. [转]linux下TCP连接占用的资源
  6. stream的filter用法
  7. ORACLE中的MERGE语法使用记录
  8. PHP中file_exists与is_file、is_dir的区别,以及执行效率的比较
  9. 动手写一个快速集成网易新闻,腾讯视频,头条首页的ScrollPageView,显示滚动视图...
  10. Android常用权限