一个完整的机器学习模型的流程

总包含文章:

  • 一个完整的机器学习模型的流程
  • 浅谈深度学习:了解RNN和构建并预测
  • 浅谈深度学习:基于对LSTM项目LSTM Neural Network for Time Series Prediction的理解与回顾
  • 浅谈深度学习:LSTM对股票的收益进行预测(Sequential 序贯模型,Keras实现)

机器学习作为人工智能的一个分支,在金融行业得到广泛的应用。然而,多数金融服务企业缺乏对机器学习价值的深入了解,其原因除了企业对机器学习缺乏深入的了解,对其价值抱有不切实际的期望,或者因为机器学习的研究和开发太高而望而却步,数据科学家和机器学习专家短缺也是重要的原因。在机器学习的推广方面,老企业因为需要更新数据和IT架构,推广力度和研发进度往往缺乏动力。

本文介绍建立机器学习模型的主要步骤。

前期准备:软件包和数据加载采集

收集原始数据是机器学习过程的第一步,它从各个渠道被采集而来。数据的数量和质量直接影响模型的性能。在监督学习的场景中还需要对数据进行标记。例如,情感分析模型需要用标签标记。有时数据标记的工作往往非常耗时耗力,在某些场景中,这类工作不仅对人的专业背景要求高,而且完成标记所需的周期长。

1. 数据处理和分析(EDA)

原始数据往往有缺失信息或者噪音较多,需要将这些数据进行预处理,得到有效的训练数据。机器学习模型的数据预处理过程主要包含数据归一化(包括样本尺度归一化、逐样本的均值相减、标准化)和数据白化。另外,我们还需要将数据分为三种数据集,即:包括用来训练模型的训练集、开发过程中用户调参的验证集以及测试时所使用的测试集。

2. 数据可视化(Data Visualization)

数据可视化(Data Visualization)在机器学习中被大量使用,帮助用户直观地分析数据的特性,以及数据之间的相关性。如果使用Python开发机器学习模型,常用的可视化数据包有Matplotlib, Seaborn。此外,还可以通过一些数据分析软件帮助我们找寻数据间的关系与结构,进而设计更好的模型,例如power bi

3. 特征值工程

在机器学习中,特征值(feature)是可度量的,反映观察对象特征的度量。特征值一般是数值型的,在特定应用中,结构化的或者图形化的特征值在模式识别中也有广泛的应用。当一个观察对象具有多维的特征时,特征值就构成了一个特征向量(feature vector)。所有观察对象的特征向量构成的空间就是特征空间(feature space)。

特征值的重要性在于,它的选取和构造直接影响了模型的性能。原始数据的选取,特征值的构造和选择组成了特征值工程的主要部分。

4. 机器学习模型

  • 选择模型

机器学习模型类型众多,通常,根据可以实现的目标被分为三种主要类型:监督型模型,非监督型模型,强化学习模型。模型的选择依赖于数据的类型和问题本身需要达到的目标。以下举例说明常用的模型和相对应的应用场景。

销售价格的预测,常用 Logistic Regression, XGBoost;图像处理,语音处理常用深度学习模型(Convolutional Neural Networks, Recurrent Neural Networks);错误信息检测常用Random Forest;试错学习常用 Reinforcement Learning;普通的分类问题常用 Fully Connected Networks或者Support Vector Machines。

  • 训练模型

在正式开始模型训练之前,需要针对我们的训练目标进行分类。理解目标的本质对选择训练的方式至关重要。前期算法工程师需要通过测试集和训练集,在集中可能的算法中做一些测试,再根据测试的结果选择具体的算法。有时候最终结果可能是多个模型结果的组合。

  • 模型评估

利用在数据预处理中准备好的测试集对模型进行测试。由于测试集对模型来说是完全新的数据,因此可以客观地度量模型在现实世界中的性能表现。模型的效果通常以“拟合程度”来形容。值得注意的是,机器训练模型中经常出现过度拟合和拟合不足。

  • 参数调整

对模型评估结束后,可以通过调参对训练过程进行优化。参数可以分为两类,一类是超参数,即需要在训练前手动设置的参数,另一种是不需要手动设置、在训练过程中可以自动被调整的参数。调参的过程是一种基于数据集、模型、和训练过程细节的实证过程。

根据模型测试的结果,调整特征值的选取,或者调整模型的参数,甚至尝试不同的模型。这是一个不断迭代的过程,直到取得满意的结果。

  • 预测

得到最终的模型以后,对新的数据进行预测得到结果。

一个完整的机器学习模型的流程相关推荐

  1. Scikit-Learn TensorFlow机器学习实用指南(二):一个完整的机器学习项目【上】

    机器学习实用指南(二):一个完整的机器学习项目[上] 作者:LeonG 本文参考自:<Hands-On Machine Learning with Scikit-Learn & Tens ...

  2. 机器学习入门系列(2)--如何构建一个完整的机器学习项目(一)

    上一篇机器学习入门系列(1)–机器学习概览简单介绍了机器学习的一些基本概念,包括定义.优缺点.机器学习任务的划分等等. 接下来计划通过几篇文章来介绍下,一个完整的机器学习项目的实现步骤会分为几步,最后 ...

  3. R语言使用knitr生成机器学习模型全流程步骤示例:knitr与自动化结果报告、knitr常用参数

    R语言使用knitr生成机器学习模型全流程步骤示例:knitr与自动化结果报告.knitr常用参数 目录

  4. 测试环境搭建流程_案例解析:一个完整的项目测试方案流程,应该是怎么的?...

    作为一名软件测试工程师,为项目制作完成的测试方案并执行,是我们日常工作的重要部分,同时,也是一名合格的软件测试工程师应有的专业素养.那么,很多小白和测试新手肯定要问了:一个完整的项目测试方案流程,应该 ...

  5. 一个完整的量化模型包括哪些

    转 一个完整的量化模型包括哪些? 近几年,量化投资在国内兴起,但在很多人眼里,量化投资仿佛是一个非常神秘的新事物.而实际上,量化投资的无非就是宽客通过计算机语言,将交易策略布置到一个量化系统中,然后进 ...

  6. 案例解析:一个完整的项目测试方案流程,应该是怎么的?

    作为一名软件测试工程师,为项目制作完成的测试方案并执行,是我们日常工作的重要部分,同时,也是一名合格的软件测试工程师应有的专业素养.那么,很多小白和测试新手肯定要问了:一个完整的项目测试方案流程,应该 ...

  7. 一个完整的机器学习项目需要哪些步骤

    本文是对<阿里云天池大赛赛题解析-机器学习篇>中理论的摘取.看完大概能对一个完整的机器许欸项目的流程有个印象,但是其中有很多细节我都略过了,后面有时间再补充. 02 数据分析 什么是回归预 ...

  8. 机器学习项目入门篇:一个完整的机器学习项目

    本部分,我们会作为被一家地产公司雇佣的数据科学家,完整地学习一个项目.下面是主要步骤: 项目概述. 获取数据. 发现并可视化数据,发现规律. 为机器学习算法准备数据. 选择模型,进行训练. 微调模型. ...

  9. 一个完整的机器学习项目

    下载数据 import os import tarfile # 用于压缩和解压文件 import urllibDOWNLOAD_ROOT = "https://raw.githubuserc ...

  10. 机器学习---一个完整的机器学习目录

    一.问题建模 1.评价指标 1.1分类指标 二分类 精确率 P=TP/(TP+FP) 召回率 R=TP/(TP+FN) F1值 2PR/(P+R) P-R曲线 横轴是召回率0-1,纵轴为对应的召回率下 ...

最新文章

  1. 简单的BMCP位图图片压缩算法
  2. 浅析新站SEO和老站优化推广有哪些区别?
  3. 分科目统计每科前三名的学生
  4. 汇编语言——《子程序应用(数制转换)程序设计》实验任务书
  5. 军哥华为HCNP(科目H12-221)真题解析课程:1-30题
  6. 最近使用计算机的记录,windows7查看最近使用记录
  7. MySQL数据库搜题_智慧树_MySQL数据库设计与应用_搜题公众号
  8. geth+remix+metamask 实现私有链智能合约部署
  9. pl/sql操作数据库之触发器的使用
  10. 【深度学习】你不了解的细节问题(三)
  11. docker阿里云镜像加速
  12. 【Hill Cipher】希尔密码描述 by Xiaosi_lemon
  13. mac flutter开发环境 flutter环境变量的配置
  14. Mugeda(木疙瘩)H5案例课—换装小游戏-岑远科-专题视频课程
  15. three.js黑洞穿越动画js特效
  16. Java 提取PDF文档中的图片
  17. 《计算机网络教程》(微课版 第五版)第四章 网络层与网络互连 课后习题及答案
  18. Github的远程项目如何下载到本地
  19. 用迁移学习创造的通用语言模型ULMFiT,达到了文本分类的最佳水平
  20. 每天喝6杯清水,就能轻松瘦身!

热门文章

  1. 计算机ps相框怎么做,计算机学前班第五课--PS做相框
  2. 聊聊激光雷达原理之i-TOF
  3. 计算机组成电路图符号大全,电路图|电路图讲解|电路图符号大全_极客迷
  4. “向死而生”的微信视频号,逆风翻盘的2020
  5. 前段时间的学习小结——体脂率的计算
  6. 破解Windows系统密码---利用PE系统破解
  7. 电机与拖动 - 1 绪论
  8. Iptable与firewalld防火墙
  9. function函数封装
  10. ov5640帧率配置_码率、帧率、分辨率对监控有什么影响?怎么调更合适?