我们在进行机器学习过程中一个通用步骤主要有以下几个方面:

1)明确问题

  • 实现什么目标
  • 需要什么数据      这个问题:如果公司有大量的数据,可以确定最终的目标是什么;如果没有则需要通过目标来确定数据集    

2)获取数据

  • 自己公司内部的数据(项目上使用),如数据库等
  • 开源数据集,如:UCI、GoogleTrends、Kaggle、AWS公用数据集、Imagenet、MINIST、麻省理工大学人脸识别、歌曲数据库、图像处理COCO、视频数据集youtube等等

3)数据格式整理

往往我们的数据大多都是数据库文件数据,并不是里面所有的维度信息都是需要用到的,所以这里需要进行相应的处理。

  • 把收集到的数据转换为txt,csv,xsl等的形式,方便机器学习库进行读取
  • 原始数据的所有的变量量化,进一步转变为含数据(Data)和标签(Labels)的数据框形式,方便建模。

4)数据预处理

  • 偏差检测:即检查导致偏差的因素,并识别离散值与噪声值。
  • 数据清洗:即处理缺失值与噪声。
  • 数据标准化

5)数据拆分

  •  将数据集随机打乱按照7:3或者8比2或者其他拆分为训练集和测试集。

[系统工程]机器学习的通用步骤相关推荐

  1. sklearn快速入门教程:(三)机器学习的通用模式及实现方法

    一.从线性回归总结机器学习的通用模式 从上篇博客我们详细讲述了线性回归的实现方式.线性回归的调用方式实际上是sklearn的典型方式,在掌握这个方法之后我们继续进一步深入,探索其它的模型的使用. 回顾 ...

  2. 百度AI学习第一天_调用API接口通用步骤

    百度AI学习第一天_调用API接口通用步骤 #第一步获取access_token # client_id 为官网获取的AK, client_secret 为官网获取的SK host = 'https: ...

  3. 研究HDK(Houdini Development Kit):概括配置一个HDK工程的通用步骤

    "无用"的前言 在<初步了解 make 的基础并尝试使用>和<研究HDK(Houdini Development Kit):使用CMake自动生成VS工程> ...

  4. 开发步骤_大数据开发必备的通用步骤详解

    大数据的开发过程,如图1-1所示. 图 1-1大数据开发通用步骤图 上图只是一个简化后的步骤和流程,实际开发中,有的步骤可能不需要,有的还需要增加步骤,有的流程可能更复杂,因具体情况而定. 下面以Go ...

  5. PHP签名生成的通用步骤

    签名生成的通用步骤如下 第一步,设所有发送或者接收到的数据为集合M,将集合M内非空参数值的参数按照参数名ASCII码从小到大排序(字典序),使用URL键值对的格式(即key1=value1&k ...

  6. 机器学习解决问题的步骤

    机器学习解决问题的步骤 针对任何一个打算由机器学习算法来解决的问题,都有一种『套路』存在,只要按照这个模板『按部就班』就能够得到一个结果.就跟一个产品的生产流水线是一个道理.但是得到结果的好坏跟你是否 ...

  7. python正常血压最长小时数_一套完整的机器学习的操作步骤:XGBoost实例-从血压,年龄等因子判断是否肾不好-Python...

    这篇文章想用最简单的Extreme Gradient Boost with tree base learner 来判断哪个病人可能会患长期肾脏相关病根据他的血压和其他数据.这就是个简单的classif ...

  8. 机器学习算法一般步骤

    各位工程师累了吗? 推荐一篇可以让你技术能力达到出神入化的网站["宅男门诊"](https://zhainanmenzhen.com/) 1.使用机器学习来解决问题,我们用数学语言 ...

  9. 创建简单demo通用步骤

    SpringMVC框架作用 解决了V-C的交互问题,即视图与控制器的交互问题. 优点: 1.SpringMVC框架提供了一整套完善的组件. 2.SpringMVC是以强大的Spring容器为基础的框架 ...

最新文章

  1. linux取随机数shell版本
  2. Object o = new Object()在内存中占几个字节
  3. pandas判断dataframe中一列是否为日期格式
  4. vscode 生成mvc_ASP.NET MVC 简介(附VS2019和VSCode版示例)
  5. 素数在c语言中怎么表示,请问素数怎么样表示
  6. 剑指offer(28)—数组中出现次数超过一半的数字
  7. 全国所有地级行政区(城市)JSON(按拼音首字母排列)
  8. 小米wifi设置access_小米随身wifi到手,准备开搞当个ap给linux共享wifi上网!
  9. 平板电脑可以用手写的计算机软件,手写平板电脑哪款好 手写平板电脑有哪些推荐...
  10. 知乎高赞:电气工程专业学生的最好归宿在哪里?
  11. Office2021安装全教程
  12. linux编译安装openssl3.0.7
  13. HTML5+CSS3 02(表格、表单标签、语义化,字符实体标签)
  14. c#split方法拆分为数据_C# 根据分隔符拆分Excel单元格数据
  15. D0x-17(anti—Sp17)-3C12/TPGS抗精子蛋白单克隆抗体/维生素E聚乙二醇琥珀酸酯偶联阿霉素研究
  16. matlab simulink 磷酸铁锂电池仿真
  17. C# 读取XML注释
  18. linux+pid的管理,Linux 进程管理
  19. 教您更改data目录名称-将DedeCMS根目录下的data目录迁移到其他目录的方法
  20. Flash新手教程:打造拟真生态水族鱼缸-鼠绘锦鲤和浮叶

热门文章

  1. 幸福人生讲座下载地址
  2. Mybatis从头学到jio(一)
  3. 简单改写了一下CSDN去广告脚本
  4. 使用宝塔自动化部署docker版kms服务器
  5. 泰国rov游戏android,泰服王者荣耀ROV游戏_王者荣耀泰国版v1.35.1.26 安卓版 - 游乐网...
  6. 百世快递快速的查询并导出csv表格?
  7. ubuntu配置无线网卡
  8. iOS语音通话SDK集成指引(实时语音通话一)
  9. 解决阿里云服务器访问端口不通问题
  10. 台湾新生产的电脑要兼容 Linux