[系统工程]机器学习的通用步骤
我们在进行机器学习过程中一个通用步骤主要有以下几个方面:
1)明确问题
- 实现什么目标
- 需要什么数据 这个问题:如果公司有大量的数据,可以确定最终的目标是什么;如果没有则需要通过目标来确定数据集
2)获取数据
- 自己公司内部的数据(项目上使用),如数据库等
- 开源数据集,如:UCI、GoogleTrends、Kaggle、AWS公用数据集、Imagenet、MINIST、麻省理工大学人脸识别、歌曲数据库、图像处理COCO、视频数据集youtube等等
3)数据格式整理
往往我们的数据大多都是数据库文件数据,并不是里面所有的维度信息都是需要用到的,所以这里需要进行相应的处理。
- 把收集到的数据转换为txt,csv,xsl等的形式,方便机器学习库进行读取
- 原始数据的所有的变量量化,进一步转变为含数据(Data)和标签(Labels)的数据框形式,方便建模。
4)数据预处理
- 偏差检测:即检查导致偏差的因素,并识别离散值与噪声值。
- 数据清洗:即处理缺失值与噪声。
- 数据标准化
5)数据拆分
- 将数据集随机打乱按照7:3或者8比2或者其他拆分为训练集和测试集。
[系统工程]机器学习的通用步骤相关推荐
- sklearn快速入门教程:(三)机器学习的通用模式及实现方法
一.从线性回归总结机器学习的通用模式 从上篇博客我们详细讲述了线性回归的实现方式.线性回归的调用方式实际上是sklearn的典型方式,在掌握这个方法之后我们继续进一步深入,探索其它的模型的使用. 回顾 ...
- 百度AI学习第一天_调用API接口通用步骤
百度AI学习第一天_调用API接口通用步骤 #第一步获取access_token # client_id 为官网获取的AK, client_secret 为官网获取的SK host = 'https: ...
- 研究HDK(Houdini Development Kit):概括配置一个HDK工程的通用步骤
"无用"的前言 在<初步了解 make 的基础并尝试使用>和<研究HDK(Houdini Development Kit):使用CMake自动生成VS工程> ...
- 开发步骤_大数据开发必备的通用步骤详解
大数据的开发过程,如图1-1所示. 图 1-1大数据开发通用步骤图 上图只是一个简化后的步骤和流程,实际开发中,有的步骤可能不需要,有的还需要增加步骤,有的流程可能更复杂,因具体情况而定. 下面以Go ...
- PHP签名生成的通用步骤
签名生成的通用步骤如下 第一步,设所有发送或者接收到的数据为集合M,将集合M内非空参数值的参数按照参数名ASCII码从小到大排序(字典序),使用URL键值对的格式(即key1=value1&k ...
- 机器学习解决问题的步骤
机器学习解决问题的步骤 针对任何一个打算由机器学习算法来解决的问题,都有一种『套路』存在,只要按照这个模板『按部就班』就能够得到一个结果.就跟一个产品的生产流水线是一个道理.但是得到结果的好坏跟你是否 ...
- python正常血压最长小时数_一套完整的机器学习的操作步骤:XGBoost实例-从血压,年龄等因子判断是否肾不好-Python...
这篇文章想用最简单的Extreme Gradient Boost with tree base learner 来判断哪个病人可能会患长期肾脏相关病根据他的血压和其他数据.这就是个简单的classif ...
- 机器学习算法一般步骤
各位工程师累了吗? 推荐一篇可以让你技术能力达到出神入化的网站["宅男门诊"](https://zhainanmenzhen.com/) 1.使用机器学习来解决问题,我们用数学语言 ...
- 创建简单demo通用步骤
SpringMVC框架作用 解决了V-C的交互问题,即视图与控制器的交互问题. 优点: 1.SpringMVC框架提供了一整套完善的组件. 2.SpringMVC是以强大的Spring容器为基础的框架 ...
最新文章
- linux取随机数shell版本
- Object o = new Object()在内存中占几个字节
- pandas判断dataframe中一列是否为日期格式
- vscode 生成mvc_ASP.NET MVC 简介(附VS2019和VSCode版示例)
- 素数在c语言中怎么表示,请问素数怎么样表示
- 剑指offer(28)—数组中出现次数超过一半的数字
- 全国所有地级行政区(城市)JSON(按拼音首字母排列)
- 小米wifi设置access_小米随身wifi到手,准备开搞当个ap给linux共享wifi上网!
- 平板电脑可以用手写的计算机软件,手写平板电脑哪款好 手写平板电脑有哪些推荐...
- 知乎高赞:电气工程专业学生的最好归宿在哪里?
- Office2021安装全教程
- linux编译安装openssl3.0.7
- HTML5+CSS3 02(表格、表单标签、语义化,字符实体标签)
- c#split方法拆分为数据_C# 根据分隔符拆分Excel单元格数据
- D0x-17(anti—Sp17)-3C12/TPGS抗精子蛋白单克隆抗体/维生素E聚乙二醇琥珀酸酯偶联阿霉素研究
- matlab simulink 磷酸铁锂电池仿真
- C# 读取XML注释
- linux+pid的管理,Linux 进程管理
- 教您更改data目录名称-将DedeCMS根目录下的data目录迁移到其他目录的方法
- Flash新手教程:打造拟真生态水族鱼缸-鼠绘锦鲤和浮叶