一、原始数据采集

检查原始数据提取过程(数据仓库、数据集市、外部数据等),注意查看是否按要求进行数据脱敏,以及是否进行数据质量检查。

1)使用提供的数据提取方法,重新进行数据提取;

2)抽样检查字段正确性和完整性;

3)抽样查看字段中是否有敏感信息;

4)统计数据总量及缺失量。

二、数据整合逻辑

检查数据处理及整合的基本思路,数据处理方法和流程(数据关联、链接)的正确性和完整性及处理结果的正确性。

1)检查数据预处理思路和处理方法是否正确;
2)检查数据处理流程(数据关联、链接)和整合过程是否正确且完整;
3)抽样检查数据处理结果,并与原数据进行对比,或设置检查点进行中间步骤的检查;
4)结合模型训练及预测结果,对数据处理逻辑进行完善。

三、特征工程处理

检查数据特征加工处理结果的正确性和稳定性。

1)检查特征提取方法是否正确且可以表达业务含义;
2)结合模型训练及测试结果,确认特征提取逻辑的完备性和稳定性。

四、算法参数选择

根据业务需求分析算法合理性,对比不同参数下的模型运行结果,确定算法及参数选择的合理性。

1)根据业务需求及数据特点选择合适算法,使用多种算法进行对比,得到适合建模场景的算法;
2)参数选择同理,对比多种参数选择结果,选最佳结果对应的参数。

五、数据分配策略

检查采用交叉验证方式建立模型过程中的数据集拆分策略及模型结果,对比不同分配策略下模型的效果。

1)检查数据集是否满足生产环境数据应用需求(如时序要求,数据量级限制等);
2)检查交叉验证过程中数据集训练和测试分配策略是否合理,包括拆分比例和方法;
3)对比多种分配策略,根据训练和预测结果选择恰当的分配比例,使得模型有良好的准确性、稳定性和泛化性。

六、模型训练效率

检查模型开发过程中所使用的工具情况,及模型开发过程的运行耗时。

1)检查模型开发平台或工具包在训练过程中的可靠性;

2)检查模型训练和测试耗时是否满足需求;

3)检查模型训练和测试的自动化支持能力。

七、模型评价方案

检查模型评价方案及评价指标的合理性。

1)使用多种评价指标分析模型训练效果,针对不同类型模型选择适当评价指标;

2)建议分类模型选择AUC、Precision、Recall和F1-score;回归模型选择Rmse、r2等;聚类模型选择聚合度等。

八、模型结果复核

检查模型评价结果的正确性,结果可再现及稳定性;

1)选择适当的评价指标,由评价指标结果判断模型结果优劣;
2)多次重复建模过程,改变模型开发输入数据,检查结果可再现性及稳定性。

九、流程化部署

检查模型部署在生产环境后模型运行过程的流程化能力,以及调度脚本的正确性和可维护性。

1)模型部署后,使用调度脚本控制数据挖掘模型实现流程化运行;

2)查看调度脚本的正确性和完整性,以及控制整个流程调整变化的能力。

十、模型运营优化

模型在日常运行过程中,检查批处理的输入数据采集、加工及运行过程的处理效率,检查模型输出结果的时效性和准确性。

1)确定数据处理用到的软硬件运行环境,分析其运算效率;
2)进行完整的数据批处理过程(数据采集、加工及预测)并记录耗时,检查是否有耗时较长的步骤,并寻求可改进的方法(编码改进,软件选择,设备更改);

3)检查模型运行结果是否满足前端业务应用需求,跟踪模型运行情况,定期进行模型结果分析,并适时启动模型优化更新。

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
大数据的背景下,采用的大数据与数据挖掘有什么本质上的不同?
http://www.duozhishidai.com/article-10030-1.html
数据分析与数据挖掘的区别和联系?
http://www.duozhishidai.com/article-9800-1.html
如何通过自学,成为数据挖掘“高手”?
http://www.duozhishidai.com/article-9796-1.html


多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

数据挖掘开发部署,主要分为哪几步?相关推荐

  1. 构建一个数据挖掘模型,基本分为哪几步?

    数据挖掘的目的,就是从数据中找到更多的优质用户.什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型.在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量. 首先要定义模型的 ...

  2. 数据挖掘建模的标准流程是什么,主要分为哪几步?

    数据挖掘建模的标准流程,同时亦称为跨产业数据挖掘标准作业程序,数据挖掘主要分为商业定义.数据理解.数据预处理.建立模型.实施六步,各步骤的叙述说明如下: 1.定义商业问题,数据挖掘的中心价值主要在于商 ...

  3. 数据挖掘人员工作领域分为哪几类,各自需要掌握哪些知识?

    学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁.技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节.但是技术在结 ...

  4. 这款 IDE 插件再次升级,让「小程序云」的开发部署提速 8 倍

    点击蓝色"程序猿DD"关注我 回复"资源"获取独家整理的学习资料! 今年3月份,在阿里云北京峰会上,阿里巴巴正式发布了"阿里巴巴小程序繁星计划&quo ...

  5. 服务器可视化_疫情来袭,30分钟学会用python开发部署疫情可视化网站

    2019-nCov疫情实时数据可视化--30分钟python快速版 疫情来袭,宅在家不如学习用python如何开发并部署一个疫情实时追踪可视化页面.页面预览 本文将介绍如何使用python开发网站,「 ...

  6. 从购置阿里云学生机到开发部署一个SpringBoot+Vue项目全过程

    如题,本文旨在记录自己从开发到部署一个项目的过程中遇到的问题和解决方案,也可以作为下一次开发部署的参考.因为这个文档是之后写的,可能细节上会有点偏差,欢迎指正. 购置阿里云学生机 阿里云云翼计划 这里 ...

  7. 数据分析真题日刷 | 商汤科技2018校招C++/算法开发/大数据/后端/运维/测试/数据挖掘开发工程师笔试第二场

    断了大半个月没有刷题,进入「数据分析真题日刷」系列第13篇 . 今日真题 商汤科技2018校招C++/算法开发/大数据/后端/运维/测试/数据挖掘开发工程师笔试第二场 (来源:牛客网) 题型 客观题: ...

  8. 一物一码(6): 一物一码之【开展一物一码营销活动基本流程2,设计开发部署,生产包装,活动上线】

    二维码应用:一物一码[合集] (1) 二维码基础,以及js encode/decode QRCode纯前端实现 (2) 一物一码之[红包那点事] (3) 一物一码之[精准营销] (4) 一物一码之[得 ...

  9. 让开发部署提速 8 倍,我参与贡献这款 IDE 插件的全过程

    如何像参与开源那样,去参与一款 IDE 插件的设计? 作为一款 IDE 插件的使用者,我是否能决定下一个版本的功能? 自从产品经理银时小伙和他的开发小哥们在去年12月发布 Cloud Toolkit( ...

最新文章

  1. 哈佛结构和冯诺依曼结构区别。
  2. 31个好用的 Python 字符串方法,建议收藏!
  3. 4月机器学习热文出炉,这10篇文章你读了吗?
  4. 如果我有jQuery背景,那么“ AngularJS中的思考”吗? [关闭]
  5. 生成ssh key (Mac Linux )
  6. oracle 00851,Oracle调整内存参后报ORA-00844和ORA-00851
  7. mounted钩子函数_Vue 探索之路——生命周期和钩子函数的一些理解
  8. c++20 协程 图片识别框架 紫丁香
  9. 是的,我更喜欢这样的工程师
  10. Elasticsearch官档翻译——1 4 修改数据
  11. 详解舵机的基本原理以及控制方法
  12. oracle arm版本,Oracle版本区别
  13. Android 音频源码分析——audioserver启动
  14. 【C语言】快速排序psort函数的用法及自主实现psort函数
  15. NVIDIA安装程序失败(组件全部未安装)
  16. 谈谈我职业生涯中的三次潦倒--Leo病中的思考 续
  17. 吴恩达新课快来了!万字博客回顾机器学习算法起源
  18. ROS学习记录16【SLAM】仿真学习5——将cmd_vel转换为ackman小车的速度
  19. jmeter 录制--https代理证书导入IOS手机
  20. apk多开制作方法 试用ApkEditor 1.8 旗舰版轻松制作apk多开双开

热门文章

  1. 二乘二取二安全计算机
  2. SSDT—Hook和MDL
  3. api.php act get api,api.php
  4. MacbookPro 15硬盘升级踩坑记
  5. 电磁场与电磁波(10)——电容与部分电容
  6. 使用大白菜+FbinstTool制作多系统的启动盘
  7. 差示光谱法的测定原理_金属基础知识,钢中碳含量的7种测定方法,你知道吗?...
  8. 用C语言实现贪吃蛇笔记1-------.wav格式音乐的添加及播放(方法一:嵌入到可执行文件里面)
  9. 【c#视频】——面向对象——多态
  10. MD5简介及使用方式