数据建模必知的六大步骤
前言
转载自:知乎 - https://zhuanlan.zhihu.com/p/88366912
数据建模必知六大步骤
数据建模,通俗地说,就是通过建立数据科学模型的手段解决现实问题的过程。数据建模也可以称为数据科学项目的过程,并且这个过程是周期性循环的。
数据建模的具体过程可分为六大步骤,如下图所示:
一、制订目标
制订目标的前提是理解业务,明确要解决的商业现实问题是什么?
如:在社交平台KOL中,存在假粉丝的情况,如何识别假粉就是一个要解决的现实问题。
二、数据理解与准备
基于要解决的现实问题,理解和准备数据,一般需要解决以下问题:
需要哪些数据指标(即特征提取)?(如:哪些指标能区别真粉和假粉?)
数据指标的含义是什么?
数据的质量如何?(如:是否存在缺失值?)
数据能否满足需求?
数据还需要如何加工?(如:转换数据指标,将类别型变量转化为0-1哑变量,或将连续型数据转化为有序变量)探索数据中的规律和模式,进而形成假设。
需要注意的是,数据准备工作可能需要尝试多次。因为在复杂的大型数据中,较难发现数据中存在的模式,初步形成的假设可能会被很快推翻,这时一定要静心钻研,不断试错。
数据建模后需要评估模型的效果,因此一般需要将数据分为训练集和测试集。
三、建立模型
在准备好的数据基础上,建立数据模型,这种模型可能是机器学习模型,也可能不需要机器学习等高深的算法。选择什么样的模型,是根据要解决的问题(目标)确定的。
当然可以选择两个或以上的模型对比,并适当调整参数,使模型效果不断优化。
四、模型评估
模型效果的评估有两个方面:
- 一是模型是否解决了需要解决的问题(是否还有没有注意和考虑到的潜在问题需要解决);
- 二是模型的精确性(误差率或者残差是否符合正态分布等)。
如:在识别KOL假粉的问题中,需要评估的是:
模型能否识别出假粉?识别的误差率是多少?粉丝识别误差率=(假粉误认为真粉的数量+真粉误认为假粉的数量)/总粉丝数
五、结果呈现
结果呈现主要关注以下三个方面:
模型解决了哪些问题?解决效果如何?如何解决问题?具体操作步骤是什么?
六、模型部署
通过大量数据解决了一个或多个重要的现实问题,需要将方案落实下去,一般情况下需要通过线上技术环境部署落实,从而为后面不断优化模型、更好地解决问题打下基础。
交由工程人员部署技术环境,需要数据建模团队撰写需求文档,并确保工程人员理解需求文档的内容,才能达到较好的模型部署效果。
数据建模必知的六大步骤相关推荐
- IT人员饮食搭配必知的六大禁忌~~茶叶煮鸡蛋 相克吗?
饮食搭配必知的六大禁忌 来源:千龙网 一部叫<双食记>的电影,用夸张的表演和耸人的效果,向世人展示了食物搭配如何慢性杀人的可怕后果.但影片同时也提醒了广大观众,注意食物的相克性,切忌在美食 ...
- mysql必知必会的数据_MySQL必知必会--汇 总 数 据
聚集函数 我们经常需要汇总数据而不用把它们实际检索出来,为此MySQL提 供了专门的函数.使用这些函数,MySQL查询可用于检索数据,以便分 析和报表生成.这种类型的检索例子有以下几种. 确定表中行数 ...
- 数据科学家必会的六大 NLP 技术!
[CSDN 编者按]技术的快速发展促使人类语言与技术的结合来得更快,自然语言处理已然成为当下很热门的话题之一.所以,想要进军自然语言处理领域的朋友们,不妨看看这篇文章,把基础打牢. 编译 | 弯月 ...
- 独家 | 数据科学家必知的五大深度学习框架!(附插图)
作者:Pulkit Sharma 翻译:陈之炎 校对:丁楠雅 本文约3900字,建议阅读10+分钟. 本文为大家分析并比较五种非常有用的深度学习框架的优点及应用. 概述 从出道起,我就一直是一名程序员 ...
- 数据产品必知的4层技术知识
在数据分析领域下,总会被提及诸如SQL.Hive,甚至Hadoop.Druid.Spark等这些技术上的词汇.那么作为一名数据领域的产品经理,听着这些不是很常见的产品知识,又应该具备怎样的技术知识呢? ...
- 大数据岗位必知必会的53个Java基础
文章目录 1. java中==和equals和hashCode的区别 2. int与integer的区别 3. String.StringBuffer.StringBuilder区别 4. 什么是内部 ...
- 面向数据科学家的实用统计学_数据科学家必知的统计数据
面向数据科学家的实用统计学 Beginners usually ignore most foundational statistical knowledge. To understand differ ...
- 数据科学家必知必会的7款Python工具,你会几个?
如果你有志于做一个数据专家,你就应该保持一颗好奇心,总是不断探索,学习,问各种问题.在线入门教程和视频教程能帮你走出第一步,但是最好的方式就是通过熟悉各种已经在生产环境中使用的工具而为成为一个真正的数 ...
- 【项目管理】优秀项目经理必知的六大沟通技巧
声明:转自郭老师博客:http://blog.sina.com.cn/s/blog_6a656bb40102vsyj.html 作为项目经理,您仅仅具备专业知识和敬业精神是不够的,如果沟通方法不得当, ...
最新文章
- 使用cv2.Sobel()、cv2.Scharr()、cv2.Laplacian()寻找图像的梯度、边缘
- nmap,tcpdump
- C++ 重载运算符 继承 多态 (超详细)
- php另类上传图片的方法(PHP用Socket上传图片)
- VUE 调试神器 vue-devtools
- Objective-C中的typedef枚举是什么?
- python语言是非开源语言_python是非开源语言吗
- 什么叫网关精解(超经典)
- xml文档的pull解析与SAX解析
- ulipad.4.1.zip linux,UliPad 使用介绍
- 广东2022年下半年系统集成项目管理工程师上午真题及答案解析
- 易语言制作html5浏览器,易语言制作浏览器的方法教程
- 《31天成为IT服务达人》之技能篇中的磁带库
- VBA学习笔记之Range.Resize属性
- 关于Flutter应用程序的AndroidX兼容性
- php 各种经典算法
- matlab 更换坐标轴_科学网—【Matlab】坐标轴的设置 - 叶瑞杰的博文
- 什么是内存泄露?该怎么排查?Java内存泄漏策略
- linux工作中软件运行安装常见问题
- springboot2.0 的ssl证书配置