目录

1、思想问题

避免对业务的轻视

明白可以为和不可以为

数据挖掘不是万能的

2、业务背景和目标

3、把握数据

总结


数据挖掘流程图 :

前置准备:

1、思想问题

避免对业务的轻视

要做什么样的人,要先去按照那样的人去思考。

做数据挖掘,一定要避免的思想问题
我学了很多的算法,穿着程序员的衣服,背着程序员的电脑,我就是一个优秀的数据挖掘工程师了
数据挖掘人员需要真正理解业务场景与挖掘需求
数据挖掘的本质是一种方法
要去解决问题,一定要源于业务需求,服务业务需求

如果要做一个成功的数据挖掘项目:

  • 深入学习业务,明白业务的关键点。
  • 在项目的需求阶段与业务方进行充分的沟通,在发现偏差时及时调整。
  • 在制定OKR的时候与业务方来共同制定

明白可以为和不可以为

一个业务需求来了:

  • 明了业务的要求以及目标
  • 明白数据挖掘要解决的点在哪里
  • 技术在业务上绝不是万能的

比如你在做一个OTA酒店消歧的项目,酒店业务中的一个痛点:
不同的供应商提供的酒店信息可能存在一些区别,需要消耗大量的人工去做比对决策
实际上会遇到的情况:

  • 数据可能是残缺的导致无法使用算法处理
  • 不同供应商提供的同一家酒店名称可能是不同语种的,无法使用同样的模型来解决。不同的供应商提供的信息可能是不对等的,无法使用一套解决方案来完全解决所有问题

数据挖掘不是万能的

数据不完美:

每一个公司都只是掌握了部分数据,有些甚至没有多少数据,还需要去外面爬取数据来进行处理
数据的真实性、准确性、完整性具体到每一条数据时或者某一个需求时,是不完美的,甚至是匮乏的。

业务条件不完美:
数据挖掘项目通常都是跨团队的协作项目。
例如上面的酒店业务,需要与业务进行了更深入的讨论,最后确定目标是提升酒店运营人员的效率
项目降低了酒店运营60%的人力成本。

数据挖掘只能在有限的资源与条件下去提供最大化的解决方案
与业务方进行深入的沟通,同时对你所掌握的数据有充分的认识,对业务的难点和重点有明确的区分。
建立需求多方评估机制,让业务专家与技术专家参与进来,评估需求的合理性以及你的数据情况 。
对需求讲行坼解,以最大化在数据限制和业务限制前提下的项目效果 。

2、业务背景和目标

在进行数据挖掘之初就要去明确业务背景和业务目标
需求的产生必然是因为某种分析需求、某个问题或者某个业务目标的需求。
假设你现在是一个自媒体平台,
自媒体作者发布文章,很多用户会来看这些内容,从而产生互动行为
这些会刺激作者继续创作,而作者持续发布好内容又会吸引更多的用户来浏览

需求:要对发布内容的自媒体做一个贡献度评级模型
贡献度该如何去衡量?
对于一个作者,贡献度体现在他的内容上

  • CTR(点击率)高的内容贡献度高,还是有独特观点的内容贡献度高?
  • 能引发讨论的内容贡献度高,还是技术深度更深的内容贡献度高?
  • 发布内容的频率高贡献度高,还是发布的内容够长贡献度高?

你应该展开沟通,并成立专家小组来对目标进行评审:
在沟通的过程中了解到:业务背景是在打造品牌影响力的时候,发现很多用户对我们的内容产生了质疑,业务方希望能够对作者形成一种分级制度。

3、把握数据

作为一个数据挖掘工程师,需要对你要用到的数据了如指掌
收集、存储、转换数据都是十分重要的环节。

1.是否有数据
是否有这样一个数据集来支持你做这样一个模型,来完成这样一个需求,来回答业务的问题

2.有多少数据
数量的不同会影响处理方式

3.是什么样的数据
需要考虑的是这些维度是否可以支持完成业务需求,是否与所提出的问题有关系4.标签
比如监督学习任务,每条数据都需要有结果的标注,这也是模型或者算法要学习的结果

总结

  • 思想准备――确保自己已经具备了一个专业的数据挖掘工程师的思维模式
  • 理解业务―—确保与业务需求方的充分沟通,对业务需求的充分理解
  • 理解数据――确保对可以掌握的数据有全面的了解,知道哪些数据有用,哪些数据没用

数据挖掘-理解业务和数据(二)相关推荐

  1. 【数据挖掘】数据挖掘总结 ( K-Means 聚类算法 | 二维数据的 K-Means 聚类 ) ★

    文章目录 一. K-Means 聚类算法流程 二. 二维数据的 K-Means 聚类 1. 第一次迭代 2. 第二次迭代 参考博客 : [数据挖掘]聚类算法 简介 ( 基于划分的聚类方法 | 基于层次 ...

  2. ML:MLOps系列讲解之《CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型—业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护》解读

    ML:MLOps系列讲解之<CRISP-ML (Q)ML生命周期过程-了解机器学习开发的标准过程模型-业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护& ...

  3. 二、深入理解运行时数据区

    深入理解运行时数据区 1 深入理解运行时数据区 1.1 堆空间分代划分 1.2 GC 概念 1.3 JHSDB 工具 1.3.1 JHSDB的开启方式 1.3.1 .1 JDK1.8 开启 HSDB ...

  4. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记6

    第6章 术:使用技法与重要问题 1.标签规范 数据必须转化成能解决业务问题.提升业务效率的标签才具有价值,否则就是数据负累.将数据提炼转化为标签的过程称为"标签化",标签化需要充分 ...

  5. B端产品经理,应从哪些方面理解业务?

    新人入职新公司后,第一个工作就是了解公司业务,一般都是看公司项目PPT.产品需求文档,根据现有系统功能梳理功能结构图.产品流程等方式,但并不能系统化地帮助我们了解公司业务,容易流于表面. 由于TO B ...

  6. 标签类目体系(面向业务的数据资产设计方法论)-读书笔记2

    第2章 源:6段由来过程 一.数据资产发展的4个阶段 1.1 数据资产1.0:构建消费者信息库 1.1.1 数据侧与业务侧的初次接触 数据侧为业务侧打造的第一个数据解决方案一定要成功,必须在首次合作中 ...

  7. 网络协议报文理解刨析篇二(再谈Http和Https), 加上TCP/UDP/IP协议分析(理解着学习), 面试官都惊讶你对网络的见解

    目录 前文链接(系列助学, 也为后文学习做铺垫, 可按需读取) 一. 再谈HTTP再理解 二. HTTP对比学习HTTPS HTTP和HTTPS的区别如下: 三.TCP协议  (三次握手四次挥手细节过 ...

  8. 打通MySQL架构和业务的任督二脉

    目前,在很多OLTP场景中,MySQL数据库都有着广泛的应用,也有很多不同的使用方式.从数据库的业务需求.架构设计.运营维护.再到扩容迁移,不同的MySQL架构有不同的特点,适应一定的业务场景,或者解 ...

  9. 【金猿产品展】诸葛用户数据分析平台(Insight)——聚焦业务场景数据应用价值挖掘,赋能精细化运营...

    诸葛io产品 本产品由诸葛io投递并参与"数据猿年度金猿策划活动--2020大数据产业创新服务产品榜单及奖项"评选. 大数据产业创新服务媒体 --聚焦数据 · 改变商业 诸葛用户数 ...

  10. 如何理解元数据、数据元、元模型、数据字典、数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢?

    如何理解元数据.数据元.元模型.数据字典.数据模型这五个的关系?如何进行数据治理呢?数据治理该从哪方面入手呢? 导读 一.数据元 二.元数据 三.数据模型 四.数据字典 五.元模型 导读 请问元数据. ...

最新文章

  1. c语言的转义字符要求,C语言…转义字符的使用
  2. 【STM32】随机数发生器相关函数和类型
  3. sim卡没坏但苹果手机无服务_iPhone手机无服务那些事儿
  4. c# 一种缓存模板
  5. 【Oracle】分区表中索引状态为N/A
  6. 判断素数的java程序_Java代码实例 判断这个数是否是素数
  7. 使用wget从网上下载ubuntu源到互联网硬盘,拿到内部用
  8. 十大算法 — 插入排序法【C语言代码诠释】
  9. typora mac快捷键
  10. 中国移动亮相2012亚洲移动通信博览会
  11. 记一次App异常kill分析处理
  12. 利用python实现简单的爬虫,爬百度文库相关词条信息
  13. MDK5+CubeMX仿真STM32F03一站式解决
  14. CMMI3-CMMI5评估认证需要遵循七大原则
  15. php上传文件到指定文件夹
  16. bindec() 函数
  17. 电脑蓝屏错误代码0x0000007e的解决方法
  18. 深度探索:使用FFmpeg实现视频Logo的添加与移除
  19. python3 安装 pip (PyPI)
  20. 虚拟人实时互动之基于Android驱动表情随动

热门文章

  1. 产品经理基本功之PRD
  2. 附合导线坐标计算例题_闭合附合导线计算(课件例题)
  3. 打补丁更新不适用计算机,安装补丁“此更新不适用于你的计算机”解决办法
  4. 常见的文件格式有哪些
  5. 校招行测笔试--资料分析
  6. Qt5调用Snap7
  7. Microsoft Visual C++ 修复工具
  8. php期末考试分数分布情况,考试成绩分析
  9. 计算机毕业设计-springboot疫情管理系统-社区防疫管理系统java-小区预防疫情统计管理系统代码
  10. 打印机服务器启用后自动关闭,Win7打印机服务自动关闭了怎么打开|Win7打开打印机服务的简单方法...