数据挖掘 是“大忽悠”还是“懵懂少年”(转帖)
最近在实际的项目中有些困惑,感觉数据挖掘的目标确定是很棘手的问题,数据质量也阻碍了项目的进行,在网上发现了这篇文章,感觉作者分析确实是目前数据挖掘项目在国内遇到的问题。
数据挖掘项目的实施人员,除了项目管理者之外,还需要三类具有不同专长的人员,一是业务分析人员,精通业务,能够解释业务对象,并根据业务对象确定用于数据定义和挖掘算法的业务需求;二是数据分析人员,精通数据分析技术,熟练掌握统计学,能把业务需求转化为具体操作,并为每步操作选择合适的技术;三是数据管理人员,精通数据管理技术,了解数据源,负责数据准备过程。
其一,争议自变量的选择权。企业CEO一般对预测模型的建立都比较感兴趣,预测的目标也比较好确定,比如要预测客户流失,那么“客户是否流失”就是目标变量;要预测股票涨跌,那么“收市价是否上升”就是目标变量。但确定哪些变量作为自变量则颇费周折,换句话说,要确定哪些因素与目标变量有关系,往往是双方各执一词。
自变量该由企业用户一方来决定,还是该由数据挖掘人员决定呢?企业用户人员拥有长期的业务经验,能敏锐感觉到哪些因素与目标变量密切相关,不过他们有时会遗漏很多表面无关但实际上很重要的因素,这正是数据挖掘人员可以发挥作用的地方。理想的方式是双方结合决定,但谁主谁辅则常常争执不休。
其二,CEO喜欢把客户群体分得越细越好。与传统的经验细分相比,数据挖掘产生的客户细分能够考虑客户更多的行为属性,每个客户群体具有更鲜明的行为特征。但什么样的客户细分结果才算好的?将客户分成多少个群体是最合适的?群体之间的人数相差悬殊是否就意味着细分结果不够好?
预测性模型的好坏有很多衡量指标,上述问题却没有一定的衡量标准。客户细分模型的好坏,更多地要从业务角度来评判。CEO喜欢将客户分成上百个群体,总想更细致地了解各群体客户的行为特征,但客户经理多半要忙吐血也顾不过来,现有的客户管理系统也很难支撑过多客户群体的处理。因此,数据挖掘人员的应对措施就难以让CEO满意。
第三,质疑数据挖掘的结果。数据挖掘建立的预测模型,是对真实世界的模拟,依据企业数据库中储存的客户行为信息建立的预测模型无法得出确定性结果,只能以概率值示人。例如,电信运营商要求挖掘出某个客户流失究竟是因为对网络质量不满、对服务质量不悦、还是对资费政策有怨言,但挖掘出来的结果只会是诸如“如果最近一个月漫游通话次数小于25次、交往圈人数三个月均值小于97个……则符合这样条件的客户其流失概率为46%”的判断。
这样以概率值提交的结果最容易招来企业CEO的不满。他们通常会问,我要对我的客户流失做出预测,为什么不能准确告诉我究竟是哪些客户下个月会流失?只告诉我每个客户流失的概率,这样的数值叫我如何使用?
数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。说白了,数据挖掘只是一个工具,它可以发现一些潜在的用户,但不会告诉使用者为什么,也不能保证这些潜在的用户成为现实。
实际上,数据挖掘只能找出数据上的关联,还不能把这种数据关联关系当成因果关系。例如挖掘发现,“大多数车祸出现在中等行驶速度当中,极少的事故出在高于 150 公里 /小时的速度上。”人们当然不能认为“高速行驶比较安全”,它的真实原因在于“多数人是以中速行驶,因此多数车祸出在中速行驶的车辆上”。
数据挖掘的成功要求CEO对期望解决问题的领域有深刻的理解,理解数据,理解其过程,才能对数据挖掘的结果找出合理的解释。拿啤酒和尿布这一经典例子来说,如何去解释这种现象,是应该将两者放在一起还是分开销售?需要摸透消费者的心理才能做出决定,而无法靠数据挖掘得出结论。
美国有家冰激凌生产商,总是听到顾客对产品的抱怨,而产品的质量又检查不出什么问题,企业CEO也一直不明就里。后来市场部用上数据挖掘软件,通过分析知道问题出在产品的外包装上,由于包装上冰激凌图片里的水果数量较多,而实际产品没有那么多,导致了顾客的不满。市场部随即换上新的包装,顾客的抱怨也就停止了,但销量并没有明显增加。数据挖掘的结果帮助企业解决了一个表面问题,但没有改善企业的经营状况。
数据挖掘提供的是一个辅助决策的系统,它不能代替CEO来进行决策。人在所有的信息系统包括数据挖掘平台中的作用始终是第一位的。不能快速、准确地制定决策方针等于将市场送给对手,不能及时发现业务的潜在信息等于浪费自己的资源。数据挖掘给出的结论仍然只是参考,而不是最终结论,事情的决断和执行仍然要靠CEO的智慧。
数据挖掘 是“大忽悠”还是“懵懂少年”(转帖)相关推荐
- 数据挖掘 是“大忽悠”还是“懵懂少年”
台资餐饮企业"一茶一座"在内地发展迅猛,几年下来已经开了34家连锁店,历史数据累积到三千多万条:本土生产型企业"乐百氏"的门店几乎已铺遍全国,总部十分重视原始数 ...
- 每年“骗”马云10亿,被骂大忽悠,他却当选中国工程院院士?
从来都是马云"骗"我们钱 把我们的钱包掏得空空的 那么你见过有人"骗"马云的钱吗? 见了一面就"骗"了马云10亿 整整10年! 这个人就是马 ...
- 毕业入行测试5年,从“懵懂少年”到“甩锅老油条”,我的经验值得你的借鉴~
17年1月份毕业至今已有五年多的时间,也先后经历了四个公司三次变动,从最初"技术至上"的懵懂少年,成长为游刃有余应对各种扯皮.甩锅的"老油条",这三年多的时间有 ...
- 数据挖掘十大经典算法之——EM 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——Apriori 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——PageRank 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——Naive Bayes 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——KNN 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
- 数据挖掘十大经典算法之——AdaBoost 算法
数据挖掘十大经典算法系列,点击链接直接跳转: 数据挖掘简介及十大经典算法(大纲索引) 1. 数据挖掘十大经典算法之--C4.5 算法 2. 数据挖掘十大经典算法之--K-Means 算法 3. 数据挖 ...
最新文章
- 知否?知否?一文看懂深度文本分类之DPCNN原理与代码
- Windows性能调优: Perfomn.exe 和Perfmon /res
- 数字货币 矿池 矿场 区别
- 【命令init3/5】centos7切换图像界面和dos界面
- PMP考试资料:这个项目值得去做吗
- ABAP常用字符串操作收集整理
- 8.14 模拟:字符串
- asterisk配置会议室meetme.conf
- 1218 图片对齐模式
- 在Linux下安装和使用MySQL(转)
- python golang 小工具_使用Go语言简单模拟Python的生成器
- 医药/医疗/互联网医疗平台/问诊/挂号/开药/处方/复诊/患者管理/开药问诊/视频问诊/电话问诊/图文问诊/医生端/医师认证/医院/药品/续方/常用处方/电子处方/抢单/接诊/退诊/预约/科室/开方
- masaic 数据增强代码
- 上位机plc编程入门_零基础自学plc编程怎么入门?
- DS4Windows(电脑PS4手柄控制器)v2.2.6 中文版
- 图新地球 “请选择目标图层后再下载”
- dp hdu5653 xiaoxin and his watermelon candy
- 30个响应式大背景网页设计欣赏
- 小游戏系列算法之五广度优先搜索,双向广搜,八数码,华容道
- 什么是嵌入式?嵌入式开发怎么学