数据仓库的门槛有多高?

主持人:自从“啤酒和尿布”的故事在中国广泛流传之后,数据仓库在中国也热闹了一阵子,许多企业家曾对它抱以极大的希望,但为什么时隔不久数据仓库应用就进入了“冬眠期”?数据仓库技术在中国的应用受到了哪些因素的制约?
孟晓峰:数据仓库是在数据库基础上发展而来的,它通常有三个部分:数据仓库(data warehousing)、联机分析处理(olap)及数据挖掘(datamining),它们之间具有极强的互补关系。数据仓库是为了满足人们在高度数 据积累基础上进行数据分析的需要而产生的,但由于目前中国在基础数据的积累方面存在不足,导致数据仓库技术的应用没能推广开来。一个技术的出现一般是由于 创新者提出新的概念,研究者去解决某些问题;虽然数据仓库已经跨过了这一阶段,但目前在数据仓库的应用推广过程中,又遇到了一个门槛,那就是这种技术如何 被多数人所接受。我认为要使数据仓库被多数人接受,首先需要解决的问题就是数据挖掘技术如何与现有商业技术的结合。目前市场上已有多种适用解决所有商业模 式的通用数据挖掘系统,但实际上这些系统极其不好用,只有那些非常熟悉数据挖掘技术的人才能够理解和使用它们,而普通用户是很难应用这些技术来解决自己的 商业问题。
杨顺生:我们是一家真正经营数据仓库产品的企业,从我们与国内企业接触的经验来看,数据仓库技术在中国没能很好发展起 来,主要有以下几方面原因:第一,中国的信息化基础设备相对不太完善,例如目前电信行业的计费数据非常分散,计费工具就有40~50种,数据采集都是各搞 各的,为今后的分析带来许多技术上的困难。第二,企业的竞争意识和服务意识还不够强,对于决策分析的需求还不那么迫切,由于企业没有机会实施数据仓库,因 而也相应造成这方面技术人才缺乏的现象。第三,数据仓库是一个数据共享的系统,不同层面的人从中得到的信息会大不一样,它对企业决策是一个很好的工具,但 目前中国企业没有建立起一个管理机制来推动数据的共享,不论是对人的能力、企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基础之上建立 好用的数据分析是非常困难的。
祁国辉:实际上,在国外市场竞争非常激烈的环境下,每个商场为了自身的生存,已经想尽了办法,很多能够被人工发现的规律 早就发现了,在这种情况下,使用数据挖掘技术来解决问题是一个很正常的想法。但是数据挖掘工具并不能直接告诉决策者应该把啤酒和尿布摆在一起卖。国内企业 有很多实施了数据仓库,但结果大多不尽如人意,其关键的原因在于,建设数据仓库时一定要先确认为什么要投资数据仓库?要利用数据仓库解决什么问题?数据仓 库要达到什么目的才可以告一段落? 否则做完数据仓库还不知道该怎样来用,如何评价其成功与否。其次,数据仓库不是那种买来就可以使用的软件产品,事实上,数据仓库更像一个过程,一个用户逐 步认识自己、提高自己的过程。第三,数据仓库不仅要反映出企业的现状,而且还要依靠用户做出最终的决策。总之,国内数据仓库不太成功的原因除了用户的应用 水平、业务管理水平有待提高外,数据仓库产品价格居高不下的原因也多多少少影响到其在国内的顺利推广。
陈道斌:我本人是从事信息分析方面工作的,对于为什么要借助数据仓库也正在展开一些研究。作为用户我感到,银行业最需要 数据仓库技术,也最应该大力发展数据仓库技术。近几年国内几大银行都在这方面进行了一些尝试,然而迄今为止失败者多,成功者少。其中最主要的原因就是许多 银行在建立数据仓库系统时,对系统所要实现的功能定位不明确。一个数据仓库系统应明显区别于业务处理系统,因为业务系统的要求往往是快速响应和界面简单 等。而数据仓库与业务系统并不是平行的关系,它应该是基于所有业务系统之上的,对业务信息进行采集、分析、整理和发布等,应该是一个稳定的、带有时间参数 的数据集合。数据仓库技术本身并没有新的内容,它是管理科学、计算机科学、网络科学和分析手段的大融合。
数据仓库技术好用吗?
主持人:数据仓库应用不理想是否存在技术上的原因?使用者的层次与数据仓库前端工具之间是否存在矛盾?
孟晓峰:在数据仓库的三个概念中,数据仓库是企业进行数据分析的基础,它的主要工作是将数据库中的原始数据进行归纳整 理,聚集成一个可供高层次使用的数据集合。在数据仓库的基础上有两类分析工具,一类是做分析型工作的olap,另一类是做预测型工作的数据挖掘。数据挖掘 概念的提出,是希望发现像“啤酒和尿布”这样具有关联性的规律。但目前这套技术体系,无论在中国还是在世界其他国家,应用都受到一定制约,最主要的原因 是,这套技术还没有达到数据库技术的成熟度和易用性。但目前看来,所有产品的可用性都还值得怀疑,因为如果你不是一个数据库专家、统计学专家以及人工智能 专家,你将很难用好这样的分析工具。目前市场上的数据仓库产品都是基于一个通用的技术平台而设计的,这种产品虽然能够解决不同用户的分析需求,但它没有将 特殊领域的商业逻辑与数据仓库技术集成起来,因而分析效果不可能达到峰值。另一个技术瓶颈是目前各种算法层出不穷,还没有经历一个大浪淘沙的沉淀,而数据 库中的检索技术经过人们多年的摸索,已经形成几种固定、成熟的技术模式,这是数据仓库产品没能达到数据库产品实用性的另一个原因,所以说目前数据仓库技术 的发展仍处于积累阶段。
陈道斌:工商银行在建立数据仓库系统时的统一认识是,在市场上买不到可以直接使用的数据仓库产品,必须根据自己的业务进 行量身定制,必须将自己的数据源及业务需求理清楚,然后将中间搭桥的工作做好,这个搭桥的工作需要市场上的数据仓库产品的支持,从一开始就必须注意业务与 技术的协调。
祁国辉:由于数据仓库是从西方国家产生的,它带着浓厚的西方文化色彩,最典型的是数据仓库中的报表展现。国外的产品注重 的是报表内容,但是中国要求内容和格式一样重要,甚至有些时候格式比内容更重要,在这一点上,国外的报表工具很难满足中国用户的需要。数据仓库作为一个工 具,企业内部每个层次的用户都可能利用它产生效益,但是真正实现起来,还是存在用户水平与需求问题,我们不可能要求每个用户都能够自已去数据仓库中获取数 据,而且安全措施也不允许这样做。这时,我们需要的是一系列不同的数据仓库前端工具,而这正是目前所有的数据仓库产品都缺乏的。目前的产品大多数只提供一 种工具,试图满足所有人的需求,结果每个人都不满意。
数据仓库应用范围如何?
主持人:哪些行业对数据仓库的需求较大?目前数据仓库技术在国内哪些行业应用较好?为什么?
杨顺生:我曾经根据一些假设条件对某些行业和企业实施数据仓库的成熟度作过分析。在2000年全球财富杂志500家名单 中,有近50%的企业已经实施了企业级数据仓库或部门级数据集市,我们了解到电信、银行、零售、航空、铁路、邮政、食品、消费类制造、汽车、医疗、保险等 行业是对于数据仓库技术需求最为强烈的行业。在所有这些实施了数据仓库的行业中,所占比例分别是:零售业17家、航空业16家、有线电话15家、移动通信 企业14家、银行业13家。另外,我们还对目前全球不同行业实施过数据仓库的企业数量进行了统计:根据国外实施的经验,我们发现,领导的需求度、信息技术 基础设施、分析型的应用需要以及竞争的激烈程度这四项因素是影响企业实施数据仓库进度的关键因素。企业规模越大、历史数据越多,实施数据仓库的迫切性就越 高;零售和制造型企业目前较重视成本控制,会首先使用营运和生产的分析型应用;政府监管部门由于历史数据采集的困难,实施数据仓库的速度相对较慢;企业集 团总部为加强监管,会采用数据仓库作为处理和分析大集中的信息技术手段;受过工商管理学教育的领导,比较重视科学化的决策手段,因此比较支持数据仓库的建 设。
陈道斌:目前在中国金融系统只有工商银行在数据仓库的应用方面有所突破,其原因是:首先工商银行规模较大,客户群庞大, 因此必须对客户进行深入研究,以实现以客户为中心的服务模式;其次,早在1999年9月1日,工商银行就提出将所有业务都集中在北京和上海两个中心进行处 理,实际上解决了建立数据仓库所必需的数据集中问题;第三,工商银行有一个最大的优势,就是已经推行了一套统一开发的综合业务系统,提供了客户信息整合的 条件。而从领导支持的角度看,现在的行长是专门研究高技术环境下的商业发展问题的,他对于利用信息技术发展银行业务有着独到的见解,因此工商银行目前在数 据仓库的第一个项目(客户关系管理)上已经有了实质性的进展。
怎样跨过数据仓库门槛?
主持人:中国数据仓库市场成熟吗?对于前面所提到的制约因素,我们能够提出哪些解决思路?应采取什么样的措施和手段来推动中国企业数据仓库的应用?
祁国辉:这个问题问得好!gartner group 曾经有一份数据仓库市场占有率的报告,从报告中可以看出,到2003年,美国的数据仓库销售额将占全世界的58%,亚洲只占7.5%,不难看出我们的差 距。但是目前两者的技术发展速度相差不多,所以说数据仓库应用市场在中国还是存在的。我认为惟一的解决办法是,让企业直接面向竞争激烈的市场,改变管理思 路,这样很快就会产生需求,看书学拳击永远也领悟不到拳王的丰富经验。
孟晓峰:现在越来越多的公司在建立基于web的电子商店,这些商店可以收集到大量的原始数据,因此电子商务成为数据仓库 技术极有前途的应用领域。而如何为电子商务应用提供一套特殊的数据仓库解决方案,应该比一个通用化的解决方案更能够为市场所接受,从而跨过数据仓库应用过 程的门槛。现在数据仓库应用领域有许多定制的需求,用户急需一种既可以提供数据分析又可以提供客户个性分析的工具。
杨顺生:从先进国家的经验中我们发现,联机交易处理系统(oltp)和企业网两项信息化基础设施是实施数据仓库的必备条 件。竞争环境越激烈就越需要数据仓库系统,企业需要了解客户的需求、需要发现经营风险同时还需要进行经营分析和管理,所有这些分析都属于大数据量的分析, 采用传统的信息技术将会产生很多局限性,必须依靠一个tb级的数据仓库系统才能解决以上问题。数据仓库是分析型的应用,是解决复杂经营问题最合适的信息技 术。但这些观点适合中国的企业生态环境吗?有没有国内的案例可以支持上述观点呢?最近上海证券中央登记结算公司和中国民航信息网络公司已成功地实施了tb 级数据仓库系统,这两个案例是对中国企业、事业单位实施数据仓库必要性最有力的论证。
陈道斌:从工商银行实施数据仓库的情况看,数据仓库技术在中国有着极大的发展前景。数据仓库本身的技术和方法体系有很 多,但在建立数据仓库应用时,还应该以问题为导向而不能以方法为导向,要根据问题寻找产品和工具。在这方面失败的例子太多了,主要原因就是许多企业是先购 买了数据仓库产品,觉得这个产品很好,一定要将它用起来,然后才开始建立自己的系统,这种做法已经被实践证明是不可行的。开发数据仓库应用不能急于求成, 希望一次能够将所有的问题都解决是不可能的。数据仓库的建设过程要讲究方法论,要在一个大的需求框架下进行,在业务和技术人员很好沟通的情况下,一次解决 一个问题。
【记者点评】“枪手”与“枪”
在对话过程中,记者最大的感受就是,因为数据仓库并不能直接告诉决策者应该把啤酒和尿布摆在一起,所以企业不能将所有的“宝”都压在数据仓库上。如果说数据仓库是一支好“枪”,那么决策者就应该是“玩枪的人”。

数据仓库只能够反映出企业的现状,最终的决策还是要人来做。数据仓库中有两大类的应用,分别是在线分析和数据挖 掘,在线分析侧重于对所有事务进行多角度的展现,而数据挖掘则侧重于对事务中蕴涵的未知规律进行发现。从业务上看,两者都可以用来发现和总结规律,一种是 通过验证某些猜想来发现规律,另一种则是通过数据来找寻隐含的未知规律。数据挖掘的成功取决于对数据的合理处理及算法,它并不是对任何规则都能够去发现的 万能工具,所以使用者对自己的业务越熟悉,就越能够给数据挖掘提供完善的帮助和指导,盲目地使用数据挖掘,只能留下对数据挖掘技术的遗憾。

转载于:https://www.cnblogs.com/cheatlove/articles/386420.html

数据仓库—在“啤酒与尿布”中挖掘相关推荐

  1. 数据仓库——在“啤酒与尿布”中挖掘

    数据仓库--在"啤酒与尿布"中挖掘 01-5-21 下午 04:19:25 对话者: 主持人:程鸿--<计算机世界>报记者 专家:孟晓峰--中国人民大学信息 ...

  2. 啤酒与尿布?挖掘商品之间的关联性分析(1):机器学习之Apriori算法

    从这个贸易战看:强权即是真理,没有所谓的自由贸易和平等.中国之大已容不下一个安静的键盘.不过是又一次鸦片战争.除了愤怒还是愤怒,除了一心想为崛起而澎湃还是一心想为崛起而澎湃.中华文明三四千年的历史都是 ...

  3. 如何从购物数据中挖掘出啤酒与尿布的关联关系?

      首先说一个关联分析的经典案例,零售业巨头沃尔玛对消费者的购物行为进行分析时发现,男性顾客在购买婴儿尿布时,通常会顺带购买几瓶啤酒来犒劳自己,于是推出了尿布和啤酒摆在一起销售的促销手段.而这个举措真 ...

  4. 关联分析(Association Analysis)--挖掘啤酒与尿布的关联规则

    通过本文我们将了解: x->y的含义 挖掘关联分析规则的两个步骤 aproori原理 算法优化–剪枝 如何生成频繁项集 没有重复的k-项候选集如何产生->剪枝–>计数–频繁k-项集 ...

  5. 如何用Python挖掘“啤酒和尿布”的关系?(Apriori算法挖掘关联规则)

    一.什么是关联规则挖掘? "啤酒与尿布"的故事大家都听过吧,一些年轻的父亲在去超市给孩子买尿布的时候,会顺便给自己买点啤酒,超市发现这个规律之后,就把啤酒和尿布的货架放在一起,这次 ...

  6. Matlab关键规则挖掘尿片啤酒,数据挖掘:“啤酒+尿布”的关联规则是怎么来的?...

    关联,其实很简单,就是几个东西或者事情 是经常同时呈现 的,"啤酒+尿布"就是十分 典型的两个关联商品. 假定 两项或多项属性之间存在关联,那么其中一项的属性值就能够 依据 其他属 ...

  7. 读《啤酒与尿布》——大型超市购物篮中商品关联性分析

    此书通过沃尔玛.家乐福等大型超经典销售案例分析,总结出人们购物车中商品内在关联.通过关联摆放促进销售额.大小超市.门店.销售人员可从书中案例吸取灵感.提升业绩.对于数据挖掘人员,有两处可借鉴:商品关联 ...

  8. 啤酒与尿布,咩叔原创基于图论简单到爆的实时关联性算法

    整天说数据库有点腻歪,今天换个话题,讲讲关联性算法.本文首先简单介绍一下经典的apriori及其改进算法FP Growth,最后介绍一下当年咩叔写论文时候琢磨出的一个利用图论实现的在线实时计算的&qu ...

  9. 【数据挖掘】啤酒与尿布

    目录 一.背景 现象 原因 二.数据挖掘与关联规则 三.关联规则算法目标 四.关联规则如何表示 五.关联规则算法中相关概念 项集: 支持数: 频繁项集: 置信度: 六.关联规则算法(案例演示) 支持度 ...

最新文章

  1. Java mission control 飞行记录器开启失败
  2. 如何配置IIS服务器使用的中间证书( 微软 KB954755)
  3. 【经典问题】maximum subset sum of vectors
  4. 某大型企业私有云建设思路解析
  5. phpMyAdmin开发人员访谈——4个人支持整个项目
  6. oracle 导入sql文件 汉字乱码_将现有的sql脚本导入 Oracle 数据库,中文乱码问题...
  7. 命令02-pandas命令
  8. [patterns practices] Web 服务安全:场景、模式和实现指南
  9. 分享微软一站式示例脚本库 - IT专业人士的省时利器
  10. IP 地址 与硬件地址
  11. 密度测量:1.密度测量的基础知识
  12. Arduino学习(六) 继电器实验
  13. csv存储数据代码步骤
  14. Kibana查询语言(KQL)AND、OR匹配,模糊匹配
  15. DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition 论文赏析
  16. Android 合并清单文件 Merge multiple manifest files
  17. FPGA中模为60的BCD码加法计数器
  18. 微信域名防红防封系统,轻松微信推广域名被屏蔽问题
  19. 一鸣心所向:如何做好社团营销?深入简出带你了解。
  20. 拉格朗日插值在MATLAB的实现

热门文章

  1. T400|X220打开AHCI的正确步骤
  2. KEIL5打开工程无法显示的问题
  3. 惯量比多少合适_如何理解惯量比的问题
  4. python类之间相互调用_python相互调用
  5. c语言 模拟tftp——tftp客户端/服务器端仿写
  6. 技术分析(三)均线理论
  7. 素材网站大集合(转)
  8. VINS 外参在线标定
  9. 猜字游戏 (Java 基础的训练)
  10. html 一键复制 ios,兼容安卓和ios实现一键复制内容到剪切板