当“大数据”和“高性能数据分析”这些词汇成为SAS 2011年度分析系列会议的流行语时,与会者表示,目前主要的分析障碍仍然可以概括为一个词:数据质量。

  这个问题也并不是什么惊人的发现了。在2010年英国商业应用软件研究中心(简称BARC)发起过一次2000人以上的调查,在该调查中发现BI项目的头号障碍就是低劣的数据质量。2009年Gartner研究公司针对140家公司也做过一次调查,其中22%的公司估计他们每年在坏数据上的损失能达到两千万美元。

  Michael Click是美国亚特兰大太阳信托银行公司(SunTrust Banks)数据库营销分析师,他说:“在大型组织中,你有从各条业务线收集到的不同数据。当试图把所有数据集中起来做全面分析时,我发现匹配数据是相当有挑战的事。”

  Click强烈要求数据集中,这样可以帮助消除数据孤岛,他的同事Adam Lewis也同意他的观点。他说:“你可以得到唯一的真相。这样你就不必花时间解释为什么一组数据可能与另一组数据有细微差别了。”

  Lewis说,事实上,如果来自不同团队的数据与开始交流时确定的不一致,讨论可能就该结束了。

  Click说,“每一个细小的差异都可以令人失去信心。我们是要用数据说话,而不是要讲故事。”

  不是只有Click和Lewis把数据质量问题放在了问题列表的首位,其他人也在关注。

  Paulo Cost是Cisco系统公司高级分析总监,他说:“我们一直在遇到的一个问题就是数据质量问题,你一定知道俗话说‘进来是垃圾,出去也一定是垃圾。’”

  例如,Cisco的B2B电子商务市场使用Dun & Bradstreet的商业数据。Costa说,当这些数据即将改造时,我们仍然需要做一些工作:“数据需要值得整理,而对应的外部和内部源可能会有问题。”

  问题是存在的,而且很耗时。Costa估计分析师80%的时间都花在了单独数据准备上了。在组织继续面对数据质量问题的同时,最著名的供应商产品发布都集中在不连贯的、更大的大数据困扰中。

  在早些时候,微软公司宣布与Hortonwork公司建立了新的合作伙伴关系,后者致力于Hadoop开发。在十月份,Oracle公司发布了其新版NoSQL数据库企业版,它是运行于Hadoop之上的大数据软件之一。

  最新的发布出现在SAS公司2011年度分析系列会议上,SAS放弃了Hadoop路线,计划发布“高性能分析”的新平台。该应用与Teradata公司和EMC公司Greenplum合作之后,提供了数据库分析和内存分析的结合,可以为大数据负荷提供更高效、更快的计算能力。

  当然,目前并不是所有企业都把数据质量或者甚至是大数据看作严重问题来关注。一位不愿透露姓名的与会者透露了他所在公司的策略,他认为坏数据确实是问题,而且最终要被解决。但更紧迫的问题是为在经济形势扭转时的变革做准备。

  他说:“我们如何在风险不再是一个关键问题时保留我们的风险分析团队是一个大问题。”

  作为总部设于美国中西部联邦储备银行团队的一员(金融崩溃之后增招过人员),他说,经济最终一定会反弹,那就意味着金融体系会将他和其他分先分析师的重要角色降级。

转载于:https://blog.51cto.com/wws5201985/746431

大数据时代:数据质量逐渐成关注焦点相关推荐

  1. 大数据时代,谁能成用户隐私的保护伞?

    大数据时代,谁能成用户隐私的保护伞? 随着大数据时代的到来,隐私泄露的问题也逐渐显露出来.特别是今年隐私泄露案件更是层出不穷,从3月闹得沸沸扬扬的Facebook用户隐私泄露案再到6月A站疑被黑客盗取 ...

  2. 大数据时代数据是如何传输的?

    随着科技的进步,通信技术的不断发展,我们对网络的要求越来越高,视频必须看蓝光以上的,游戏不能有卡顿,直播必须流畅.我们是否有想过这些视频从何而来呢?下面我们就来讲讲大数据时代数据到底是如何传输的呢? ...

  3. 大数据时代数据资产管理“五星模型”:三个基础两个飞轮

    伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视提到了前所未有的高度.数据已经作为企业重要资产被广泛应用于盈利分析与预测.客户关系管理.合规性监管.运营风险关理等业务当中. 大数 ...

  4. 大数据时代数据中心的发展思考

    "大数据"作为云计算,物联网之后IT行业又一大颠覆性的技术革命,将对企业的数据中心带来颠覆性的影响.传统数据中心已无法满足海量复杂数据的处理和分析要求,企业内部的经营交易信息.互联 ...

  5. 大数据时代数据可视化的好处

    一.概述 随着企业数据的日久累计,企业生产的数据无论从数量空间还是从维度层次上都日益繁杂.面对大量数据,管理层常常望洋兴叹:要么企业自产的大量数据不能有效利用,无法提供决策依据:要么数据展示模式繁杂晦 ...

  6. 英特尔“Beach”图片泄露 Optane SSD路线图成关注焦点

    英特尔公司正计划推出四大Optane产品家族,根据目前泄露的演示内容,其中包括代号为Masion Beach.Brighton Beach.Stony Beach以及Carson Beach的产品分项 ...

  7. 谈谈大数据时代企业如何进行数据治理体系建设

    随着云计算.物联网.移动互联网等新一代信息技术的快速发展,人类产生的数据量呈指数级增长.据资料显示,2012年,全球数据量达到2.8ZB,预计到2020年,全球数据量将达到40ZB.大数据蕴含着巨大的 ...

  8. 大数据时代下市场营销面临的机遇与挑战

    大数据时代,谁掌握了数据,谁就具有了主动权.大数据作为时代发展的产物,让市场营销变得更为复杂化及多样化.大数据在企业市场营销活动中作用日益凸显,企业在营销过程中应抓住机遇,积极应对挑战,为企业创造更大 ...

  9. 数据中心网络布线为大数据时代铺路

    罗森伯格亚太电子有限公司:孙慧永 前言 伴随云时代的来临,大数据(Big data)也吸引了越来越多的关注,人们用它来描述和定义信息爆炸时代产生的海量数据.我们来了解一下大数据的概念,大数据是指数据集 ...

最新文章

  1. 开源性能测试工具JMeter快速入门(一)
  2. element 往node里面增加属性值_HashMap加载因子为何0.75,为何初始化值2的指数幂,底层解析...
  3. tcp接口测试工具_【转载】接口测试和性能测试的区别
  4. UC浏览器PC版新版有什么特点
  5. Two Bases CodeForces - 602A (BigInteger c++long long也可以)
  6. 教你正确设置CrossOver的Wine配置(二)
  7. Maven安装配置及在idea中配置
  8. Typora实用快捷键
  9. 【引用】43种名车标志及来历
  10. 上市只是开端,库客音乐用版权打出组合拳
  11. 分析方法笔记--AARRR模型
  12. 很多人都说flash as3 经常都是使用MC或者sprite(请问这里的sprite是什么意思?)...
  13. 实现微信公众号二维码生成
  14. 望周知,手机维修你还担心隐私泄露嘛?华为手机一键开启维修模式
  15. 多元统计:相关概念总结
  16. 云服务器和普通服务器主要区别有三点
  17. 转变自己的信仰——致少年的自己
  18. 生物工程学蛋白功能预测_海水中生长的工程细菌产生丝蛋白
  19. 盲源分离matlab程序,盲源分离matlab程序
  20. 《参与感:小米口碑营销内部手册》读书笔记

热门文章

  1. rpc之使用httpserver实现tpc
  2. oracle协议适配器错误tns,ORA-12560: TNS: 协议适配器错误 常见原因
  3. utf8转gb2312 c语言,UTF-8, Unicode, GB2312格式串转换之C语言版
  4. android音量加减驱动,android下调试声卡驱动之概述
  5. java左右连接sql写法,join用不了了 sql语句写法,不用join
  6. Spring mvc架构
  7. Java JDBC DriverManager类
  8. opencv-api houshlinesp
  9. flask-sqlalchemy 数据基本操作
  10. 计算机组成中CM,基于TDN-CM++计算机组成原理课程设计.doc