自从本世纪初软件应用开始在整个业务流程中盛行以来,一个不争的事实就是:数据改变了我们的工作方式。越来越多的企业认识到必须在大数据方面有所作为,但他们却并未切实规划出如何开展这项工作。而调查发现,切实展开的大数据项目,因为缺少明确目标,55%都会半途而废。在一项技术趋势早期阶段出现这样的失败并非罕见,倘若不吸取经验教训,那显然不是明智之举。

大数据项目失败的首要原因是缺乏清晰的目标。现在,让Informatica确保您计划的项目不会因为目标模糊而失败。

制定目标

1、确定业务目标

让我们先从业务开始,因为要使项目得到充分重视,这些目标必须放在比IT更重要的位置上。制定您希望项目实现的业务目标时,请尽量具体。并且记住确定产生可衡量影响的目标。例如,在可预测客户流失的客户服务接口示例中,项目列出的目标不应是像“提高客户体验”这样模糊的说法。目标越清晰,离实现目标的距离就越近。一个高度精确的目标比五个模糊的目标更有价值。

2、确定IT目标

现在,让我们看一下与项目相关的IT目标。需要指出的是,如果项目是要帮助IT更快更好地工作,向业务用户推销的时候会很困难。就其本身而言,IT目标的沟通描述应与业务用户十分感兴趣的目标结合。按照重要性高低列出与IT相关的大数据项目的目标。例如,建立聚合客户数据、信用卡使用数据、社交图数据和流失指标的实时收集、清洗、掌握和存储流程。

3、确定数据需求

现在我们已经概括介绍了如何制定大数据项目的具体目标,接下来我们开始直接讨论项目的核心——数据本身。无论是什么项目,必须战略性地思考您需要什么信息,使用什么数据集应对这种需求, 以及如何获取和使用这样的数据。

五个关键数据考虑事项

一旦列出您要寻找的数据,您就会更清楚地了解所面临的具体大数据挑战。尤其重要的是,在进一步行动之前,有五个您必须考虑的关键要素,这些要素将决定针对每个数据集以及您的大数据数据集需要采取的行动。

1、为海量数据做好准备

您必须做好应对需要“海量”数据的准备。从多个角度根据数据价值、使用情况、大小、复杂度以及允许访问数据的人员对数据进行分类。全面、有序的数据库存有利于您确定如何对所有数据进行管理。评估您的当前存储和处理能力,并寻找最经济高效的方式来扩展它。

2、应对多样性

大数据最具挑战性的一面是,必须在分析中统协多种不同的格式和结构。如果要在已经习惯使用的数据源之外增加新的数据类型和结构,则您必须集成大量的数据源。如果要对每次集成都进行手动编码,则会非常繁琐,必将耗费您的所有时间和资源。充分利用所提供的数据集成和数据质量工具,可以让更有价值的任务加快进度。

3、处理速度

实时流数据和历史数据相结合往往能提高分析的预测能力。因此,您所需要的某些数据只有在不断涌入您的系统时才可能有价值。实际上,大多数实时分析都需要基于流数据进行。这种数据通常来自不同的源并采用不同的格式。为您的项目准备流分析技术和一个逻辑基础设施,以便管理所有数据。

4、确保真实性

无论您的分析有多么重要,如果人们不信任其中的数据,它就一文不值。根据需要准备的数据创建类别,包括原始数据以及由经过清洗的可靠权威数据组成的数据存储等,该数据存储已进行精心组织并会受到掌控。

5、考虑合规性

您处理的不同数据集也会具有不同的安全规定和要求。对于每个数据集,您需要考虑需要采取什么措施来根据安全策略对数据进行匿名化处理。您的海量数据会分散在企业的数百个数据存储中。您需要熟悉敏感数据所在的位置,并通过加密来确保其数据源的安全性,然后对有权访问该数据的人员加以控制。除了对敏感数据进行安全、智能存档之外,还要随时在其迁移或进入开发和测试环境时使用预定义的规则使该数据脱敏。

对要处理的每个数据集应用上述五个考虑事项,您就可以更现实地做好准备以迎接大数据的挑战。但如果要建立一个更加稳固的大数据项目,您还必须为数据治理搭建一个程序框架。实际上,即使大数据项目的目标只是为一个部门创造价值,您也需要考虑设立一个小型数据治理委员会,以便您了解如何应对此类机构提出的独特挑战。

然后,您的大数据之旅即将启程。

informatica数据脱敏_助您首个大数据项目破茧成蝶的实践指南相关推荐

  1. 华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶

    华为云鲲鹏云容器 见证BigData Pro蝶变之旅大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到20年时间,已渗透到社会生产和人们生活的方方面面,.然而,伴随着信息量的指数级增长,大数据也开 ...

  2. 多模数据处理破茧成蝶 大数据“卡脖子”成为过去!

    大数据的的确确正在改变我们的世界. 作者 | 刘学习 @中国软件网 出品 在这场出人意料的新冠疫情之下,中国的大数据技术展现了惊人的威力: 追踪流动人口,极速公布各地疫情报告,覆盖所有人群的健康码大数 ...

  3. 首个自贸港“跨境数据交互试点”!中国电信海南国际数据中心将助推5G、大数据等产业发展...

    中国电信海南国际数据中心建成将作为首个自贸港"跨境数据交互试点",吸引境外企业.跨国企业落地以及助推云计算.人工智能.5G.大数据等产业发展.2021年2月27日,海南自由贸易港2 ...

  4. jquery数据折叠_通过位折叠缩小大数据

    jquery数据折叠 Sometimes your dataset is just too large, and you need a way to shrink it down to a reaso ...

  5. sqoop数据倾斜_北京卓越讯通大数据岗位面试题分享

    北京卓越讯通面试题 学长1 1)笔试 (1)JAVA支持的数据类型有哪些?什么是自动拆装箱? (2)AtomicInteger和Volatile等线程安全操作的关键字的理解个使用 (3)创建线程有几种 ...

  6. 大数据实效_全流程监督 让大数据督查取得实效

    点击上方蓝字,关注郧西纪委监委微信公众号 "老陈,你的护林员工资是否发放到位?是否存在被虚报冒领.侵占挪用的现象?" "都发放到位了,感谢你们,对我的事这么关心..... ...

  7. 内存 增量数据持久_内存中数据模型和大数据持久性

    内存 增量数据持久 ORM框架在需要与关系数据库进行交互时可以帮助开发人员. 对于关系数据库,有许多出色的ORM框架,例如Hibernate和Apache OpenJPA,其中一些确实很棒. 如今,大 ...

  8. python做数据和大数据区别_不懂Python,不懂大数据的人,和咸鱼有什么区别?

    原标题:不懂Python,不懂大数据的人,和咸鱼有什么区别? 在这个处处充斥着大数据影响的时代之下,不懂Python,不懂大数据,你就可能轻易地错过身边的黄金. 我们生活在数据密布的环境中,就像< ...

  9. 大数据相加_推动媒体融合与大数据相加发展

    深圳特区报讯 7月7日至8日,备受瞩目的第十二届中国传媒年会在贵州贵安新区东盟国际会议中心举行.本次年会以"媒体深度融合与大数据"为主题,近300名与会嘉宾深入思考研讨媒体融合与大 ...

最新文章

  1. python kafka消费最新数据_python kafka消费数据库
  2. ERROR 1820 (HY000): Unknown error 1820,ERROR 1046 (3D000):
  3. JAVA必备——13个核心规范
  4. TD321DCAN 隔离CAN总线驱动器
  5. UVa 10290 - {Sum+=i++} to Reach N
  6. 前端开发中的一些js小技巧
  7. 使用Gradle消除开发重新部署
  8. centos6 5从命令行进入图形界面
  9. 海量url mysql_海量数据mysql优化步骤
  10. 盘点数据科学最流行的29个Python库
  11. [转]计算机视觉之跟踪算法——相关滤波器Correlation Filter
  12. 哈夫曼算法(huffman algorithm C)
  13. linux top 命令各参数详解
  14. 如何在Python中获取当前时间
  15. 【经验心得】关于RPGmaker的工程解码
  16. [设计模式-行为型]模板方法模式(Template Method)
  17. 实训汇编语言设计——16位数拆分为4组
  18. 如何一边训练一遍验证
  19. [xdoj1029]求解某个数的最高位和最低位
  20. bzoj4326 NOIP2015 运输计划

热门文章

  1. 【C#】ADO .Net Entities Framework使用查询语句时遇到的错误
  2. 苹果公司计划在俄勒冈州建设其第三个数据中心
  3. 那些程序员身上共有的属性,这就是他为什么比你进步快的原因!
  4. 一家踏实做产品,在疫情下销售增速仍达35%的公司,年报长啥样?
  5. Python:程序员在每天不同时间发微信消息给女友
  6. Python在视频处理上的优势有哪些
  7. VMware vSphere5.0 HA高可用性原理
  8. 【转载】他是个残疾人 mynote V1.01发布
  9. (转载)今天的她坐在凳子上面的【飞秋】
  10. 隐身专家 FreeEIM 合作版