数据沼泽_数据湖:只是一片沼泽,没有数据治理和目录
数据沼泽
大数据领域在短短的时间内爆炸了。 仅在2013年,“大数据”一词才被添加到《牛津英语词典》的页面中。 不到五年之后,每天就会生成2.5亿个字节的数据。 响应于创建如此大量的原始数据,许多企业认识到需要提供重要的数据存储解决方案,例如数据仓库和数据湖,而无需考虑太多。
从表面上看,更现代化的数据湖为渴望将分析付诸实践的组织提供了无限可能。 它们为那些利用新的变革性数据计划并从不同来源(包括社交,移动,云应用程序和物联网)捕获大量数据的用户提供了一个存储库。 与旧的数据仓库不同,数据湖以其原始格式保存“原始”数据,包括结构化,半结构化和非结构化数据。 直到需要数据时才定义数据结构和要求。
但是,组织在使用数据湖时面临的最常见挑战之一是无法找到,理解和信任他们为获得业务价值或获得竞争优势所需的数据。 那是因为数据可能是乱码(以其原始格式),甚至是冲突的。 当数据科学家想要访问企业数据以进行建模或为分析团队提供见解时,此人将被迫深入数据湖的深处,并从多个来源来的不确定数据集中徘徊。 随着数据成为企业越来越重要的工具,从长远来看,这种情况显然是不可持续的。
需要明确的是,为了使企业有效,高效地最大化存储在数据湖中的数据,他们需要通过实施策略驱动的流程来对其数据添加上下文,这些流程可以对湖中的信息进行分类和识别,以及信息在其中的原因,原因。意味着,谁拥有它,谁在使用它。 最好通过与数据目录集成的数据治理来实现。 完成此操作后,模糊的数据湖将变得非常清晰,特别是对于最需要它的用户。
避免数据沼泽
大数据的潜力实际上是无限的。 它可以帮助企业更有效地扩展规模,获得优于竞争对手的优势,增强客户服务等等。 看起来,组织掌握的数据越多越好。 但是,事实并非一定如此-尤其是如果该数据隐藏在没有适当治理的数据湖中。 没有数据治理的数据湖最终将最终成为一组断开连接的数据池或信息孤岛的集合-都集中在一处。
没有围绕数据的结构,流程和规则,转储到数据湖中的数据就没有业务价值。 未经管理的非目录数据使企业容易受到攻击。 用户将不知道数据来自何处,去向何处,可以与谁共享或是否经过认证。 法规和隐私合规风险被放大,并且数据定义可能会在用户不知情的情况下发生变化。 数据可能无法分析或使用不当,因为存在错误和/或数据缺少上下文。
影响:利益相关者将不信任从数据中收集的结果。 缺乏数据治理将数据湖从业务资产转变为模糊的业务负债。
数据目录在维护水晶般清晰的数据湖中的价值
整个企业中大数据的数量巨大且种类繁多,因此很难理解数据的来源,格式,沿袭以及如何组织,分类和连接数据。 由于数据是动态的,因此了解其所有功能对于数据的质量,使用和上下文至关重要。 数据治理为驻留在数据湖中的数据提供系统的结构和管理,使其更易于访问和有意义。
包含数据目录的集成数据治理程序将一个黑暗,阴沉的数据湖变成了水晶般清晰的数据体,可以持续访问这些数据以进行使用,分析和使用。 它的广大用户可以收集新的见解并解决整个组织中的问题。 数据目录的标记系统通过创建和实现一种通用语言,有条不紊地将所有数据组合在一起,其中包括数据和数据集,词汇表,定义,报告,指标,仪表板,算法和模型。 这种统一的语言允许用户以业务术语理解数据,同时还可以在数据集之间建立关系和关联。
数据目录使用户更容易推动创新并取得突破性的成果。 用户不再被迫在数据湖的深处捉迷藏来发现适合其业务目的的数据。 通过数据目录进行直观的数据搜索,使用户可以使用熟悉的商业术语和过滤器在一个中央位置查找和“购买”数据,从而缩小结果范围以隔离正确的数据。 与Amazon.com之类的网站类似,增强的数据目录结合了机器学习功能,该功能可以从过去的用户行为中学习,从而针对其他有价值的数据集发布建议,供用户考虑。 数据目录甚至可以在数据湖中提取与他们的工作相关的数据时向用户发出警报。
数据目录与治理相结合还可以确保数据的可信度。 具有治理功能的数据湖可确保数据准确,可靠和高质量。 然后,目录使用结构化的工作流程和基于角色的数据源批准来验证存储在湖泊中的数据。 它可以帮助用户了解数据旅程,其来源,沿袭和转换,从而可以评估其用途。
数据目录可帮助数据公民(组织中使用数据执行其工作的任何人)控制填充到其数据湖中的大量信息。 通过对数据建立索引并将其链接到有关质量,可信赖性和使用的商定定义,目录可以帮助用户确定哪些数据适合使用,以及哪些数据应与现有分析不完整或无关,应将其丢弃。
无论用户是希望预览样本数据还是确定新数据项目可能如何影响下游流程和报告,数据目录都使他们确信自己正在使用正确的数据,并且遵守提供者和组织的政策和法规。 附加的保护功能允许在数据湖中标记敏感数据,安全协议可以防止未经授权的用户访问它。
要实现数据的潜力,不仅需要在数据湖中收集数据。 必须为最需要数据的用户对数据进行有意义,一致,清晰和最重要的分类。 适当的数据治理和一流的数据目录将使您的数据湖从单纯的数据存储库转变为动态工具和协作式工作空间,从而在整个企业中实现数字化转型。
翻译自: https://www.infoworld.com/article/3290433/data-lakes-just-a-swamp-without-data-governance-and-catalog.html
数据沼泽
数据沼泽_数据湖:只是一片沼泽,没有数据治理和目录相关推荐
- python爬虫数据可视化_适用于Python入门者的爬虫和数据可视化案例
本篇文章适用于Python小白的教程篇,如果有哪里不足欢迎指出来,希望对你帮助. 本篇文章用到的模块: requests,re,os,jieba,glob,json,lxml,pyecharts,he ...
- iphone换机数据迁移_苹果手机换华为、小米怎么同步数据?来了!
将「雷科技Lite」收藏为我的小程序,不再错过精彩内容 雷科技数码3C组编辑 | MoFirLee 苹果.安卓手机之间同步数据其实不算太难,难的是没有找对方法.当然,游戏数据无法互通,这里面的问题就复 ...
- 数据库语言 数据查询_使用这种简单的查询语言开始查询数据
数据库语言 数据查询 Working with data is becoming an increasingly important skill in the modern workplace. 在现 ...
- iphone换机数据迁移_怎么一键换机?换新机迁移数据必看教程!
怎么一键换机?现在数码产品更新换代的速度越来越快了,很多消费者都会紧跟时代潮流,但更换手机后,通常我们第一个需要面临的问题就是数据迁移,同品牌之间的换机与不同品牌之间的换机,应该怎么实现数据转移呢?下 ...
- 千万数据去重_如何在 1 秒内做到大数据精准去重?
去重计数在企业日常分析中应用广泛,如用户留存.销售统计.广告营销等.海量数据下的去重计数十分消耗资源,动辄几分钟,甚至几小时,Apache Kylin 如何做到秒级的低延迟精确去重呢? 什么是去重计数 ...
- python异常数据筛选_学习笔记(06):Python数据清理实践-数据过滤,06Python,清洗,实战,筛选...
数据筛选:直接引用,选择行列,基础索引,loc和iloc,如何区分 import三个库:pandas as pd,os, numpy as np os.chdir('数据存放路径') 读取 变量 = ...
- tcga数据下载_从GDC下载最新的TCGA临床数据
本文从GDC直接获取TCGA数据,不同于cbioportal.Xeon等TCGA下载工具,GDC数据是实时更新的最原始的数据. 下载数据 GDC的综合数据下载页面为https://portal.gdc ...
- postgresql批量插入数据脚本_每日踩坑 2020-11-04 PostgreSQL 批量插入数据
一看居然两三个月没写博文了.凑.最近去考了个试,老天保佑吧. 今天有个同事跑来问我,我之前写的数据同步工具支不支持 PostgreSQL. 然后跟我讲了他的需求.感觉我随手写的小东西开始变成整个部门的 ...
- 张莉python 玩转数据答案_大学mooc2020年用Python玩转数据课后答案
OLAP的基本概念不包括().A.度量属性B.维C.数据分析D.事务处理 综合国力的主要要素包括地理条件.自然条件.经济实力.人口.科技.军事实力.民族特征.国民的凝聚力. 假定MyClas为一个类, ...
- mysql 删除数据 降低_活见鬼,明明删除了数据,空间却没减少!
原标题:活见鬼,明明删除了数据,空间却没减少! 作者 |莱乌 来源 |IT界农民工 迁移数据常用 1.导出文件 -mysqldump 命令 mysqldump是 Mysql 自带的逻辑备份工具.其 ...
最新文章
- 【Axure原型图】—— 4. Tab Control(选项卡)
- python游戏编程入门-python游戏编程入门
- java中四种操作(DOM、SAX、JDOM、DOM4J)xml方式详解与比较(转)
- python 使用 with open() as 读写文件-给Python学习者的文件读写指南(含基础与进阶)...
- 用友u8采购发票如何取消审核
- java基础代码实例_全网都在找的Python简单基础小程序的实例代码
- 注册表添加 右键功能
- html通过拼音首字母定位,javascript实现通过拼音首字母快速选择下拉列表
- Python 爬取多玩图库
- 计算机取消补考,2005级《计算机文化基础》补考通知
- 在 PyCharm 中使用 PyInstaller 打包 EXE 之过程简记
- 小闹乎谈新手必备的撸猫手册
- Cosine Similarity(余弦相似度)
- 激光雷达核心技术及行业格局梳理
- java八大数据类型详解及其变量详解
- 不改变图片分辨率,减少图片存储大小
- Java什么时候会触发类初始化及原理(详解)
- html5中float的用法,float的用法总结大全
- 使用sklearn划分训练集、验证集、测试集
- selenium 如何在已打开的浏览器上直接自动化脚本
热门文章
- 微信屏蔽网址解决办法,如何实现被微信屏蔽的网址在微信内正常访问
- Linux中xtp文件上传不了,xtp_api_java: 中泰证券xtp java api for win\linux\mac https://xtp.zts.com.cn...
- eclipse制作app入门教程
- 嵌入式设备和固件中的自动漏洞检测(一):概览
- python中颜色红色的表示_matplotlib中的绿色到红色的颜色映射,以d的中值为中心...
- Mysql-如何进行慢SQL查询
- 4-2. 打印九九口诀表
- 运动无线耳机哪款不容易掉、最不容易脱落的蓝牙耳机推荐
- 2022IC秋招面经分享【禾赛科技·FPGA开发工程师(上海)】
- 女人四十学计算机有用吗,四十岁的女人,开始学做美容工作,有前途吗