海量非结构化数据已经到来

随着数据的海量增长和潜在价值的不断提升,数据已经成为最重要的资产,各行各业都释放出海量数据。据Gartner估计,从2019年到2024年,非结构化数据容量预计将增加两倍。然而作为“庞然大物“,却成为企业存储中“隐秘的角落”。尽管企业花费了大量成本长期存放这些数据,也未必能够带来满意的附加价值,而管理不当,则会令企业蒙受相当大的损失。这可以说与企业在大数据时代的追求背道而驰,是所谓“数据价值”背后隐秘的幽暗。

非结构化数据为什么难管理?

和结构化数据相比,非结构化的数据最本质的区别包括三个方面:

1. 非结构化数据的容量比结构化数据更大;

2. 产生的速度比结构化数据更快;

3. 数据来源更具有多样性。

由于非结构化数据的“大且乱”的特点,所以管理非结构化数据也随之迎来了挑战:

1.数据体量大、成本高

企业级的数据大多都是PB、EB量级,文件数量超过“亿”、“十亿”量级,随着大量的非结构化数据占用存储空间,扩容的需求将造成投资成本不断攀升。

2.数据种类多,无法有效管理

对于保留下来的那些特征类型不固定,且种类丰富的非结构化数据,真要去使用和处理它,依然是一项不讨好的“体力活儿”。再加上体量和网速的原因,非结构化数据并不容易获得,更不要说灵活地投入到业务分析和处理流程之中了。

3.关系复杂,无法有效利用

文件系统中文件跟父目录层次结构包含关系以外,数据也可能拥有其他共同的特征,构成数据和数据之间的关系;再加上同一数据拥有多样化的特征,造就了数据特征和特征之间也可能拥有复杂的关系。但如何根据多维度的数据特征发现数据,发现数据和特征之间的关联,以及特征和特征之间的关联从而有效利用数据,也是众多企业面临的难题。

采用传统的数据管理(存储系统+数据库)方法会出现的问题:

  • 传统的数据管理方法需要数据特征相对固定,并且根据用户定义固定的数据特征组织数据库的表结构,但非结构化数据的形式是多样的,也就局限了数据管理系统的通用性。

  • 当有新的数据特征或者稀疏特征加入到用户考量范畴的时候,原有的表结构很难与其适配,或造成大量的空间浪费(表结构不均衡,大量空属性也是占用空间的)。

  • 无论是“冷数据”还是“热数据”,都是时常变化的,这种变化(修改/复制/迁移)往往是操作者直接在存储端完成。处在应用层的数据库系统很难察觉到,从而无法追踪和体现存储系统的真实状况。

  • 面对海量的非结构化数据,并且数据间的复杂关系,且需要实时分析和管理时,采用关系型数据库虽然可以体现各种特征的关系,但无法处理实时处理海量非结构化数据的多种特征;如果采用分布式数据库,虽然可以处理海量数据,但很难根据不确定的特征来分析数据之间的复杂关系。

那非结构化数据应该怎么去管理?我们下回在一起讨论

还有更多的存储知识,欢迎关注我的公众号:新爷话数据。

非结构化数据传统管理的弊端相关推荐

  1. MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

    为什么80%的码农都做不了架构师?>>>    摘要: MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断 ...

  2. 详解非结构化数据(文档)安全管理解决方案

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  3. 非结构化数据治理方案

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  4. 详解非结构化数据治理

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  5. 详解:非结构化数据治理

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

  6. 鸿翼档案,将非结构化数据治理能力应用于档案管理的先行者

    数字化时代,每个人每天都要接触大量的数据.人们通过分析数据获取信息与知识,帮助自身更好地理解社会动向,掌握行业发展.我们每天都会接触到多种多样的数据,这些数据根据结构可划分为三种:结构化数据.非结构化 ...

  7. 海量非结构化数据“超可用”在哪儿?这是爱数给出的答案

    数据大爆炸时代,海量非结构化数据管理需要一种全新的智慧. 11月2日,爱数举办了一场线上发布会,发布了全新的AnyBackup Family 7海量非结构化数据超可用解决方案.关注爱数的都知道,Any ...

  8. 独家 | 使用机器学习对非结构化数据加速查询-第2部分(具有统计保证的近似选择查询)...

    作者:Daniel Kang, Edward Gan, Peter Bailis, Tatsunori Hashimoto, and Matei Zaharia 翻译:殷之涵 校对:方星轩 本文约28 ...

  9. 独家 | 使用机器学习加速对非结构化数据的查询-第1部分(使用BlazeIt加速聚合和限制查询)...

    作者:Daniel Daniel,Peter Bailis和Matei Zaharia 翻译:Kay 校对:王雨桐 本文约2800字,建议阅读13分钟. 本文为大家介绍了针对非结构化数据如何加快聚合和 ...

最新文章

  1. 总结机器学习优质学习文章Top50!
  2. 倒序查10条数据_王者荣耀对抗路数据公布,尖端局吕布倒第一,夏洛特真的很意外...
  3. 河海大学839计算机技术基础,2017年河海大学计算机与信息学院839通信原理考研强化模拟题...
  4. Java注释 link_开源代码中注释中的那些a link p @ 是给什么编辑器用的????
  5. [导入]WCF后传系列(8):深度通道编程模型Part 1—设计篇
  6. 总结nodejs的优缺点
  7. Tricks(五)—— Python 返回所有符合条件的下标
  8. [No000094]SVN学习笔记4-版本库概念与部分日常操作
  9. AlphaGo的深度学习系统Tensorflow详细安装入门
  10. PHP图片合成(gd库)
  11. 计算机电子智能化贰级,电子与智能化工程专业承包资质分为一级、二级
  12. kodi树莓派_【树莓派】树莓派与XBMC及Kodi、LibreELEC插件(二)
  13. Java计算卡方值和P值
  14. 阿泰,水晶报表--push样式模板
  15. Linux单片机串口通信总结
  16. 华米 Amazfit 跃我 GTR 4和GTS 4的区别
  17. 铰链、弹簧,特殊的物理关节
  18. 如何将判决书上的文字提取出来
  19. 字符串拆分以及合并--Python
  20. 好用的CAD软件中如何绘制指北针?

热门文章

  1. 如何让系统抗住双十一的预约抢购活动?
  2. 2023年6月18日DAMA-CDGA/CDGP数据治理认证报名指南
  3. 新一线城市的机会来了,火爆程度出人意料
  4. 最新英国签证申请过程--2020.1
  5. Python三维图像的绘制以及相关图例添加(3D图像 - 图例)
  6. 文件的逻辑结构(1、顺序文件 2、索引文件 3、索引顺序文件)
  7. OJ_0606.SUM
  8. Android 端 2D 横屏动作冒险类闯关游戏【100010436】
  9. Android Camera简单整理(四)-Android Camera性能Debug经验
  10. Inno Setup 安装制作应用