一.出现原因

信息社会化时代,各行各业在处理相关业务的过程中,都累计了海量的数据信息,随着IT应用的普及和发展,传统的纸质资料存储方式在不断缩减,更多的采用电子信息的存储方式存放在计算机中。这些信息数据常被分为两类:结构化数据和非结构化数据。结构化数据即行数据,可以用二维表结构来逻辑表达:而非结构化数据,类似于文本、办公文档、各类报表、图片、图像、音频/视频等等,格式多样的特点使得非结构化数据不方便使用二维表结构来实现数据的表达。
在不断爆炸式增长的的互联网数据中,非结构化数据的增长格外明显。网络用户在浏览信息的同时,产生了海量的形形色色的新数据,在这些数据中,像文档、图片、音乐、视频这一类结构不固定的数据占比非常大。

云环境下的数据存储技术通常分为两类:关系数据库技术和分布式存储技术。关系数据库经过将近50年的发展,技术已相对成熟,被广泛应用于各行各业。关系数据技术具有高可靠性、事务一致性、读写实时性以及支持复杂的SQL查询和多表连接查询等特性,但是,关系数据库的表结构固定,字段长度有限,不适合存储诸如XML、Word等非结构化数据。而分布式存储技术强调海量数据存储、高性能数据并发读写、高可用性、强伸缩性等特点,不存在像传统关系型数据库中的关联事物处理,能够很好地支持非结构化数据的存储,满足高并发读写需求,具有很好的扩展性。

二.定义

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

三.非结构化数据的特点

1.存储方式不统一。通常情况下,用户各自管理自己的非结构化数据,包括结构化的数据管理、FTP以及传统的纸质资料管理等多种方式;

2.非结构化数据格式多样化,如Word、Excel、PDF、JPEG图等等;

3.业务流程多样,非结构数据处理涉及的流程主要有上传下载、打印扫描、系统内部流传等;

4.非结构化数据难以标准化,相对结构化数据,也更难理解,所以在存储、检索、发布以及利用上需要更加智能的IT技术,比如内容保护、知识挖掘、智能检索、海量存储等;

5.非结构化数据遍布于异构系统中,信息量非常大,尤其是多媒体数据,从信息整合的角度分析,信息需要集成。

四.主要的存储方法

1.文件系统存储方式:

文件系统存储方式通过文件系统直接把数据存储在文件服务器中。数据资源以文件的形式存放在计算机的特定目录下,仅仅通过人工对文件夹进行简单的分类,所以数据的存储通常是无序的。需要访问数据时,应用程序直接通过文件存储路径读取文件。早启的计算机对数据存储要求简单,文件系统可以满足数据的管理要求。随着计算机技术的发展,计算机的应用领域扩展,数据不仅类型变的多样,数据量也迅速积累、增长,文件系统提供的数据存储能力已经无法满足应用的需求。文件系统存储方式无法更好的解决根据属性对数据进行索引、查找、排序的问题,通常需要程序进行定制。

2.数据库存储方式:

关系数据库自出现以来,功能不断发展。目前大多数应用系统中的非结构化数据都是以二进制的格式存储在关系型数据库的BLOB字段中。用户直接向数据库发送请求进行数据操作。但是存储在BLOB字段中有一些缺点:一是非结构化数据文件大,随着数据量的不断增大,会导致关系型数据库存储量迅速膨胀,影响数据库性能,进而使得整个应用系统的性能下降;二是各应用系统之间相对封闭和独立,其他应用无法共
享相关文档资料。关系型数据库是针对结构化数据的处理而产生的,无法很好地满足现在网络环境下对于非结构化数据的处理要求,例如
数据的全文检索就显得力不从心。多媒体数据包含多种信息类型,数据格式的特殊性带来了数据存储结构和存取处理的差别。多媒体数据库随需要应运而生。多媒体数据库结合了数据库技术和多媒体技术,继承了传统关系数据库的优点,其作为一种全新的数据系统,可有效实现多媒体数据的存储检索。非结构化数据库是基于网络应用的新型数据库,作为结构化数据库的补充,可以表达复杂的嵌套,支持更多的数据类型。关系数据库限制了数据长度且改写不方便,而非结构化数据库支持重复字段,变长记录可由若干重复的字段组成,每个字段又可由若干可重复的子字段组成。非结构化数据库概括而言,就是字段数和字段长度可变的数据库,在处理非结构化信息方面有着传统关系型数据库无法与之相比的优势。

3.数据库与文件系统结合的存储方式:

数据库与文件系统相结合的模式是将非结构化数据以文件的形式存放在计算机中,数据文件的存储路径存放在数据库
中。此种方式下非结构化数据源文件存放在的文件系统中,便于数据的浏览、传递和更改。而非结构化数据文件的属性则采用数据库中的数据表字段进行表述,方便数据的检索、分类、查找,有序地存储了数据文件。内容管理系统便是数据库与文件
系统相结合模式的典型应用。内容的含义比数据更为广泛,“内容”强调对象,可以是任何结构的数据类型,不仅包含了结构化数据、非结构化信息,还涉及到知识。可以说,内容是一个比数据、文档和信息更加全面的概念,是对所有结构化数据、非结构化数据及信息的聚合。内容管理侧重于管理半结构化和非结构化数据。在研究数据存储方式的基础上,内容管理还致力于对象的处理过程,例如收集、存储、检索、分析、更新、传递等,以便将内容能够及时准确的传递到正确的地点和用户。内容管理是数据管理新的发展方向。非结构化数据存储技术与数据库的发展密切相关,更与文件系统及其存储技术的的发展密不可分。设计无限大的存储空间、无限制的I/O带宽和更高的性价比的理想存储系统是缓
解存储压力的总体目标。云存储技术发展结合各种存储技术应用的特点,在吞吐量、冗余、容错、读写分布、数据划分、负载均衡等特性方面进行技术提升,并综合多种存储技术适应复杂的不同种类的数据存储需求。

参考资料:

胡珊珊. 面向云存储的非结构化数据存储研究与应用[D].广东工业大学,2014.

王存宇,李珂,许锦才,王翔.面向云存储的非结构化数据存储研究[J].计算机时代,2015(05):13-15+18.

非结构化数据的相关知识相关推荐

  1. MaxCompute(ODPS)上处理非结构化数据的Best Practice

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 随着MaxCompute(ODPS)2.0的上线,新增的非结构化数据处理框架也推出一系列的介绍文章,包括 MaxCom ...

  2. 【作业】非结构化数据相关知识整理

    文章目录 1.非结构化数据是什么 2.非结构化数据处理困难的原因 3.处理非结构化数据的方法 1.非结构化数据是什么 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑 ...

  3. 知识抽取学习笔记:面向非结构化数据的抽取

    1概念 知识抽取,即从不同来源.不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱.大体的任务分类与对应技术如下图所示: 2知识抽取的技术与难点 从结构化数据库中获取知识:D2R 难点 ...

  4. Azure 数据基础知识探究核心数据概念-半结构化数据和非结构化数据

    描述非关系数据的类型 非关系数据通常分为两类:半结构化和非结构化. 什么是半结构化数据? 半结构化数据是包含字段的数据. 每个实体中的字段不必相同. 只需基于每个实体依据来定义字段. 上一单元中介绍的 ...

  5. 我被“非结构化数据包围了”,请求支援!

    阿里妹导读:非结构化数据的内容占据了当前数据海洋的80%.换句话来说,就是我们都被"非结构化数据"包围了.由于非结构化数据的信息量和信息的重要程度很难被界定,因此对非结构化数据的使 ...

  6. DAMA数据治理与数据质量--非结构化数据的数据质量管理

    本文根据汪广盛先生在[DQMIS 2020第四届数据质量管理国际峰会]现场演讲内容整理而成. 图1.1 DAMA(国际数据管理协会)中国区主席  汪广盛 演讲嘉宾介绍 -- 汪广盛 国际数据管理协会( ...

  7. 技术20期:结构化数据与非结构化数据:有什么区别?

    查看结构化和非结构化数据.它们的主要区别以及哪种形式最能满足您的业务需求. 并非所有数据都是平等的.有些数据是结构化的,但大部分是非结构化的.结构化和非结构化数据以不同的方式获取.收集和扩展,并且每一 ...

  8. 结构化数据和非结构化数据的区别

    结构化数据:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理. (什么是关系型数据库:关系型数据库,是指采用了关系模型来组 ...

  9. 非结构化数据治理方案

    随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位.日常的业务过程中,需要处理的大量电子文档.图片.音频.视频等,都属于内容数据范畴. 例如,某银行的无人营业网点的远程业务办理中, ...

最新文章

  1. 图表对比详解:亚马逊、微软和谷歌云的机器学习即服务哪家强
  2. Android Wi-Fi子系统学习笔记
  3. 【CodeVS1080】线段树练习
  4. 微信小程序 wx.request异步网络请求
  5. VTK:可视化算法之TubesWithVaryingRadiusAndColors
  6. vue中img标签onerror事件
  7. 运行第一个docker容器
  8. 构造代码块、静态代码块、构造方法的执行顺序
  9. cpu使用率_漫话性能:CPU使用率
  10. php 事件调度,PHP单元测试调度事件
  11. 若依集成ip2region实现离线IP地址定位
  12. 十分钟带你理解Kubernetes核心概念
  13. python cursor函数_执行从python返回cursor的db2plsql函数
  14. node.js历史版本下载安装
  15. 2019年博客之星评选活动之晋级TOP20博主名单
  16. ks检验与s-w 检验_数据分析基础(2)——正态分布检验
  17. Python 自然语言处理笔记(五)——信息检索系统,基于Lucene实现
  18. Python之selenium进阶
  19. 2017年-2018年成长计划
  20. PHP使用ffmpeg压缩视频

热门文章

  1. 《保卫萝卜》项目实践(2)
  2. ROG Phone 6什么时候发布 ROG Phone 6配置如何
  3. ms word 的激活
  4. 读取NTFS的USN(快速检索文件)
  5. Photoshop 无法安装Tych Panel,提示:could not create folder Run Photoshop as administrator or create the ...
  6. 娱乐圈明星集体考编?靳东官宣煤矿文工团副团长,张艺兴关晓彤苏青加入国家话剧院
  7. 一只喵的西行记-4 蛋蛋的忧桑
  8. Flask外部访问服务器最简单的操作
  9. 美苏太空竞赛历年卫星火箭发射以及历史事件介绍
  10. Arnold材质节点篇-摄像机