结构化、半结构化和非结构化数据
一、结构化数据
结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:
id name age gender
1 Liu Yi 20 male
2 Chen Er 35 female
3 Zhang San 28 male
所以,结构化的数据的存储和排列是很有规律的,这对查询和修改等操作很有帮助。
但是,它的扩展性不好。比如,如果字段不固定,利用关系型数据库也是比较困难的,有人会说,需要的时候加个字段就可以了,这样的方法也不是不可以,但在实际运用中每次都进行反复的表结构变更是非常痛苦的,这也容易导致后台接口从数据库取数据出错。你也可以预先设定大量的预备字段,但这样的话,时间一长很容易弄不清除字段和数据的对应状态,即哪个字段保存有哪些数据。
二、半结构化数据
半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构。
半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。
常见的半结构数据有XML和JSON,对于对于两个XML文件,第一个可能有
A 13 female 第二个可能为: B male 从上面的例子中,属性的顺序是不重要的,不同的半结构化数据的属性的个数是不一定一样的。有些人说半结构化数据是以树或者图的数据结构存储的数据,怎么理解呢?上面的例子中,标签是树的根节点,和标签是子节点。通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。
三、非结构化数据
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。
非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。
四、应用场景
结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。
非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。
半结构化数据,包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。这些应用对于数据存储、数据备份、数据共享以及数据归档 等基本存储需求。
半结构化数据举例:比如简历就是半结构化数据
不像员工基本信息那样一致每个员工的简历大不相同。有的员工的简历很简单,比如只包括教育情况;有的员工的简历却很复杂,比如包括工作情况、婚姻情况、出入境情况、户口迁移情况、党籍情况、技术技能等等。还有可能有一些我们没有预料的信息。
半结构化数据的存储方式:
1、化解为结构化数据
这种方法通常是对现有的简历中的信息进行粗略的统计整理,总结出简历中信息所有的类别同时考虑系统真正关心的信息。对每一类别建立一个子表,比如上例中我们可以建立教育情况子表、工作情况子表、党籍情况子表等等,并在主表中加入一个备注字段,将其它系统不关心的信息和一开始没有考虑到的信息保存在备注中。
优点:查询统计比较方便。
缺点:不能适应数据的扩展,不能对扩展的信息进行检索,对项目设计阶段没有考虑到的同时又是系统关心的信息的存储不能很好的处理。
2、用XML格式来组织并保存到CLOB字段中
XML可能是最适合存储半结构化的数据了。将不同类别的信息保存在XML的不同的节点中就可以了。
优点:能够灵活的进行扩展,信息进行扩展式只要更改对应的DTD或者XSD就可以了。
缺点:查询效率比较低,要借助XPATH来完成查询统计,随着数据库对XML的支持的提升性能问题有望能够很好的解决。
结构化、半结构化和非结构化数据相关推荐
- 结构化数据(structured),半结构化数据(semi-structured),非结构化数据(unstructured)的定义和区别
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各 ...
- 非结构化数据的相关知识
一.出现原因 信息社会化时代,各行各业在处理相关业务的过程中,都累计了海量的数据信息,随着IT应用的普及和发展,传统的纸质资料存储方式在不断缩减,更多的采用电子信息的存储方式存放在计算机中.这些信息数 ...
- 结构化 VS 非结构化
如果说结构化信息更多的忠实.详实地记录了企业的生产交易活动,是显性的表示,那么 非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会. 非结构化数据 非结构化数据库是指其字段长度 ...
- 非结构化数据处理方案
非结构化数据&结构化处理方案 一. 非结构化数据处理需求 企业拥有的非结构化数据增长迅速.非结构化数据是计算机或人生成的信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列 ...
- 美国进入“非结构化”数据分析新时代
美国进入"非结构化"数据分析新时代 目前,对国内大部分企业级客户而言,大数据时代已经真正到来了. 虽然,近年来"大数据"及"数据分析" ...
- 非结构化数据定义、处理方法及重要性
一.非结构化数据定义 不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档. 文本.图片. 标准通用标记语言下的子集 XML. HTML.各类报表.图像和音频/视频信息等等. ...
- 并行编译和运行非结构化网格SWAN
并行编译和运行非结构化网格SWAN 为了使用非结构化网格版本的SWAN有效地执行高分辨率仿真,使用消息传递范例构建并行代码并在商用计算机集群上进行测试.在并行化SWAN的非结构化网格版本时,我们采用了 ...
- 非结构化数据更需中台,企业内容管理未来走向何方
人们常言,二十一世纪最有价值的商品就是数据.在数字化的大浪潮下,一切都离不开数据,数据成为各个行业最重要的生产要素.与石油需要提炼之后才能应用到各行各业一样,数据也必须通过加工.整理之后才能发挥价值. ...
- 选型宝访谈:当网盘既具备分享协作能力,又具备非结构化内容的管理能力,将会怎样?
前言 云时代,网盘已成为企业文件存储与分享协作的必备工具.然而,传统网盘功能相对单一,缺乏深度内容管理与业务连接能力,从而使其应用的深度和广度受到限制.今天,越来越多的IT管理者,希望能看到一种兼具文 ...
- 结构化网格与非结构化网格 学习记录
从总体上来说,数值仿真计算中采用的网格可以大致分为结构化网格和非结构化网格两大类. 一般数值计算中正交与非正交曲线坐标系中生成的网格都是结构化网格,其特点是每一节点与其邻点之间的连接关系固定不变且隐含 ...
最新文章
- 存储过程授权给子用户
- matlab while循环
- PHP 连接 MSSQL用port时候的注意事项
- MySQL聚簇索引:叶子保存主键或unique字段+data 非聚簇保存索引字段
- mysql 配置自动截断_MySql超长自动截断实例详解
- MDP蒙特卡罗方法(四)
- 【JVM】三色标记法与读写屏障
- strcpy vs memcpy
- mybatis-plus配置日志
- 11.30 iptables filter表案例 iptables nat表应用
- C语言一个数组中随机抽取5个数字
- mr图像翻转的原因_前置摄像头水平翻转问题
- 知钱俱乐部 php,知钱俱乐部
- Win10系统(无GPU)环境/Anacoda:Python小白如何从入门到成功运行YoloV3图片+视频demo
- 大数据技术之Hive------操作记录笔记
- zeroMQ支持PGM协议编译
- linux中audit服务,linux下的audit服务
- LeetCode数据库SQL题目记录(难度:简单)
- js添加多marker 高德地图_高德地图点聚合--Marker多点聚合及多个marker点击事件
- 在线抽签html,简易抽签程序(数字滚动 HTML + JavaScript)