结构化数据和非结构化数据的分析
结构化数据和非结构化数据的分析
- 一. 什么是数据
- 二. 数据的分类
- 1. 按性质分为
- 2. 按表现形式分为
- 3. 按表现形式分为
- 三. 结构化数据和非结构化数据
- 1. 什么是结构化数据
- 2. 什么是非结构化数据
- 3. 结构化数据与非结构化数据有何区别
- 四. 非结构化数据为什么处理这么困难
- 五. 如何处理非结构化数据
一. 什么是数据
数据(data)是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
在宏观上,数据可以是对客观事件的记录和鉴别的符号,描述的是客观事件的性质、状态以及相互关系的转化等等。
在狭义中,数据被人们认为是数字,以及其他等等有意义的文字、字母以及符号的组合。
在计算机科学中 ,数据指的是所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。在计算机系统中,数据以二进制的形式0和1 的形式表示。
二. 数据的分类
1. 按性质分为
- 定位的,如各种坐标数据。
- 定性的,如表示事物属性的数据(居民地、河流、道路等)。
- 定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量。
- 定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。
2. 按表现形式分为
- 数字数据,如各种统计或量测数据。数字数据在某个区间内是离散的值。
- 模拟数据,由连续函数组成,是指在某个区间连续变化的物理量,又可以分为图形数据(如点、线、面)、符号数据、文字数据和图像数据等,如声音的大小和温度的变化等。
3. 按表现形式分为
地图、表格、影像、磁带、纸带。按数字化方式分为矢量数据、格网数据等。在地理信息系统中,数据的选择、类型、数量、采集方法、详细程度、可信度等,取决于系统应用目标、功能、结构和数据处理、管理与分析的要求。
三. 结构化数据和非结构化数据
结构化数据和非结构化数据是大数据的两种类型,这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构,而是基于使用它们的应用程序:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。
1. 什么是结构化数据
结构化数据是高度组织和整齐格式化的数据,是一种可以放入表格和电子表格中的数据类型。不仅仅人们更容易搜索和使用它,计算机也能够更加轻松的搜索它。
典型的结构化数据包括:信用卡号码、日期、财务金额、电话号码、地址、产品名称等。
2. 什么是非结构化数据
非结构化数据本质上是结构化数据之外的一切数据。非结构化数据不是那么容易组织或格式化的。收集,处理和分析非结构化数据也是一项重大挑战。非结构化数据与结构化数据是计算机信息化系统中的两种数据形式,非结构化数据是指那些结构不规则、不完整、没有预定义数据模型、不方便用二维逻辑表现的数据,常见形式为文档、文本、图片、音频、视频、报表、XML、HTML等。
典型的非结构化数据包括:
- 文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。
- 电子邮件:电子邮件由于其元数据而具有一些内部结构,我们有时将其称为半结构化。但是,消息字段是非结构化的,传统的分析工具无法解析它。
- 社交媒体:来自新浪微博、微信、QQ、Facebook,Twitter,LinkedIn等平台的数据。
- 网站: YouTube,Instagram,照片共享网站。
- 移动数据:短信、位置等。
- 通讯:聊天、即时消息、电话录音、协作软件等。
- 媒体:MP3、数码照片、音频文件、视频文件。
- 业务应用程序:MS Office文档、生产力应用程序。
- 卫星图像:天气数据、地形、军事活动。
- 科学数据:石油和天然气勘探、空间勘探、地震图像、大气数据。
- 数字监控:监控照片和视频。
- 传感器数据:交通、天气、海洋传感器.
3. 结构化数据与非结构化数据有何区别
除了存储在关系数据库和存储非关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。
四. 非结构化数据为什么处理这么困难
非结构化数据作为与结构化数据相对的一种数据,存在数据本身与预定义数据模型不匹配,用数据库的二维逻辑难以表述的现象。换而言之,即这种数据存在结构是不规则或者不完整的。然而非结构数据也是公众日常生活中接触最多的数据类型,比如办公文档、文本、报表、图像、音频、视频信息等等都是非结构数据。随着人们的日常生活以及工作中对于非结构数据的运用日趋频繁,接触愈发紧密,对非结构化大数据存储也提出了更高的要求。只有能保证数据存储的稳定了,才能够让公众对于大数据的创建以及应用加工提供保障。特别是云存储技术的发展,进一步让公众摆脱了原先存储硬件不足的束缚,为非机构大数据的存储开辟了更广阔的空间[1]。非结构化数据管理之所以困难,不仅因为其数量多、分散性高,还在于用户对非结构化数据在数据、内容、信息和知识层面有着多层次的需求。
五. 如何处理非结构化数据
非结构化数据管理需要革新的底层数据架构,而非结构化数据中台可以满足这一需求。非结构化数据中台对对象数据、元数据、索引数据进行汇集、管理,融合人工智能技术,提供先进的数据架构底座,进而通过非结构化数据赋能各行各业应用[2]。由此可见,对于企业来说,非结构化数据的管理系统是需要花费大力气来开发的,但是面对巨大的代价,企业们还是争先恐后的研发,可见非结构化数据可以给企业带来巨大的利益。
对于非结构化的大数据,我们也可以使用区块链来处理。当前大数据交互的不透明性以及数据文件访问形式的不合理性,导致大数据存储存在存储延时长、安全性较差的问题,为此提出基于区块链的非结构化大数据动态安全存储技术。构建多用户规则调度模型,利用存储数据包生成独立的行向量与n阶矩阵,基于列不满秩概率完成存储算法设计;采用区块链非对称加密技术的公私钥,实现透明与完整的数据交互,对次要信息与数据访问形式实施记录。引入分布式文件系统,将其与Mongo DB非关系型数据库有效结合,从而使非结构化大数据得到安全存储[3]。
参考文章与文献:
结构化数据与非结构化数据有什么区别? - 知乎
什么叫数据? - 常见问题 - PHP中文网
非结构化数据怎么管理? - 知乎
[1]雷振江.非结构化大数据云存储稳定性优化评定——评《大数据技术原理与应用》[J].现代雷达,2021,43(02):100.
[2]钟美华.基于非结构化数据管理平台研究与建设[J].中国新通信,2020,22(23):57-58.
[3]段平.基于区块链的非结构化大数据动态安全存储[J].吉林大学学报(信息科学版),2020,38(05):595-600.
结构化数据和非结构化数据的分析相关推荐
- Spark(六):SparkSQLAndDataFrames对结构化数据集与非结构化数据的处理
为什么80%的码农都做不了架构师?>>> 一:简单了解SparkSQL. Spark SQL 是结构化的数据处理一个Spark模块.与基本的Spark RDD API不同,Sp ...
- 结构化数据与非结构化数据
结构化数据和非结构化数据是大数据的两种类型,关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据 结构化数据:高度组织和整齐格式化的数据.它是可以放入表格和电子表格中的数据类型. 能够用 ...
- 结构化数据和非结构化数据的提取【Python篇】
结构化数据和非结构化数据的提取[Python篇] 总结一下Pyhon提供的可以提取结构化数据以及非结构化数据的主流库. 1.常见数据的分类: 依据响应分类(附带对应的常用的解析方法~): 结构化数据: ...
- 【数据库】结构化数据、非结构化数据、半结构化数据的区别
林中鹿 结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值 ...
- 结构化数据和半结构化数据和非结构化数据
计算机信息化系统中的数据分为结构化数据和非结构化数据和半结构化数据. 结构化数据 结构化数据,是指由二维表结构来表达逻辑和实现的数据,严格的遵循数据格式与长度规范,主要通过关系型数据库进行管理和存储. ...
- 技术20期:结构化数据与非结构化数据:有什么区别?
查看结构化和非结构化数据.它们的主要区别以及哪种形式最能满足您的业务需求. 并非所有数据都是平等的.有些数据是结构化的,但大部分是非结构化的.结构化和非结构化数据以不同的方式获取.收集和扩展,并且每一 ...
- 结构化数据和非结构化数据、半结构化数据的区别-归纳总结整理
今天来讨论一下什么是结构化数据? 什么是非结构化数据? 半结构化数据?以及三者之间的区别 计算机信息化系统中的数据分为结构化数据和非结构化数据.半结构化数据. 结构化数据 结构化数据,是指由二维表结 ...
- 结构化数据和非结构化数据的区别
结构化数据:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理. (什么是关系型数据库:关系型数据库,是指采用了关系模型来组 ...
- 结构化数据与非结构化数据的区别(转载)
在信息社会,信息可以划分为两大类.一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字.符号:而另一类信息无法用数字或统一的结构表示,如文本.图像.声音.网页等,我们称之为非结构化数据 ...
最新文章
- SharePoint 2013 跨网站集发布功能简介
- springmvc+log4j操作日志记录,详细配置
- 中国程序员如何升职加薪,也许我们该学学印度人
- openvswitch2.8.1 centos7.4 源码编译安装
- HA高可用完全分布式集群 HDFS搭建
- 安装mysql准备执行页面_mysql 安装
- 分组显示的ListView分页加载数据
- oracle唯一索引能删除吗,Oracle:ora-02429:无法用于删除强制唯一/主键的索引 解决...
- matlab 类型转换(类型判断)
- Dotween常用方法详解
- oracle临时表空间追加文件,Oracle临时表空间查看、添加临时表空间数据文件、修改默认临时表空间 方法!...
- 如何做好抖音?做抖音必学的上热门技巧
- PS:PS将彩色相片变成纯黑白色
- CorelDraw手表实例实操作让你全面了解技术的综合应用
- 从卡牌类游戏初探游戏服务器
- Vmware虚拟机文件介绍、克隆及文件名称更改方法
- 国家对应下拉列表 相应的 js特效
- 程序员接私活平台汇总,有技术就有钱!
- Java手写dubbo框架
- ASTER: An Attentional Scene Text Recognizer