如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动,是显性的表示,那么
非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。

非结构化数据

非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

目录

  1. 1 概述
  2. 2 云计算与非结构化数据

概述编辑

相对于 结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、 标准通用标记语言下的子集 XML、 HTML、各类报表、图像和音频/视频信息等等。
非结构化数据库是指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和 数据项的变长 存储管理,在处理连续信息(包括全文信息)和 非结构化信息(包括各种 多媒体信息)中有着传统关系型数据库所无法比拟的优势。
结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据
非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
所谓 半结构化数据,就是介于完全结构化数据(如关系型数据库、 面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
数据模型:
结构化数据:二维表(关系型)
半结构化数据:树、图
非结构化数据:无
RMDBS的数据模型有:如网状数据模型、 层次数据模型、关系型
其他:
结构化数据:先有结构、再有数据
半结构化数据:先有数据,再有结构
随着 网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。
我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的IBase数据库为代表。IBase数据库是一种面向最终用户的非结构化数据库,在处理 非结构化信息、全文信息、 多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和 全文检索方面获得突破。它主要有以下几个优点:
  1. Internet应用中,存在大量的复杂数据类型,iBase通过其外部文件数据类型,可以管理各种文档信息、多媒体信息,并且对于各种具有检索意义的文档信息资源,如HTML、DOC、RTF、TXT等还提供了强大的全文检索能力。
  2. 它采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化的或任意格式的字段,从而突破了关系数据库非常严格的表结构,使得非结构化数据得以存储和管理。
  3. iBase将非结构化和结构化数据都定义为资源,使得非结构数据库的基本元素就是资源本身,而数据库中的资源可以同时包含结构化和非结构化的信息。所以,非结构化数据库能够存储和管理各种各样的非结构化数据,实现了 数据库系统 数据管理到内容管理的转化。
  4. iBase采用了 面向对象的基石,将企业业务数据和 商业逻辑紧密结合在一起,特别适合于表达复杂的 数据对象和多媒体对象。
  5. iBase是适应Internet发展的需要而产生的数据库,它基于Web是一个广域网的海量数据库的思想,提供一个网上资源管理系统iBase Web,将 网络服务器(WebServer)和 数据库服务器(Database Server)直接集成为一个整体,使 数据库系统和数据库技术成为Web的一个重要有机组成部分,突破了数据库仅充当Web体系后台角色的局限,实现数据库和Web的有机无缝组合,从而为在Internet/Intranet上进行信息管理乃至开展电子商务应用开辟了更为广阔的领域。
  6. iBase全面兼容各种大中小型的数据库,对传统关系数据库,如Oracle、Sybase、SQLServer、DB2、Informix等提供导入和链接的支持能力。
通过从上面的分析后我们可以预言,随着 网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继 层次数据库、 网状数据库和关系数据库之后的又一重点、热点技术。

云计算与非结构化数据编辑

据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。非结构化数据,顾名思义,是存储在文件系统的信息,而不是数据库。据报道指出:平均只有1%-5%的数据是结构化的数据。如今,这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件,而不是因为处理它们却干扰日常的工作?当然你可以采购更多的就地存储设备,但这总会有局限性的。 云存储是越来越多的IT公司正在使用的存储技术。下面的分段解释了一些关于存储在云中的商业信息的关键要点。
   员工面临新挑战 数据如何被管理?
当企业参与到全球经济竞争中,IT员工面临着让分布在全球的员工能够有效访问重要数据的新挑战。全球分布的团队需要共享对大型的文件和数据集的读写访问,但这显然增加了 数据管理的复杂性。另外不断地采用 数据同步功能和精确度的问题都影响企业的工作效率。
云存储业务外包 降低成本是否可行?
随着基于云存储服务项目的增长,各种类型的企业都有能力将数据存储业务外包。利用这些外包服务,企业能大幅减少存储基础架构成本,在减少人工管理非结构化数据所需时间的同时增加了存储的灵活性,这在以前的企业中从未被使用过。另外,云服务也带来了巨大的经济效益。
云存储有多大 价格是否更合理?
大多数服务提供商对于云存储的定价都是根据实际使用了多少存储容量而决定的。支付多少钱就享用多少容量。因此不再需要存储架构师,也不再需要安装和管理存储设备。
如果你使用200TB的存储容量,你就只需支付200TB存储的这部分钱即可。如果你的公司突然需要在明天增加34TB的存储容量,你不需要增加任何存储设备,只需要在开账单的周期支付存储多增加出来的钱即可。如果其中一部分存储容量只是暂时性的话,你可以轻松地从云中删除不需要的数据,以减少使用的容量,并送交最终的账单。但本地的存储基础设施并没有这些功能。
数据中心安全第一 有害访问强制隔离
如果你曾配置过 数据中心,必须要保证物理安全。未经授权的人通过各种层级的物理安全获得数据的机会是几乎不可能的。检查存储供应商提供的服务,你会发现这些数据中心不仅是保障不能出现有害的物理访问,还在于保护通过任何自然和人为操作所产生的灾难
云存储网关发威 恶意访问皆退散
物理安全对于企业去阻止恶意访问来说是非常重要的。越来越多的厂商提供云存储网关(cloud storage gateway)应用,无论是在传输中还是在静止中都能够保证高级别的 数据安全。网关能够处理前端数据的存储进程。数据实际被存储在服务商提供的基础设施中,像是Rackspace、AT&T、i365、Amazon S3等等。
备份记录复杂昂贵云存储简单方便
随着备份和灾难恢复的处理和要求变得越来越复杂、昂贵以及耗费时间。 云存储服务能够大大地减少这种复杂性和成本。当在云中存储一个大数据集的时候,答案可以像复制数据到多重地理分布位置一样的简单。
单一技术非万能 分析思考更有效
像任何技术一样,根本不存一个万能的解决方案,云存储也是如此。仔细地检查当前的存储基础设施,创建数据的应用以及数据的用户。只有更仔细的分析,才能更加的清楚:基于云的存储通常完美适用于第二层级(Tier 2)的数据,以及那些需要在多个位置共享的数据。 [1]

结构化信息

编辑

结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过数据库进行管理,并有一定的操作规范。我们通常接触的,包括生产、业务、交易、客户信息等方面的记录都属于结构化信息。 无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等。这些资源中拥有大量的有价值的信息。现在这类非结构化信息正以成倍的速度增长。互联网上出现的海量信息,大概分为结构化、半结构化和非结构化三种。
中文名
结构化信息
性    质
数据库所管理的信息
特    征
互联网上出现的海量信息
优    点
拥有大量的有价值的信息

目录

  1. 1 定义
  2. 2 类型
  3. 3 特点
  4. 4 网页抽取
  5. 5 应用意义

定义编辑

结构化数据(Structured data)-可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。 [1]
对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。
结构化信息,我们通常接触的数据库所管理的信息,包括生产、业务、交易、客户信息等方面的记录。
非结构化信息,专业术语为内容,所涵盖的信息更为广泛,可分为:营运内容(operationalcontent):如合约、发票、书信与采购记录;部门内容(workgroupcontent):如文书处理、电子表格、简报档案与电子邮件;Web内容:如HTML与XML等格式的信息;多媒体内容(RichMediaContent):如声音、影片、图形等。

类型编辑

互连网上出现的海量信息,大概分为结构化、半结构化和非结构化三种。结构化信息如电子商务信息,信息的性质和量值的出现的位置是固定的;半结构化的信息如专业网站上的细分频道,其标题和正文的语法相当规范,关键词的范围相当局限;非结构化的信息如BLOG和BBS,所有内容都是不可预知的。结构化信息和非结构化信息是IT应用的两个世界,它们有着各自不同的应用进化特点和规律。但是,这两个世界之间还缺少相互连接的桥梁,而这种缺失使企业中不可避免地存在“活动”、“信息和知识”的分离,其后果就是:虽然它们都在进行着“知识化”的努力,但两个世界分离的IT应用模式,注定使其难以真正实现它们的初衷——“在最合适的时间,将最合适的信息传送给最合适的人”。

特点编辑

结构化信息标准促进组织( OASIS)
结构化信息社会的特点就是,全社会经济文化活动,将会在各种信息的有序互动中完成,信息是结构化的,是有序的,是可以互动的。以结构化的信息流为基础,构建结构化的 信息社会。那些正向成为结构化信息社会有序元素之一的企业,是具有竞争力的企业,会发挥极大的社会效率,企业也会取得成功,而那些不能成为结构化信息社会一份子的企业,则不可避免地将被淘汰。
为了使信息更有效、更有针对性、更便于被查找、更有秩序,“傻目录”全球首创的“坐标信息定位”体系,可以将地域大小和行业分类分别设定为信息坐标的两个主坐标轴,让有效的信息内容在首页或次页呈现给查询者面前。横坐标是地域大小、位置选择,范围大到国家、省、市、行政区,小至三公里社区、一公里社区,查询者将鼠标放置在每个地域上面,则会提示出下一级地域的推荐。 纵坐标则类似于Windows软件的资源管理器,呈现的是行业的目录,从最大的行业分类如生活服务、商业服务、消费品、工业品和原材料到最小的行业分类如生活类的美容美发、美体减肥等,使用起来极其便利。

网页抽取编辑

WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索

结构化信息数据库

引擎和通用搜索引擎最大的差别。

如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、 CPU、内存、硬盘、显示屏、……”
房产信息搜索那就应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话公司企业信息搜索那就应该抽取出:公司名称、地址、电话、联系人。
结构化信息抽取有两种方式可以实现,比较简单的是模板方式,还有一种是对网页不依赖的网页库级的结构化信息抽取方式。
模板方式是事先对特定的网页进行配置模板,抽取模板中设置好的需要的信息,可以针对有限个网站的信息进行精确的采集。
特点:简单、精确、技术难度低、方便快速部署。
缺点:需要针对每一个信息源的 网站模板进行单独的设定在信息源多样性的情况下维护量巨大是不可完成的维护量。所以这种方式适合少量信息源的信息处理,不是搜索引擎级的应用,很难满足用户对查全率的需求。
网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。
特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度,由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。
缺点:技术难度高,前期研发成本高,周期长。适合网页库级别结构化数据采集和搜索的高端应用。

应用意义编辑

如果说结构化信息更多的忠实、详实地记录了企业的生产交易活动,是显性的表示,那么

结构化信息

非结构化信息则隐性包含了掌握着企业命脉的关键,隐含着许多提高企业效益的机会。对于企业来说,企业内部,以及企业与供应商、客户、合作伙伴和员工数字化共享所有形式的数据资源,已越来越重要。90%的信息和知识在“结构化”世界之外,IT应用中还存在着一个“非结构化”的世界。对大多数企业来说,ERP等业务系统所管理的结构化数据只占到企业全部信息和知识的10%左右,其他的90%都是数据库难以存取到的非结构化信息和知识。来自IDC的分析显示,虽然很多企业投资不菲建立了诸多业务支撑系统,但仍有72%的管理者认为知识没有在他们的组织得到重复利用,88%的人认为他们没有接触到企业最佳实践的机会。Gartner也曾预言,对非结构化信息和知识的管理将会带来一个新IT应用潮流。

非结构化信息处理类似于20世纪70年代以前的结构化信息应用。割裂、无法进行数据互操作的应用是其主流。以人们最常用的文档软件来看,DOC文档是MSWORD的专用格式,WPS、永中、中文2000等OFFICE产品厂商则各有各的“自留地”。这种情况下,由于文档格式的束缚而使信息四分五裂,信息流无法通畅流转,信息处理更加困难,信息资源因为“信息流的不通畅”而丧失了其应有的巨大价值。
从非结构化到半结构化,从半结构化到结构化,从结构化到关联数据体系,从关联数据体系到数据挖掘,从数据挖掘到故事化呈现,从故事化呈现到决策导向。

结构化 VS 非结构化相关推荐

  1. html属于非结构化数据吗,什么是结构化数据非结构化数据和半结构化数据

    什么是结构化数据非结构化数据和半结构化数据以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 结构化数据也称为行数据,是由二 ...

  2. 关于结构化、半结构化、非结构化数据的理解

    记得在课上,老师说,结构化数据就是我们关系数据库里的表,剩下的都是半结构化和非结构化数据,好比XML文档就是半结构化数据,WORD文档就是非结构化数据,大数据就是半结构化和非结构化数据.心中一直有一个 ...

  3. 关于结构化,半结构化,非结构化数据的理解

    记得在课上,老师说,结构化数据就是我们关系数据库里的表,剩下的都是半结构化和非结构化数据,好比XML文档就是半结构化数据,WORD文档就是非结构化数据,大数据就是半结构化和非结构化数据.心中一直有一个 ...

  4. 结构化、非结构化和半结构化数据

    一直对结构化.非结构化和半结构化数据三个数据类型的概念有点模糊不清,今天特意花点时间网上查找了一番,继而,来此处进行一通总结. ** 结构化数据 ** 结构化数据可以使用关系型数据库来表示和存储,如M ...

  5. 非结构化数据 mysql_Apache Sqoop 结构化、非结构化数据转换工具

    简介: Apache Sqoop 是一种用于 Apache Hadoop 与关系型数据库之间结构化.非结构化数据转换的工具. 一.安装 MySQL.导入测试数据 2.导入测试数据 mysql > ...

  6. 结构化、非结构化和半结构化数据 数据清洗

    结构化数据 **  结构化数据可以使用关系型数据库来表示和存储,如MySQL.Oracle.SQL Server等,表现二维形式的数据.可以通过固有键值获取相应信息.一般特点是:数据以行为单位,一行数 ...

  7. bytebuf池_Netty默认的Bytebuf是堆内还是堆外?池化or非池化?

    开篇 Netty的ByteBuf有从不同角度有如下2个分类,4种组合! 堆外内存和堆内内存 池化和非池化 我们在利用Netty做底层通信框架的时候,会默认给我们的到底是哪一种组合了? 分析 池化分析 ...

  8. 如何理解结构化、非结构化和半结构化数据?

    计算机信息化系统中的数据分为结构化数据.非结构化数据和半结构化数据 1.结构化数据(Structured Data) 定义:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据 ...

  9. 【数据库系统】过程化和非过程化语言的相对优点

    非过程语言极大地简化了查询的规范(至少,它们旨在处理的查询类型). 用户无需担心如何评估查询:这不仅减少了编程工作量,而且实际上,在大多数情况下,查询优化器比通过反复试验的程序员能够更好地选择最佳的评 ...

最新文章

  1. linux中cat more less head tail 命令区别
  2. 技术 | Web前端开发(4)持续更新
  3. word文档无法连接服务器,sql数据库无法连接服务器解决办法绝对有效
  4. 计算机组成原理精品课程申报书,【计算机科学与技术专业】【毕业设计】计算机组成原理精品课程平台的设计与实现...
  5. 7.2 TensorFlow笔记(基础篇): 生成TFRecords文件
  6. CSS中的特殊的选择器
  7. 想要写好的程序应该远离计算机
  8. DJango 多条件查询结果分页
  9. 【AI面试题】Kmeams算法流程以及Kmeans++介绍
  10. 说说单节点集群里安装hive、3\5节点集群里安装hive的诡异区别(版本搭配)
  11. oracle 表查询(二)
  12. linux中文语音合成,Linux系统下高质量(微软)中、英文语音合成TTS的安装
  13. 云码之家4年来的微信引流营销推广之路
  14. 中望cad自定义快捷键命令_中望CAD快捷键全集
  15. 课设错误调试(一)No qualifying bean of type
  16. 经纬度与大地坐标相互转换
  17. js传递参数时类型错误
  18. VMware Esxi 下载地址
  19. Word排版过程中多个参考文献一起引用
  20. 格灵深瞳将登陆科创板募资18亿,AI天才未来能否走出巨亏困局?

热门文章

  1. CGB2105-Day09
  2. Shell系统学习之什么是Shell
  3. 【2021中国科创好公司】评选榜单重磅发布!常垒资本投资“威努特”和“捷配”入选!...
  4. NLP词向量和句向量方法总结及实现
  5. 使用 HammerDB 对 Citus 和 Postgres 进行 Benchmark,每分钟200万新订单处理测试(官方博客)...
  6. SAP ABAP性能优化 - 调优工具 SM50 | ST05 | SAT
  7. 数据结构--栈的基本概念与应用
  8. vscode设置中文字体
  9. ThreadPoolExecutor详解及线程池优化
  10. CS61A Lab 12