实现数据开放共享的方法
目 录
第1章 概要.. 3
第2章 信息孤岛的根源在于关系数据库理论有问题.. 4
2.1 当前的信息孤岛为什么是不治之症.. 4
2.2 关系数据库理论是以服务器为中心的孤岛型理论.. 5
2.3 当前的信息系统软件开发模式的特点.. 6
2.4 从技术上分析关系数据库理论所存在的问题.. 7
2.5 关系数据库理论是单机时代的产物,不适应互联网时代.. 8
第3章 利用万能数据结构表实现数据开放共享.. 10
3.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化.. 10
3.2 数据结构的标准化:万能数据结构.. 11
第4章 两种完全不同的软件设计模式的对比.. 15
4.1 万能数据结构表是一门全新的数据库理论.. 15
4.2 数据的标准化、数据的完整性.. 15
4.3 独立数据库与关系数据库理论的对比.. 19
第5章 独立数据库简介.. 21
5.1 独立数据库的技术特点:是一种数据优化、查询技术.. 22
5.2 如何证明“万能数据结构表”是万能的.. 24
5.3 独立数据库的一项重要任务就是根除关系.. 28
第1章 概要
当前设计各种信息系统的特点:数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的,这犹如全国各地都是分别设计自己的火车,各地的火车钢轨都是不相同的。
当前的实现数据开放共享、互联互通的方法可称作是“换车轮模式”。
本文实现数据开放共享的方法所采有的模式可称作是“标准化模式”。“标准化模式”是以“独立数据库”为基础而设计的。“独立数据库”是一种与关系数据库理论完全不同的全新的数据库理论。
第2章 信息孤岛的根源在于关系数据库理论有问题
在信息化领域,关系数据库独占鳌头!当前的大部分信息系统都是以关系数据库为基础。本文之所以要介绍独立数据库,是因为以关系数据库理论为基础而设计的信息系统都不能有效地实现数据的开放共享、互联互通。
在介绍独立数据之前,非常有必要研究清楚以关系数据库为基础的信息系统为什么都是孤岛型的系统。也可以为什么只有抛弃关系数据库理论才能从根本上解决信息孤岛问题。
2.1 当前的信息孤岛为什么是不治之症
通过下面的分析、计算就会发现当前的信息孤岛是不治之症。这是由当前的信息孤岛的实际情况及解决信息孤岛的方式所决定的。
2.2 关系数据库理论是以服务器为中心的孤岛型理论
互联互通的信息系统没有中心:“我要处理我的数据,还要处理你的数据和他的数据,你要处理你的数据,也要处理我的数据和他的数据,你我他之间的数据要互联互通。”
2.3 当前的信息系统软件开发模式的特点
2.4 从技术上分析关系数据库理论所存在的问题
下面的两张表中的数据对关系数据库而言是合格的,然而这两张表中的数据是普通人难以看懂的:
ID |
XM |
XB |
NL |
TZ |
SG |
1 |
张三 |
男 |
56 |
72 |
180 |
表4:关系数据库中的表
ID |
XM |
XB |
ZYF |
XYF |
QTFY |
2146 |
张三 |
男 |
56 |
72 |
180 |
上面两表中的数据的实际含义如下:
表5:表2的实际内容
ID |
姓名 |
性别 |
所龄 |
体重 |
身高 |
1 |
张三 |
男 |
56 |
72 |
180 |
表6:表3的实际内容
ID |
姓名 |
性别 |
中药费 |
西药费 |
其它费用 |
2146 |
张三 |
男 |
56 |
72 |
180 |
下表是用发明专利技术万能数据结构表“事物信息表”而设计的表,该表中的数据无论是谁,只要懂汉语,就可以看懂表中内容:
事物信息表存贮数据的例子
ID |
事物代号 |
事物属性 |
事物属性值 |
超长属性值 |
单位 |
附件 |
时间 |
|
100 |
280 |
事物分类 |
体育管理系统 |
2014.3.2 |
||||
101 |
280 |
事物分类 |
教练信息 |
|
|
|
2014.3.2 |
|
102 |
280 |
事物分类 |
教练基本情况 |
|
|
|
2014.3.2 |
|
103 |
280 |
身份证号 |
XXXXXXXXXX |
2014.3.2 |
||||
105 |
280 |
姓名 |
张三 |
|
|
|
2014.3.2 |
|
106 |
280 |
性别 |
男 |
|
|
|
2014.3.2 |
|
107 |
280 |
年龄 |
56 |
|
|
|
2014.3.2 |
|
108 |
280 |
体重 |
72 |
KG |
2014.3.2 |
|||
109 |
280 |
身高 |
180 |
|
CM |
|
2014.3.2 |
|
1100 |
1280 |
事物分类 |
病历 |
2014.5.3 |
||||
1101 |
1280 |
事物分类 |
住院病历 |
|
|
|
2014.5.3 |
|
1102 |
1280 |
事物分类 |
医疗费用 |
|
|
|
2014.5.3 |
|
1103 |
1280 |
身份证号 |
XXXXXXXXXX |
2014.5.3 |
||||
1104 |
1280 |
住院号 |
XXXXXXXXXX |
2014.5.3 |
||||
1105 |
1280 |
姓名 |
张三 |
|
|
|
2014.5.3 |
|
1106 |
1280 |
性别 |
男 |
|
|
|
2014.5.3 |
|
1107 |
1280 |
中药费 |
56 |
|
元 |
|
2014.5.3 |
|
1108 |
1280 |
西药费 |
72 |
元 |
2014.5.3 |
|||
1109 |
1280 |
其它费用 |
180 |
|
元 |
|
2014.5.3 |
关系数据库中的数据与数据结构密不可分。关系数据库中的每一个数据都是有数据结构的,一旦失去相应的数据结构,就成了无意义的数据。
关系数据库中的数据与应用程序密不可分。目前的信息系统都是通过应用程序来解读关系数据库中的数据,然而每个应用程序只能解读自己的系统中的数据而无法解读其它系统中的数据。关系数据库中的数据不具独立性、完整性,数据一旦脱离相应的数据库系统及相应的应用程序就变成了无意义的数据。
2.5 关系数据库理论是单机时代的产物,不适应互联网时代
信息孤岛问题是IT领域的一个非常严重的问题。人们在20年前就注意到了信息孤岛问题,并开始寻找解决信息孤岛问题的方法,然而20多年过去了,全世界无数的非常聪明的IT人士想尽了各种方法,例如BI、EAI、EDI、ETL、ESB,然而当前的众多事实表明,信息孤岛问题不但没有从根本上加以解决,反而越来越严重。
人们为什么无法根除信息孤岛问题呢?产生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联网产生之前的单机时代创立的。关系数据库理论于1970年6月由IBM公司的埃德加考特(Edgar Frank Codd)创立。ORACLE诞生于1979年。互联网诞生于1973年至1984年之间。1984年,美国国防部将TCP/IP作为计算机网络的标准。
关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。”
在单机时代、局域网时代,关系数据库在处理结构化数据方面发挥出了巨大的作用。然而,随着互联网时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。为了解决信息孤岛问题,人们发明了BI、EAI、EDI、ETL、ESB等等很多方法。随着IT技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而20多年来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!
第3章 利用万能数据结构表实现数据开放共享
本文解决信息孤岛实现数据开放共享的方法非常简单,犹如火车通过钢轨的标准化而实现了铁路交通的互联互通,万能数据结构表就是信息系统的标准的钢轨。
3.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化
火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。机械零部件的互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。如果说全国各地的钢轨各不相同,那么无论采用什么样的换车轮的方法,都不可能从根本上解决铁路交通的孤岛问题。这个道理大家都能理解。奇怪的是在IT领域,人们到目前为止还是采用“换车轮的模式”来解决信息孤岛问题。
IT行业的软件工程师几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。
铁路交通以“钢轨的标准化”而从根本上避免了“铁路交通孤岛”问题的产生。如果各种信息系统的数据及数据结构也采用标准化的数据和数据结构,那么,也可以从根本上实现各种信息系统之间的互联互通!然而利用关系数据库技术,不可能使数据结构标准化、统一化。本文中的“事物信息表”可存贮各种各样的结构化数据,可以成为标准的数据结构表。
关系数据库理论存在致命缺陷的一个重要原因在于“由设计人员自己随意定义数据结构”,其结果就产生了大数据时代的“数据类型多”的大问题。为了从根本上解决“数据类型多”的问题,利用本文的方法在设计信息系统时,不充许数据库的设计人员随意地定义数据结构,为了使数据可以互联互通,存贮任何数据都必须采用统一的、标准的、固定的数据结构表“万能数据结构表”来存贮。本文之所以自始至终强调“只用一张表或若干张结构完全一样的事物信息表存贮数据、数据的完整性”,目的就是让数据可以在不同的信息系统之间互联互通”。
3.2 数据结构的标准化:万能数据结构
下面的表1是“事物信息表”,“事物信息表”是万能数据结构表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。表1只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。若用关系数据库理论中的方法来存贮这些数据就需要8张结构各不相同的表。
表1:事物信息表只用一张即可存贮各种各样的结构化数据
ID |
事物代号 |
事物特征 |
事物特征值 |
超长特征值 |
单位 |
附件 |
时间 |
65 |
2367 |
事物分类 |
动物管理系统 |
||||
66 |
2367 |
事物分类 |
企鹅 |
||||
67 |
2367 |
事物分类 |
帝企鹅 |
||||
68 |
2367 |
事物分类 |
动物档案 |
||||
69 |
2367 |
动物编号 |
3 |
||||
70 |
2367 |
名字 |
汉武帝 |
||||
81 |
2367 |
动物简介 |
帝企鹅(学名:Aptenodytes forsteri):也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在90厘米以上,最大可达到120厘米,体重可达50千克。其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最深。全身色泽协调。颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。 |
||||
71 |
2367 |
购入日期 |
2013/3/21 |
||||
72 |
2367 |
身高 |
1.2 |
m |
|||
73 |
2367 |
体重 |
20 |
kg |
|||
74 |
2367 |
出生日期 |
2011/4/2 |
||||
75 |
2367 |
照片 |
JPG |
||||
76 |
2367 |
笼舍编号 |
98 |
||||
77 |
2367 |
管理员 |
张三 |
||||
78 |
2367 |
父 |
1 |
||||
79 |
2367 |
母 |
2 |
||||
80 |
2367 |
性别 |
雄 |
||||
2 |
128 |
事物分类 |
销售订单表 |
||||
3 |
128 |
订单ID |
10248 |
||||
4 |
128 |
客户名称 |
山泰企业 |
||||
5 |
128 |
销售负责人 |
赵军 |
||||
6 |
128 |
订购日期 |
1996/7/4 |
||||
7 |
128 |
到货日期 |
1996/8/1 |
||||
8 |
128 |
发货日期 |
1996/7/16 |
||||
9 |
128 |
运货商 |
联邦货运 |
||||
10 |
128 |
运货费 |
32.38 |
元 |
|||
11 |
128 |
货主名称 |
余小姐 |
||||
12 |
128 |
货主地址 |
光明北路12号 |
||||
14 |
9813 |
事物分类 |
产品销售系统 |
||||
15 |
9813 |
事物分类 |
销售订单明细表 |
||||
16 |
9813 |
订单ID |
10248 |
||||
17 |
9813 |
产品名称 |
猪肉 |
||||
18 |
9813 |
单位 |
14 |
元 |
|||
19 |
9813 |
数量 |
12 |
Kg |
|||
20 |
9813 |
折扣 |
0 |
% |
|||
37 |
28 |
事物分类 |
住院病历 |
||||
38 |
28 |
事物分类 |
患者基本情况 |
||||
39 |
28 |
病案号 |
199109-2-215 |
||||
40 |
28 |
身份证号 |
XXXXXXXXXXXX |
||||
41 |
28 |
姓名 |
徐XX |
||||
42 |
28 |
工作单位 |
石化总厂 |
||||
43 |
28 |
职务 |
机械工 |
||||
44 |
28 |
地址 |
上海市南京路 |
||||
45 |
28 |
年龄 |
43 |
||||
46 |
28 |
入院日期 |
1991/8/19 |
||||
47 |
28 |
婚否 |
已婚 |
||||
48 |
28 |
病史采取日期 |
1991/8/19 |
||||
49 |
28 |
籍贯 |
浙江省宁波市 |
||||
50 |
28 |
病史记录日期 |
1991/8/19 |
||||
51 |
28 |
民族 |
汉 |
||||
52 |
28 |
病情陈述者 |
患者本人 |
||||
54 |
29 |
事物分类 |
住院病历 |
||||
55 |
29 |
事物分类 |
现病历 |
||||
56 |
29 |
事物分类 |
症状 |
||||
57 |
29 |
病案号 |
199108-2-215 |
||||
58 |
29 |
身份证号 |
XXXXXXXXXXX |
||||
59 |
29 |
姓名 |
张三丰 |
||||
60 |
29 |
症状 |
寒战 |
||||
61 |
29 |
症状 |
腹泻 |
||||
62 |
29 |
诱因 |
洗澡时着凉 |
||||
63 |
29 |
症状开始时间 |
1991/8/16 |
||||
82 |
280 |
事物分类 |
人事管理系统 |
||||
83 |
280 |
事物分类 |
员工身高体重 |
||||
84 |
280 |
姓名 |
张三 |
||||
85 |
280 |
性别 |
男 |
||||
86 |
280 |
年龄 |
56 |
岁 |
|||
87 |
280 |
体重 |
72 |
KG |
|||
88 |
280 |
身高 |
180 |
CM |
|||
89 |
280 |
身份证号 |
410305XXXXX |
||||
91 |
9753 |
事物分类 |
通信录 |
||||
92 |
9753 |
姓名 |
张三 |
||||
93 |
9753 |
手机 |
1366086XXXX |
||||
94 |
9753 |
单位 |
广州软件公司 |
||||
95 |
9753 |
|
6667567XXX |
||||
96 |
9753 |
邮件 |
6668@QQ.COM |
||||
97 |
9753 |
地址 |
广州大道2号 |
||||
98 |
9753 |
照片 |
JPG |
||||
100 |
1280 |
事物分类 |
住院病历 |
||||
101 |
1280 |
事物分类 |
医疗费用 |
||||
102 |
1280 |
身份证号 |
XXXXXXXXXX |
||||
103 |
1280 |
住院号 |
XXXXXXXXXX |
||||
104 |
1280 |
姓名 |
张三 |
||||
105 |
1280 |
性别 |
男 |
||||
106 |
1280 |
中药费 |
56 |
元 |
|||
107 |
1280 |
西药费 |
72 |
元 |
|||
108 |
1280 |
其它费用 |
180 |
元 |
|||
109 |
1280 |
事物分类 |
住院病历 |
||||
对于关系数据库领域的技术人员而言,随机地挑选100个信息系统,这100个信息系统中的数据的结构肯定是各不相同的,肯定不可能做到使这100个信息系统中的所有数据的数据结构都是相同的。然而万能数据结构表可以做到“只要一张表(如上面的表1所示)就可以存贮各种各样的结构化数据”,利用万能数据结构表而设计的各种各样的信息系统的所有数据的数据结构都是相同的。因为万能数据结构表是一种“通用表”,可以只用一张“事物信息表”即可存贮各种各样的结构化数据。
第4章 两种完全不同的软件设计模式的对比
4.1 万能数据结构表是一门全新的数据库理论
万能数据结构表不仅仅是一种表,其实是一门全新的数据库理论,可称作是独立数据库理论。之所以称作是独立数据库是为了与关系数据库相区别。关系数据库中的数据是依靠与关系数据库的关系、与表结构的关系、与应用程序的关系、与其它表的关系才能表达出相应的含义。独立数据库中的数据则要求其中的数据必须独立地、完整地表达出相应的含义,与数据库、与应用程序、与其它没有任何关系。
独立数据库与关系数据库理论的最大区别主要有两点:1、独立数据库全部采用万能数据结构表这一种数据结构表存贮数据,因此所有数据的数据结构都是相同的;2、独立数据库要求数据必须满足“数据的完整性”。
利用独立数据库所设计的信息系统的特点:实现数据的互联互通、共享开放非常容易,对多个信息系统中的数据挖掘非常容易,不存在信息孤岛问题,可高效地实现医学信息的结构化存贮。
独立数据库与现有技术的最大区别就是:现有技术都是先让信息孤岛产生,然后再通过转换数据结构(犹如换车轮)而实现互联互通。独立数据库所考虑的不是如何治理现有的信息孤岛问题,而是通过数据结构及数据的标准化(犹如标准的钢轨及车轮)而从根本上避免信息孤岛问题的产生。由于利用独立数据库所设计的各种信息系统实现互联互通非常容易,不存在信息孤岛问题,所以就不用考虑治理信息孤岛的问题。
4.2 数据的标准化、数据的完整性
万能数据结构表犹如标准的钢轨,数据的标准化(数据的完整性)犹如使火车的车轮适应标准的钢轨。
公知常识中并没有“什么样的数据才是可以互联互通的结构化数据”的概念,也没有相应的名词来表达这个概念,也没有准确的定义来说明什么样的数据才是可以互联互通的数据,也没有人能列举出哪个结构化数据是可以互联互通的数据。因为目前并不存在可以互联互通的结构化数据,当前的任何一个关系数据库中的任何一条数据都只是在自己的数据库系统中、在自己的信息系统中才是有意义的,当关系数据库中的某条数据发送到其它信息系统时,就成了无意义的数据,对方就不能把数据直接存贮到数据库中并且直接对数据进行识别处理,因为数据的接收方没有相应的数据结构。
人们所希望的互联互通就是让结构化数据可以发送到各种信息系统中,数据的接收方可以直接把数据存贮到数据库中,而且可以识别处理该数据,然而到目前为止,现有技术未能解决此问题。当前的各种关系数据库中的所有数据都不是可以互联互通的数据,因为关系数据库中的数据都是有数据结构的,关系数据库中的数据一旦脱离了原来的环境而发送到其它数据库时,就会因为对方的数据库中没有相应的数据结构而导致数据的接收方不能把数据存贮到数据库中。
只有满足“数据的完整性”的数据才是可以互联互通的结构化数据。“数据的完整性”是独立数据库所提出的新概念,与当前的“数据完整性”的含义是完全不同的。
独立数据库中的“数据的完整性”所针对的问题:在关系数据库理论创立了40多年的今天,人们并未有效地解决结构化数据互联互通的问题,甚至可以说关系数据库中的结构化数据都是孤岛型数据,因为关系数据库中的数据只能在特定的系统中才是有意义的,一旦脱离了原来的系统而发送到其它的系统之中时,就会变成无意义的数据。
独立数据库创立“数据的完整性”的概念的目的就是使数据无论被发送到任何一个信息系统中都是有意义的,可以被数据的接收方识别、处理。需要说明的是:独立数据库中的“数据的完整性”的适用范围是“利用医学信息的结构化存贮方法而设计的各种信息系统”。
当前的关系数据库中的数据为什么一旦脱离了原来的系统就会变成无意义的数据?根本原因在于关系数据库中的数据都是有结构的,数据的结构都是由数据库的设计者随意地定义的,只能自己识别,其它系统、其它人不能识别,因为数据的接收方的数据库中不一定就有相应的数据结构。
独立数据库中的“数据的完整性”的含义:医学信息的结构化存贮方法要求数据与数据库系统及相应的应用程序的耦合度为零。这是实现互联互通的最重要的基础。
“事物信息表”中的数据与数据库系统及相应的应用程序是相互独立的,即“事物信息表”中的任一事物的数据都具有比较好的完整性,“事物信息表”中的数据脱离相应的数据库系统及应用程序后还能保持原来的意义,数据的完整性是确保信息系统之间可以互联互通和信息共享的基础。
独立数据库注重的是数据的完整性。数据的完整性是指数据可以不依靠其它注释、解释、翻译、加工处理而独立地、准确地、完整地表达出某种完整的含义。医学信息的结构化存贮方法要求各个事物的数据要尽量独立地、准确地、完整地表达出某种含义。在“事物信息表”中,事物之间的关系不是靠各种表来表达,而是靠各事物原来所具有的自然特征和特征值而自然地建立关系,各事物之间的关系与数据库系统以及应用系统无关,或者说各事物之间的关系完全独立于数据库系统及应用系统而独立地、准确地、完整地具有某种含义,这就可以确保一个事物的信息在任何信息系统中都有相同的含义。百分之百合格的“事物信息表”中的数据与数据库系统、表结构、应用系统的耦合度为零。
关系数据库是用各种关系来表达各种事物间的关系。正如关系数据库名中的“关系”的含义:关系数据库中的数据与关系数据库系统、表结构以及相应的应用程序密不可分,一旦分开,关系数据库中的数据将会变成无意义的数据,然而,正是这种“关系”而导致关系数据库必然产生“信息孤岛”。“事物信息表”中的数据与数据库系统、表结构及应用程序无关,可以完全脱离数据库系统、表结构及应用程序而独立地存在,这是医学信息的结构化存贮方法非常突出的特点。正因为关系数据库中的数据与关系数据库系统、表结构及应用程序密不可分,所以当进行数据交换时,数据到了另一个环境中就变成了失真的数据,这也是关系数据难以实现互联互通、易产生信息孤岛的根本原因。
“事物信息表”中的数据与“数据库系统、表结构及应用程序”无“关系”,可以完全脱离数据库系统及应用程序而独立存在,所以用医学信息的结构化存贮方法所建立的信息系统实现互联互通非常容易,因为它的数据无论发送到什么地方,都能独立地、准确地、完整地表达出原有的含义。
数据完整性的重要意义:可以很容易地实现信息系统之间的互联互通,可以有效地解决当前的信息孤岛问题。当前之所以存在严重的信息孤岛问题,根本原因就在于各个信息系统中的数据不具完整性,数据与数据库系统、表结构、应用系统的“关系”密不可分。关系数据库的数据不具完整性,这是因为关系数据库中的数据离不开表的结构,离开了表结构,数据就失真,而带表结构进行交换时,接收数据的关系数据库中往往没有结构完全相同的表结构而不认识所接收到的数据。“事物信息表”中的数据本身就是完整的、自带结构的。
独立数据库提倡用自然语言,尽量避免用代码。为了实现数据的完整性,要尽量少用、甚至不用代码。因为代码会使数据变得难以理解,会使数据与应用程序的耦合度增高,使数据失去完整性。传统的数据库系统设计者爱使用代码,这样做的结果就使数据库系统中的数据与应用程序密不可分,需要由专用的应用程序才能正确解读数据的真实含义。这也是产生信息孤岛的一个重要原因。
要成为互联互通的结构化数据必须满足两个条件:1、数据必须能够存贮到接收数据方的数据库中(然而要使数据存贮到数据接收方的数据库中的前提是对方的数据库中有相同的数据结构表,然而目前的信息系统都不可能做到这一点);2、数据必须能够让数据接收方的信息系统识别、处理(当前的各种信息系统都不能做到这一点)。
要使数据能够存贮到数据接收方的数据库中,就必须使数据的数据结构与数据的接收方的数据结构完全相同,否则就不可能把数据存贮到数据的接收方的数据库中。然而,当前的各种信息系统基本上都是利用关系数据库理论而建立的,各个信息系统的数据结构基本上都是完全不相同的,有相同的数据结构是非常偶然的。正因如此,各个信息系统中的数据基本上都不可能直接发送到其它的信息系统并存贮到相应的数据库中,这也就是当前的信息系统产生信息孤岛的根本原因。
关系数据库只考虑如何处理自己的数据,从不考虑如何处理来自其它系统的数据,也不考虑如何让其它系统处理。独立数据库的核心则是“不但要识别处理自己的数据,也要考虑如何让大家都可以识别处理”。
4.3 独立数据库与关系数据库理论的对比
独立数据库是一门全新的数据库理论,完全不同于当前的关系数据库理论。
关系数据库的最大问题就是只能处理自己的数据,不能有效地实现数据在各个信息系统之间的互联互通。利用关系数据库理论设计各种信息系统时肯定要采用多种结构各不相同的表来存贮各种数据。然而利用独立数据库设计各种信息系统时,存贮任何结构化数据都全部采用标准的、统一的、固定不变的“事物信息表”,这样做的目的是为了使数据可以在各信息系统之间互联互通。
独立数据库所要解决的主要技术问题是:1、数据在各信息系统之间的互联互通。
独立数据库解决技术问题的方案是:1、“用一张或若干张结构完全相同的事物信息表存贮各种各样的数据”;2、要求数据库中的数据必须满足“数据的完整性”。
独立数据库所产生的效果是:用独立数据库设计的各种信息系统时,这些信息系统全部采用“事物信息表”存贮数据,不存在异构数据问题,在技术上不存在信息孤岛问题,实现数据的互联互通、共享交换、数据挖掘非常容易。
独立数据库与关系数据库的对比
对比的内容 |
关系数据库 |
医学信息的结构化存贮方法 |
|
1 |
存贮数据时所用的表 |
横向的表 |
纵向的表 |
2 |
存贮不同的数据时所用表的结构 |
多张结构不相同的表 |
全部采用事物信息表这一种结构表 |
3 |
数据冗余 |
考虑数据冗余,数据冗余小 |
不考虑数据冗余问题,以适当的数据冗余而换取智能、使用方便,使数据满足“数据的完整性”。 |
4 |
使用代码的情况 |
大量使用代码 |
极力反对使用代码 |
5 |
数据的关系 |
与表结构、与信息系统、与其它表密切相关。 |
极力反对“关系”,提倡数据与数据之间、数据与数据库之间、数据与应用程序之间尽量独立、没关系。因为关系是产生信息孤岛的主要原因。 |
6 |
是否允许设计人员随意设计数据结构 |
完全由设计人员随意设计数据的结构 |
不允许技术人员随意设计数据的结构,存贮任何数据都必须采用统一的、标准的事物信息表 |
7 |
数据的互联互通 |
实现互联互通非常困难 |
非常容易 |
8 |
在互联互通时是否需要转换数据的结构 |
需要 |
不需要,因为在用独立数据库所设计的信息系统的所有数据的结构都是相同的 |
9 |
是否要求数据满足“数据的完整性” |
未要求 |
要求数据必须满足“数据的完整性” |
10 |
软件开发模式 |
后ETL模式 |
先ETL模式、以标准化为基础的软件开发模式 |
11 |
关注的重点 |
以用户的功能需求为中心 |
以数据的互联互通中心 |
第5章 独立数据库简介
独立数据库以两项发明专利技术“医学信息的结构化存贮方法”及“结构化大数据通信协议”为基础。独立数据库非常简单:只有一张万能数据结构表,关键在于数据优化技术。
关系数据库以“横向”的N个字段存贮一个事物的信息:
ID |
姓名 |
性别 |
所龄 |
体重 |
身高 |
1 |
张三 |
男 |
56 |
72 |
180 |
“独立数据库”以“纵向”的N(或N+X)条记录存贮一个事物的信息:
ID |
事物代号 |
事物属性 |
事物属性值 |
超长属性值 |
单位 |
附件 |
时间 |
1201 |
280 |
事物分类 |
人事管理系统 |
||||
1202 |
280 |
事物分类 |
员工身高体重 |
||||
1203 |
280 |
姓名 |
张三 |
||||
1204 |
280 |
性别 |
男 |
||||
1205 |
280 |
年龄 |
56 |
岁 |
|||
1206 |
280 |
体重 |
72 |
KG |
|||
1207 |
280 |
身高 |
180 |
CM |
|||
1208 |
280 |
身份证号 |
410305XXXXX |
||||
1231 |
32 |
病案号 |
199108-2-215 |
||||
1232 |
32 |
身份证号 |
XXXXXXXXXXXX |
||||
1233 |
32 |
事物分类 |
住院病历 |
||||
1234 |
32 |
事物分类 |
现病历 |
||||
1235 |
32 |
事物分类 |
症状详情 |
||||
1236 |
32 |
症状 |
腹痛 |
||||
1237 |
32 |
开始时间 |
1991-8-16 |
用上表的形式的万能数据结构表所建立的数据库即可称作是“独立数据库”,独立数据库系统中只有一张表,或若干张结构完全一样的表。
独立数据库适用于处理各行各业的结构化大数据。
由于开发全新的“独立数据库”需要的投资非常大,目前可在关系数据库中实现“独立数据库”,只要在关系数据库中建立一张,或若干张结构完全一样的“万能数据结构表”即可。
“独立数据库”所关心的重点是不数据处理,而是“数据”及“数据结构”的优化,因为采用最优的“数据”和“数据结构”之后,数据处理就会变得非常简单。
用关系数据库之所以无法解决信息孤岛,难以实现数据共享及互联互通,关键在于关系数据库中的“数据”和“数据结构”有问题,关系数据库中的数据都是失真数据,关系数据库所用的“数据结构”是一种非常低效的“数据结构”、非常不合格的“数据结构”。
5.1 独立数据库的技术特点:是一种数据优化、查询技术
独立数据库的数据优化技术类似于商业智能、ETL,然而商业智能、ETL是治病,独立数据库是避免疾病产生。
“万能数据结构表”的数据结构与关系数据库中的表的数据结构有本质的区别。目前可采用关系数据库系统ORACAL 、DB2、SQLSERVER、Access等来实现“万能数据结构表”。
列名 |
数据类型 |
Id |
bigint |
事物代号 |
bigint |
事物属性 |
nvarchar |
事物属性值 |
Nvarchar |
超长属性值 |
Ntext |
单位 |
Nvarchar |
附件 |
Image |
时间 |
Datatime |
“万能数据结构表”中各字段的含义:
1. “id”为每个记录的ID。
2. “事物代号”为各事物的代号,每个事物拥有唯一的“事物代号”。关系数据库中的一个完整的数据是记录,“医学信息的结构化存贮方法”中一个完整的数据是“事物”,一个“事物”的信息由若干条拥有相同“事物代号”的记录组成。
3. “事物属性”的含义为事物的特征。
4. “事物属性值”的含义为事物的特征值。
5. “超长属性值”的含义也是事物属性值,用来存放超过“事物属性值”字段的长度的字符型数据。
6. “单位”字段代表事物属性值的单位(次、米、吨等)。
7. “附件”字段:用来存放图象、附件等信息量比较大的、不适合转换为字符型数据的数据。
8. “时间”字段:该字段为每一个事物的特征写入数据库时的时间,一般可由系统自动可生成。
“万能数据结构表”的规定:
1. 数据结构必须统一化、标准化,不能作任何改变。这是确保信息系统互联互通的基础。
2. 同一张表中的同一事物拥有一个唯一的事物代号,不同的事物不能拥有相同的事物代号,不同的事物代号代表不同的事物。
3. 数据的独立性、数据的完整性、数据的可识别性:医学信息的结构化存贮方法要求数据与数据库系统及相应的应用程序的耦合度为零。要实现数据与数据库系统及相应的应用程序的耦合度为零,就必须完全让数据自己表达出应有的含义。这是实现互联互通的最重要的基础。
在关系数据库中实现“万能数据结构表”时,只要用“id、事物代号、事物属性、事物属性值、超长属性值、单位、附件、时间”8个字段的表就可以存贮各种各样的数据,对“事物代号、事物属性、事物属性值”字段建立索引以便查询。当关系数据库中的数据转换到“万能数据结构表”中时,“万能数据结构表”把关系数据库表中的一条记录当作一个事物,并为该事物分配一个唯一的事物代号,关系数据库表的字段名转换为“万能数据结构表”所用的表中的“事物属性”,相应字段中的数据则转换为“事物属性值”,超过“事物属性值”字段长度的数据则存放在“超长属性值”字段中,图片、附件等信息量比较大的信息、不适合转换为字符型数据的数据则存放在“附件”字段中。
一个事物的数据:在关系数据库中一个事物的信息用一条记录来表示,在“万能数据结构表”中“一个事物的数据”用多条记录来表示,拥有相同的“事物代号”的记录都是同“一个事物的数据”。
5.2 如何证明“万能数据结构表”是万能的
当前之所以存在着严重的信息孤岛,互联互通困难,数据挖掘困难,一个很重要的原因就是“数据类型多(Variety)”。
结构化数据类型多的根本原因在于关系数据库,关系数据库是结构化数据类型多的发源地。
一张万能数据结构表可以存贮各种关系数据库中各种各样的表中的任何数据,下面用一个比较简单的方法来证明。
仔细观察下表,就会发现下表的数据结构全是相同的! 都只有两列。
上面的方法可以非常简单地证明关系数据库中的各种数据都可以转换成相同的数据结构。然后用发明专利技术“医学信息的结构化存贮方法”就可以把上面的数据全部存贮入“万能数据结构表”中。
如果你感觉那张表中的数据不能存贮到万能数据结构表中,那么,你只要把表反时针转90度,只看原来的“表头及第一行数据”就会发现,这张表是可以转换到万能数据结构表中的。
上面的方法证明了“万能数据结构表”可以存贮关系数据库中的各种数据,所以是万能的。
5.3 独立数据库的一项重要任务就是根除关系
关系数据库以“关系”而自豪,然而独立数据库的一项非常重要的任务就是彻底根除“关系”,因为关系是信息孤岛的根源。独立数据库则是要求任何一条数据都必须独立地、完整地表达出相应的含义。
对于大数据环境下的数据挖掘而言,例如对全国各级政府部门的数十万个信息系统中的数据挖掘、对全国97.8万家医疗机构的数据挖掘,如果各个系统中大量使用代码,那么就需要编写数量非常庞大的程序才能解读其中的数据。据统计,数据挖掘前的ETL的工程量是整个数据挖掘工程量的50%左右。采用代码可以减少存贮空间,然而代码也为数据挖掘和数据交换带来了非常严重的问题。独立数据库之所以大力提倡用标准的自然语言,极力反对使用代码,目的就是为了在数据交换、数据挖掘时大幅度降低编写程序的量。例如,程序员在设计信息系统时习惯用代码来表达数据,有的用“1”代表男性,用“0”代表女生,而另一些人则用“M”代表男性,用“W”代表女性。在医院信息系统中,各个信息系统可由应用程序来解读各个代码,然而,在医疗大数据挖掘中,这种不规范、不标准、不统一的代码带给数据挖掘人员的将是灾难!因为医疗大数据挖掘人员所面临的是全国数十万家医院的数百万个信息系统。若要对数百万个信息系统的数据中的代码进行分析、转换,将是一项工程量非常巨大的工程。因此,对大数据而言,尽量不要在数据库中采用代码。
关系数据库理论非常强调减少数据冗余,而独立数据库则反其道其行,目的是数据让可以在各个信息系统之间互联互通,也为了提高大数据环境下的数据挖掘效率,因此独立数据库要求无论花费多高的代价,都必须优先满足“数据的完整性”。在一般情况,采用独立数据库所设计的信息系统中的数据所占用的存贮空间会比采用关系数据库理论所设计的信息系统多一倍左右。上世纪80年代初期,硬盘容量为10M,因此软件设计人员特别注重数据冗余,而目前的硬盘容量比原来提高了10万倍以上,因此多占用一倍左右的存贮空间的代价很低。对独立数据库而言,“数据的完整性”优先于“数据冗余”,为了“数据的完整性”可以不考虑“数据冗余”。因此,独立数据库用如下所示的表26的事物信息表来表达“对比文件4中的表3”中的数据,而“对文件4”需要用“表2+表3”两张结构完全不相同的表才能完整地表达一个事物的数据。由此可见,“对比文件4中的表3”与独立数据库具有本质的差异。
关系数据库引以自豪的是关系,然而独立数据库认为“关系”才是产生信息孤岛的根本原因,因此,独立数据库不惜一切代价而使数据不依赖数据库系统、不依赖应用程序、不依赖表与表之间的关系而独立地、完整地表达出相应的含义。
关系数据库是用各种关系来表达各种事物间的关系。正如关系数据库名中的“关系”的含义:关系数据库中的数据与关系数据库系统、表结构以及相应的应用程序密不可分,一旦分开,关系数据库中的数据将会变成无意义的数据,然而,正是这种“关系”而导致关系数据库必然产生“信息孤岛”。“事物信息表”中的数据与数据库系统及应用程序无关,可以完全脱离数据库系统及应用程序而独立地存在,这是医学信息的结构化存贮方法非常突出的特点。正因为关系数据库中的数据与关系数据库系统、表结构及应用程序密不可分,所以当进行数据交换时,数据到了另一个环境中就变成了失真的数据,这也是关系数据难以实现互联互通、易产生信息孤岛的根本原因。
“事物信息表”中的数据与“数据库系统及应用程序”无“关系”,可以完全脱离数据库系统及应用程序而独立存在,所以用独立数据库所建立的信息系统实现互联互通非常容易,因为它的数据无论发送到什么地方,都能独立地、准确地、完整地表达出原有的含义。
利用独立数据库所设计的各种信息系统之间之所以可以实现数据的互联互通,是因为利用独立数据库所设计的各种信息系统全部采用事物信息表,这些信息系统的数据结构都是相同的。
实现数据开放共享的方法相关推荐
- 开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践
开放科学背景下的科学数据开放共享:国家青藏高原科学数据中心的实践 潘小多1,2, 李新1,2, 冉有华3, 郭学军2 1 中国科学院青藏高原研究所国家青藏高原科学数据中心,北京 100101 2 中国 ...
- 数据开放共享的重要性_为什么今天开放数据很重要
数据开放共享的重要性 任何变化的主要因素首先是观察. 我们收集的数据使我们能够分析复杂的人类模式和行为. 没有数据,什么也观察不到. 一段时间以来,政府一直在收集大量数据. 但是现在,他们正式使公民可 ...
- 大数据导论--大数据安全与数据开放共享
传统数据安全隐患 计算机病毒.数据信息存储介质的损坏.黑客攻击 大数据安全与传统数据安全的不同 大数据成为网络攻击的显著目标 大数据加大隐私泄露风险 大数据技术被应用到攻击手段中 大数据成为高级可持续 ...
- 2015年《大数据》高被引论文Top10文章No.3——我国政府数据开放现状和保障机制...
2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.3, ...
- 《大数据》第2期“专题”——我国政府数据开放现状和保障机制
我国政府数据开放现状和保障机制 周大铭 (工业和信息化部赛迪智库软件和信息服务业研究所 北京 100846) 摘要:基于国外政府数据开放的发展现状,总结了国外政府数据开放的重要特点,包括完善的法律法规 ...
- 如何划清隐私保护与开放共享的界限?大数据讲座整理
互联网技术的革新带来了海量数据,大数据在蛮荒发展,大众的隐私保护意识也在不断提高. 参加的AI Time第四期交流会依旧生动与专业,活动就中国目前数据保护与共享的需求,从技术.政策上讨论提出了中国关于 ...
- 数据共享的核心在定价,数据开放与隐私保护探讨 | AI Time
大数据文摘出品 作者:易琬玉 一包垃圾值得被快递吗? 当然,一袋普通的垃圾肯定不值得,但是可以暴露出某个重要人物信息的垃圾就需要小心处理,再或者,对于一个被垃圾分类逼疯的上海市民来说,答案也可能不同. ...
- 《大数据》第2期“专题”——数据开放与政府治理创新
数据开放与政府治理创新 潘永花 阿里数据经济研究中心 北京 100022 摘要:云计算使得数据共享.流动.开放成为可能,数据成为激发新生产力的引擎.数据的角色从IT时代的产出物或者辅助角色转变为资产和 ...
- 贵州出台首部大数据地方法规 数据开放引入负面清单
贵州省近日通过的<贵州省大数据发展应用促进条例>(下称"条例")在大数据行业圈子里被刷屏.作为中国首部大数据地方法规,这一条例填补了这个"燥热"行业 ...
最新文章
- R语言ggplot2可视化自定义图例(legend)方框(box):所有图例没有方框、每个图例分别在不同的方框中、多个图例放置在同一个方框中
- 三大运营商齐发力大数据
- python基础教程第二版和第三版哪个好-python基础教程 2版和3版哪个适合新手?!...
- 一个好的APP需要后台产品经理么?
- Linux之grep及正则表达式
- 关于996,我想说的 - 人在高潮享受成就,人在低潮享受人生
- 深入浅出讲解C语言#define宏定义应用及使用方法
- C语言重点难点:与,或和异或
- php 回收png,关于php:从其他Png中减去Png,保留透明度,ImageMagick
- 网络批量后修改服务器,企业网络批量安装服务器搭建案例
- 蓝桥杯2016年第七届C++省赛B组第五题-抽签
- mysql没有makefile_编译安装mysql,找不到makefile
- 笔记本电脑怎样截屏_被辞退,我是怎样一步步打赢仲裁官司,拿到70万赔偿的(一)--纠纷起源...
- Linux设置免密登录
- 关于CSDN登录提示手机号验证的问题
- pe中怎么卸载服务器系统更新,方法四: 使用专用工具卸载系统更新补丁(和方法三类同...
- PPT母版制作及自定义主题
- 65岁的程序员大神求职被歧视!HR:我们不想招大爷~
- python短信验证码登录_Python手机验证码登录
- 【随笔】写在2020除夕之夜