【巨杉访谈】分布式数据库如何存储管理非结构化数据?
SequoiaDB 巨杉数据库,是一款面向企业级的分布式 NewSQL 数据库,自主研发并拥有完全自主知识产权,没有基于任何其他外部的开源数据库源代码。
四月初,在开源中国源创会厦门站活动中,巨杉数据库技术总监郝大为和大家分享分布式数据库对非结构化数据管理和应用。OSC【开源访谈】则在活动后邀请嘉宾分享更多有关于技术和行业的见解。
巨杉数据库对于非结构化数据存储管理有什么独到之处?作为国内第一款完全自主研发,后又选择开源的商业数据库产品,在这个过程中经过了什么思考?目前在行业内的应用情况如何?
访谈实录
1.SequoiaDB 巨杉数据库以及目前在行业内的应用情况?
SequoiaDB 巨杉数据库,是一款面向企业级的分布式 NewSQL 数据库,自主研发并拥有完全自主知识产权,没有基于任何其他外部的开源数据库源代码。
SequoiaDB 支持标准 SQL、事务操作、高并发、分布式、可扩展、与双引擎存储等特性,并已经作为商业化的数据库产品开源。
SequoiaDB 巨杉数据库目前已在金融、政府、电信、交通、公安等行业得到规模应用。客户包括多家世界五百强企业(如中国银行、民生银行、广发银行、中国移动、中国电信等),各级政府客户,和包括途牛网、多盟在内的多家知名互联网科技公司。
2.巨杉数据库中有提到“双引擎”灵活数据存储机制的概念,能否做简单的介绍?
双引擎其实是指的我们的“记录/文件”双引擎的机制。
1)记录引擎:SequoiaDB 采用 JSON 文档类型定义数据存储模型(类对象存储)。JSON 作为当今应用设计中主流的存储与通讯协议格式,使用的数据模型与平台、语言无关,从而为企业内异构数据的整合提供了标准方式。
2)文件引擎:除了 JSON 存储引擎以外, SequoiaDB 核心引擎提供了分布式块存储模式,可以将非结构化大文件按照固定大小的数据块进行切分并存放于不同分区。当用户需要管理海量的小文件(例如照片、音视频、文档、图片等)时,SequoiaDB 的双存储引擎特性能够帮助用户快速搭建一个高性能、高可用的内容管理与影像平台系统。
双引擎这一机制十分适合企业内容管理,也就是常说的ECM系统的应用场景,利用这一机制可以构建一个分布式的、元数据+内容数据统一管理的内容管理平台。
3.这其中巨杉数据库 JSON/BSON 引擎,主要的技术特点是什么呢 ?
SequoiaDB 采用 JSON 文档类型定义数据存储模型(类对象存储)。JSON 作为当今应用设计中主流的存储与通讯协议格式,使用的数据模型与平台、语言无关,从而为企业内异构数据的整合提供了标准方式。传统企业内存在大量的结构化数据资产需要用分布式大数据的手段处理,同时又希望尽量保留其关系型结构,JSON 数据模型则恰好满足这些需求。
简单来说,JSON 存储模型的优势在于:
1)JSON 因其结构严谨、语言明确,不单可以用简单的嵌套和映射方式表达出结构化关系型数据库的复杂的表间关系,同时也可以去范式化地表现为宽表甚至键值方式,从而大幅度弱化复杂的关系模型;
2)JSON 文档记录中的属性、或嵌套子对象的属性,同样可以做多维度的灵活索引,数据使用起来与传统结构化数据一样方便;
3)不需要在事先定义复杂僵化的关系模型,每条记录的结构可以随时修改,是一种模式自由的建模方式;
4)JSON 已经是 Web 与移动应用开发中的报文格式事实标准,SequoiaDB 作为数据库能够存储原生JSON结构,大大简化了应用程序开发流程。
4.另外一个就是关于“文件/块存储”引擎,那么这一块的主要技术特点是什么?
SequoiaDB 的块存储字段类型叫做 LOB(Large Object,大对象),其核心机制是将内容文件打散成多个数据块,每个数据块被分别发送到不同分区独立存放。
SequoiaDB 的 LOB 存储结构分为元数据文件(lobm)与数据文件(lobd)。其中,元数据文件存储整个 LOB 数据文件的元数据模型,包括每个页的空闲状况、散列桶、以及数据映射表等一系列数据结构。而数据文件则存储用户真实数据,数据头之后所有数据页按照 page size 进行切分,每个数据页不包含任何元数据信息。在建立集合的过程当中,大对象存储必须依附于普通集合存在,一个集合中的大对象仅归属于该集合,不能被另外一个集合管理。
SequoiaDB 也是目前第一款加入块存储引擎的 NewSQL/NoSQL 数据库。
5.巨杉数据库作为国内第一款完全自主研发,后又选择开源的商业数据库产品,在这个过程中经过了什么思考?请谈谈商业化软件与开源软件的关系。
巨杉数据库是实打实由我们的团队从零开始研发的,数据库的引擎内核都没有基于任何的开源产品来改造。
目前,我们依然坚持以商业化软件为核心,向企业用户提供为企业用户提供高质量、稳定可靠的商业化产品与标准化专业化的技术服务,这也是企业市场不变的需求。
可以说是一种技术上的情怀,让我们也和硅谷的前辈们一样选择开源,我们自己开发的数据库产品,我们也希望和更多的开发者分享我们的技术。
同时我们也在商业化经营同时,通过产品的开源和开源生态建立,快速推进产品技术的品牌和用户,同时能帮助构建自己的技术生态。
此外,开源也有出于我们团队的技术自信,也是一种程度回应对于我们 自己研发的质疑吧。
6.对于关系型数据库与非关系型数据库比较的争论一直都没停止过,能否说一下你的看法?(两者会以什么样的方式存在,是取代还是并存)目前数据库领域的最新趋势是什么?
谈到数据库未来的发展趋势,巨杉一直认为数据库未来发展也是一个分久必合的过程。NoSQL 数据库本身针对的是从互联网起家的一些玩家,这些玩家可能对于 SQL 和其他的企业级的功能并不是很重视。
但是,未来随着新一代分布式数据库在各个行业的不断应用和普及,NoSQL 和关系型数据库这两者肯定是逐渐融合的过程,NoSQL 数据库会不断注重企业级功能如 SQL 支持的提升,也是因此现在衍生出了 NewSQL 的概念。也就是 NewSQL= SQL和 OLTP + 分布式NoSQL。数据库未来将会是一个分布式、高性能的立足实时处理和在线服务同时作为数据源支持上层的数据分析应用的定位。
巨杉也在朝着这个方向不断努力。
更多演讲实录
巨杉数据库王涛:NewSQL重新定义企业级大数据应用
【演讲实录】企业级NewSQL加速企业大数据落地
【线上分享】数据猿先上课,王涛分享NewSQL数据库干货!
DTCC数据库大会专访:谈谈新一代数据库的商业模式与发展趋势
巨杉数据库王涛:SaaS生态与大数据
产品特性
解决方案与案例
数据库下载
技术文档
微信客服:
sequoiadb111
【巨杉访谈】分布式数据库如何存储管理非结构化数据?相关推荐
- 【巨杉数据库SequoiaDB】【巨杉访谈】分布式数据库如何存储管理非结构化数据?
SequoiaDB 巨杉数据库,是一款面向企业级的分布式 NewSQL 数据库,自主研发并拥有完全自主知识产权,没有基于任何其他外部的开源数据库源代码. 上周,在开源中国源创会厦门站活动中,巨杉数据库 ...
- 向量连接世界,Zilliz 2022 非结构化数据峰会来袭
9 月 24 日,Zilliz 2022 首届非结构化数据峰会将正式与大家见面.届时,Zilliz 核心产品和研发团队将与大家分享非结构化数据处理应用与向量数据库领域最核心.最前沿的研究成果和产品创新 ...
- 向量连接世界,Zilliz 《2022 非结构化数据峰会》来袭
9 月 24 日,Zilliz 2022 首届非结构化数据峰会将正式与大家见面.届时,Zilliz 核心产品和研发团队将与大家分享非结构化数据处理应用与向量数据库领域最核心.最前沿的研究成果和产品创新 ...
- Zilliz2022首届非结构化数据峰会圆满结束
9 月 24 日至 25 日,2022 首届非结构化数据峰会在线上成功举办,Zilliz 携手来自 Linux Foundation AI & DATA 基金会.中国电信翼支付.百度飞桨社区. ...
- mysql 非结构化数据_hbase非结构化数据库与结构化数据库比较
目的:了解hbase与支持海量数据查询的特性以及实现方式 传统关系型数据库特点及局限 传统数据库事务性特别强,要求数据完整性及安全性,造成系统可用性以及伸缩性大打折扣.对于高并发的访问量,数据库性能不 ...
- NetApp FAS 存储管理软件,海量非结构化数据存储
NetApp FAS 存储管理软件,海量非结构化数据存储 在 NetApp® ONTAP® 数据管理软件的支持下,帮助您构建简单.安全且值得信赖的存储基础架构.NetApp FAS 存储阵列可让客户同 ...
- 非结构化文件转移服务器,非结构化数据存储管理方法,服务器和系统 Unstructured data storage management method, and a system server...
摘要: 本文提供一种非结构化数据存储管理方法,服务器和系统,解决现有技术中非结构化存储管理系统无法支撑大量的小文件及其元数据的存储和快速访问的问题. This article provides a m ...
- 【数据库】结构化数据、非结构化数据、半结构化数据的区别
林中鹿 结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值 ...
- neo4j图数据库:结构化数据流水线、非结构化数据流水线
日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...
最新文章
- Xamarin Android组件篇教程RecylerView动画组件RecylerViewAnimators(1)
- Node — 第二天
- CodeForces - 1017D The Wu
- git 应用 cherry-pick
- Mysql数据库名和表名的大小写敏感性问题
- 机器学习算法工程师的经典面试问题
- Word2Vec入门
- 一个端到端的机器学习项目全纪录(加州房价预测)
- NMOS和PMOS的电路符号记忆方法
- c语言合并两个顺序表算法,顺序表的两种合并操作(C语言)
- JAVA字符串中字符类型的识别和分类(汉字、数字、字母、特殊符号等)
- 从事文字工作和经常使用电脑的人要注意保护好自己的眼睛
- Rancher 2.2 GA:企业进入应用跨多K8S集群、混合云部署新时代
- Android7.0 Doze模式分析(三)alarm
- 未来的计算机儿童画,儿童画未来的科学幻想绘画优秀作品
- Vue项目在标签中如何书写多个内敛style样式
- Windows Azure Storage 论文阅读
- ECDH 密钥交换举例(ECDH Key Exchange - Examples)
- 民事诉讼法 主编 田平安
- html js参考手册,JavaScript 和 HTML DOM 参考手册
热门文章
- CSS侧重点中的重点总结
- vue 动态设置背景图片,和背景渐变
- [附源码]JAVA+ssm基于Java的健身房管理系统(程序+Lw)
- adb: failed to install toutiao.apk: Failure [-200]
- WLAN无法自动打开问题分析
- 1619C. Wrong Addition
- vs旗舰版安装包下载地址
- 【华为 OJ 】密码强度等级
- 直连两台计算机实训报告文档,双机互连实验报告.doc
- 数码相机拍摄技巧,帮助初学者拍出自己想要的图像