【巨杉数据库SequoiaDB】【巨杉访谈】分布式数据库如何存储管理非结构化数据?
SequoiaDB 巨杉数据库,是一款面向企业级的分布式 NewSQL 数据库,自主研发并拥有完全自主知识产权,没有基于任何其他外部的开源数据库源代码。
上周,在开源中国源创会厦门站活动中,巨杉数据库技术总监郝大为和大家分享分布式数据库对非结构化数据管理和应用。OSC【开源访谈】则在活动后邀请嘉宾分享更多有关于技术和行业的见解。
巨杉数据库对于非结构化数据存储管理有什么独到之处?作为国内第一款完全自主研发,后又选择开源的商业数据库产品,在这个过程中经过了什么思考?目前在行业内的应用情况如何?
访谈实录
1.SequoiaDB 巨杉数据库以及目前在行业内的应用情况?
SequoiaDB 巨杉数据库,是一款面向企业级的分布式 NewSQL 数据库,自主研发并拥有完全自主知识产权,没有基于任何其他外部的开源数据库源代码。
SequoiaDB 支持标准 SQL、事务操作、高并发、分布式、可扩展、与双引擎存储等特性,并已经作为商业化的数据库产品开源。
SequoiaDB 巨杉数据库目前已在金融、政府、电信、交通、公安等行业得到规模应用。客户包括多家世界五百强企业(如中国银行、民生银行、广发银行、中国移动、中国电信等),各级政府客户,和包括途牛网、多盟在内的多家知名互联网科技公司。
2.巨杉数据库中有提到“双引擎”灵活数据存储机制的概念,能否做简单的介绍?
双引擎其实是指的我们的“记录/文件”双引擎的机制。
1)记录引擎:SequoiaDB 采用 JSON 文档类型定义数据存储模型(类对象存储)。JSON 作为当今应用设计中主流的存储与通讯协议格式,使用的数据模型与平台、语言无关,从而为企业内异构数据的整合提供了标准方式。
2)文件引擎:除了 JSON 存储引擎以外, SequoiaDB 核心引擎提供了分布式块存储模式,可以将非结构化大文件按照固定大小的数据块进行切分并存放于不同分区。当用户需要管理海量的小文件(例如照片、音视频、文档、图片等)时,SequoiaDB 的双存储引擎特性能够帮助用户快速搭建一个高性能、高可用的内容管理与影像平台系统。
双引擎这一机制十分适合企业内容管理,也就是常说的ECM系统的应用场景,利用这一机制可以构建一个分布式的、元数据+内容数据统一管理的内容管理平台。
3.这其中巨杉数据库 JSON/BSON 引擎,主要的技术特点是什么呢 ?
SequoiaDB 采用 JSON 文档类型定义数据存储模型(类对象存储)。JSON 作为当今应用设计中主流的存储与通讯协议格式,使用的数据模型与平台、语言无关,从而为企业内异构数据的整合提供了标准方式。传统企业内存在大量的结构化数据资产需要用分布式大数据的手段处理,同时又希望尽量保留其关系型结构,JSON 数据模型则恰好满足这些需求。
简单来说,JSON 存储模型的优势在于:
1)JSON 因其结构严谨、语言明确,不单可以用简单的嵌套和映射方式表达出结构化关系型数据库的复杂的表间关系,同时也可以去范式化地表现为宽表甚至键值方式,从而大幅度弱化复杂的关系模型;
2)JSON 文档记录中的属性、或嵌套子对象的属性,同样可以做多维度的灵活索引,数据使用起来与传统结构化数据一样方便;
3)不需要在事先定义复杂僵化的关系模型,每条记录的结构可以随时修改,是一种模式自由的建模方式;
4)JSON 已经是 Web 与移动应用开发中的报文格式事实标准,SequoiaDB 作为数据库能够存储原生JSON结构,大大简化了应用程序开发流程。
4.另外一个就是关于“文件/块存储”引擎,那么这一块的主要技术特点是什么?
SequoiaDB 的块存储字段类型叫做 LOB(Large Object,大对象),其核心机制是将内容文件打散成多个数据块,每个数据块被分别发送到不同分区独立存放。
SequoiaDB 的 LOB 存储结构分为元数据文件(lobm)与数据文件(lobd)。其中,元数据文件存储整个 LOB 数据文件的元数据模型,包括每个页的空闲状况、散列桶、以及数据映射表等一系列数据结构。而数据文件则存储用户真实数据,数据头之后所有数据页按照 page size 进行切分,每个数据页不包含任何元数据信息。在建立集合的过程当中,大对象存储必须依附于普通集合存在,一个集合中的大对象仅归属于该集合,不能被另外一个集合管理。
SequoiaDB 也是目前第一款加入块存储引擎的 NewSQL/NoSQL 数据库。
5.巨杉数据库作为国内第一款完全自主研发,后又选择开源的商业数据库产品,在这个过程中经过了什么思考?请谈谈商业化软件与开源软件的关系。
巨杉数据库是实打实由我们的团队从零开始研发的,数据库的引擎内核都没有基于任何的开源产品来改造。
目前,我们依然坚持以商业化软件为核心,向企业用户提供为企业用户提供高质量、稳定可靠的商业化产品与标准化专业化的技术服务,这也是企业市场不变的需求。
可以说是一种技术上的情怀,让我们也和硅谷的前辈们一样选择开源,我们自己开发的数据库产品,我们也希望和更多的开发者分享我们的技术。
同时我们也在商业化经营同时,通过产品的开源和开源生态建立,快速推进产品技术的品牌和用户,同时能帮助构建自己的技术生态。
此外,开源也有出于我们团队的技术自信,也是一种程度回应对于我们 自己研发的质疑吧。
6.对于关系型数据库与非关系型数据库比较的争论一直都没停止过,能否说一下你的看法?(两者会以什么样的方式存在,是取代还是并存)目前数据库领域的最新趋势是什么?
谈到数据库未来的发展趋势,巨杉一直认为数据库未来发展也是一个分久必合的过程。NoSQL 数据库本身针对的是从互联网起家的一些玩家,这些玩家可能对于 SQL 和其他的企业级的功能并不是很重视。
但是,未来随着新一代分布式数据库在各个行业的不断应用和普及,NoSQL 和关系型数据库这两者肯定是逐渐融合的过程,NoSQL 数据库会不断注重企业级功能如 SQL 支持的提升,也是因此现在衍生出了 NewSQL 的概念。也就是 NewSQL= SQL和 OLTP + 分布式NoSQL。数据库未来将会是一个分布式、高性能的立足实时处理和在线服务同时作为数据源支持上层的数据分析应用的定位。
巨杉也在朝着这个方向不断努力。
更多演讲实录
巨杉数据库王涛:NewSQL重新定义企业级大数据应用
【演讲实录】企业级NewSQL加速企业大数据落地
【线上分享】数据猿先上课,王涛分享NewSQL数据库干货!
DTCC数据库大会专访:谈谈新一代数据库的商业模式与发展趋势
巨杉数据库王涛:SaaS生态与大数据
【巨杉数据库SequoiaDB】【巨杉访谈】分布式数据库如何存储管理非结构化数据?相关推荐
- 【巨杉访谈】分布式数据库如何存储管理非结构化数据?
SequoiaDB 巨杉数据库,是一款面向企业级的分布式 NewSQL 数据库,自主研发并拥有完全自主知识产权,没有基于任何其他外部的开源数据库源代码. 四月初,在开源中国源创会厦门站活动中,巨杉数据 ...
- mysql 非结构化数据_hbase非结构化数据库与结构化数据库比较
目的:了解hbase与支持海量数据查询的特性以及实现方式 传统关系型数据库特点及局限 传统数据库事务性特别强,要求数据完整性及安全性,造成系统可用性以及伸缩性大打折扣.对于高并发的访问量,数据库性能不 ...
- 【数据库】结构化数据、非结构化数据、半结构化数据的区别
林中鹿 结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data 半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值 ...
- neo4j图数据库:结构化数据流水线、非结构化数据流水线
日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 智能对话系统:Unit对话API 在线聊天的总体架构与工具介绍 ...
- 检查集群状态命令_巨杉数据库SequoiaDB巨杉Tech | 四步走,快速诊断数据库集群状态...
1.背景 SequoiaDB 巨杉数据库是一款金融级分布式数据库,包括了分布式 NewSQL.分布式文件系统与对象存储.与高性能 NoSQL 三种存储模式,分别对应分布式在线交易.非结构化数据和内容管 ...
- 分布式数据库实战第一节 分布式数据库的前世今生
开篇词 吃透分布式数据库,提升职场竞争力 你好,我是高洪涛,前华为云技术专家.前当当网系统架构师和 Oracle DBA,也是 Apache ShardingSphere PMC 成员.作为创始团队核 ...
- 非结构化WEB数据库与图书馆多媒体信息资源的组织利用
1 非结构化WEB数据库简介 非结构化WEB数据库,是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的基于INTERNET.INTRANET的数据库,用它不仅可以处理结构化数 ...
- 选型宝访谈:当网盘既具备分享协作能力,又具备非结构化内容的管理能力,将会怎样?
前言 云时代,网盘已成为企业文件存储与分享协作的必备工具.然而,传统网盘功能相对单一,缺乏深度内容管理与业务连接能力,从而使其应用的深度和广度受到限制.今天,越来越多的IT管理者,希望能看到一种兼具文 ...
- 巨杉数据库中标东莞农商银行非结构化内容管理平台项目
2019独角兽企业重金招聘Python工程师标准>>> 近期,巨杉数据库中标东莞农村商业银行非结构化内容管理平台项目,通过新一代分布式数据库技术,助力东莞农商银行智慧化转型. 本次合 ...
最新文章
- 每天学习java一小时_java再学感受 - 编程一小时的个人空间 - OSCHINA - 中文开源技术交流社区...
- 知识点的积累(零碎的积累)
- ubuntu下vim的命令及使用方法
- Web Form中的Datagrid的自定义分页
- css rem 大屏开发_px/em/rem的区别与应用
- 要闻君说:华为发布2018年年度报告:全球销售收入超千亿美元;微软”立誓“不过愚人节;大众与AWS一起做工业汽车云...
- 《大话设计模式》笔记(1)——创建型模式
- mysql where非常规用法_MySQL where 条件的这个坑你碰到过没
- java写一个音乐播放程序,同时显示歌词
- 阅读,点亮盐城北大青鸟学子的学习生涯
- Python----python手机号码格式校验
- 2022 极术通讯-安谋科技“星辰”STAR-MC2处理器初探
- post-processing effects HDR
- 【瑞模网】3dmax渲染完就卡住不动,渲染崩溃是怎么回事?
- Qt TCP/IP(多客户端连接服务器)多个客户端同时登陆的聊天室示例
- Linux查看CUDA版本以及nvcc: command not found
- 快速排序算法(图解+代码)
- C 语言 rand() 和 srand() 使用方法
- matlab模糊工具箱使用,MATLAB中模糊神经网络工具箱的使用 - 全文
- 高血压患者禁吃葡萄柚
热门文章
- 现有华为手机可以使用鸿蒙系统吗,【图片】华为鸿蒙系统的厉害之处在于 你可能非用不可
!【手机吧】_百度贴吧...
- Subversion的安装与使用
- 计算机的数值与编码教程,计算机数据表示方法及工业标准IEEE754讲解教程
- js小白之路(八)——正则表达式
- 激发数字新活力 打造发展新优势
- 1.数据结构与算法相关问题与解决技巧
- 【CE实战-生化危机4重置版】实现角色瞬移、飞翔
- uni-app view组件基本使用
- 2014策马奔腾(2),日新月异
- CentOS7.6 开启 Telnet 服务