大数据的典型特征,包括数据量大、数据类型多、价值密度低等,而具备这样特征的数据,在进入到存储阶段时,就需要根据数据类型及场景,来匹配适当的数据存储解决方案。今天我们来讲讲Java大数据开发当中,必须掌握的四种数据库。

大数据时代的数据,我们可以大致分为结构化数据和非结构化数据。其中,结构化数据,主要是依靠传统的关系型数据库去存储,比如说Oracle、MySQL、PostgreSQL等,都是关系型数据库的代表。

而比结构化数据,更加庞大的非结构化数据(其中也包括半结构化数据),则主要依靠非关系型数据库来完成存储。对于大数据开发者而言,非关系型数据库(NoSQL)也有不同的类型,需要匹配不同的场景需求来进行选择。

MongoDB

MongoDB,可以说是大数据时代的数据库代表作了。MongoDB最大的特点是表结构灵活可变,字段类型可以随时修改。MongoDB中的每一行数据只是简单的被转化成Json格式后存储,没有表结构的限制。

没有表结构这一点,对于MongoDB来说,带来了优势,当然也存在一定的缺陷,比如说在多表查询、复杂事务等高级操作上,MongoDB就显得不够优秀了。

得益于MongoDB的这些特点,MongoDB很适合那些表结构经常改变,数据的逻辑结构又没那么复杂不需要多表查询操作,数据量又比较大的应用场景。

Redis

Redis是现在最热门的key-value数据库。Redis的最大特点当然就是key-value存储所带来的简单和高性能了。

所谓key-value存储,就是每一条记录只包含一个用于查询数据的Key,以及与之对应的存储数据的value,就如同现实生活中的门牌号与住户,而没有诸如表、字段这些常规数据库中必需有的复杂概念,所有的查询都仅仅依赖于key值。

得益于这种简单的结构,再加上Redis会把所有数据加载到内存中的,Redis相比常规数据库的读写性能得到了极大的提升。并且,Redis还支持数据持久化,list、set等多种数据结构,主从复制备份等功能,堪称简单易用。

同样地,因为数据结构的简单,Redis对复杂查询的支持也有限,不能支持多列查询、区段查询等。总的来说,Redis更适用于读写性能要求极高,且数据表结构简单、查询条件也同样简单的应用场景。

ElasticSearch

ElasticSearch,严格来说,其实不算是数据库,而是搜索引擎,这个产品本身也是围绕搜索来设计的。

ES的典型优势就是,支持全文搜索,在对中文的支持上也比较友好(单是中文分词器就有很多种)。ES通过建立倒排索引实现全文搜索,以实现对存入ES中的所有数据进行快速检索,就算是非常复杂的聚合查询也可以得到不错的性能。

当然,ES也同样有不足,最明显的就是字段类型无法修改、写入性能较低和高硬件资源消耗。这就注定了ES不适用于数据价值不高、对写入性能有要求、数据量大而成本受限的场景下。

Hbase

HBase作为Hadoop生态当中的重要组件,说是大数据必学,相信没有人会反对。HBase最大的优点,就是对海量数据的支持,以及极强的横向(存储容量)扩展能力。

Hbase的存储和Redis类似,为每一行数据定义一个key,之后所有的查询都依赖这个key进行。但是Hbase的不同在于,一行数据还可以有非常多的列项,数据会按照列进行分组和存储,同一列的数据存储在同一个地方。

HBase的列式存储特性带来了海量数据规模的支持和极强的扩展能力,但是也给数据的读取带来很大的局限。由于只有同一列族的数据才会被存放在一起,而且所有的查询都必须要依赖Key,这就使得很多复杂查询难以进行。

简单来说,HBase适合数据量极大,查询条件简单,列与列之间联系不大的轻查询应用场景。

小结一下:

以上四种,可以说是大数据开发必须掌握的四款数据库,能够满足绝大多数场景下的数据存储需求,不同的数据库适用于不同的场景,如何去选择就要考察开发者的选型能力了。

Java大数据:大数据开发必须掌握的四种数据库相关推荐

  1. 大数据时代MongoDB、ES、Redis、HBase这四种数据库你应该懂

    数据库对互联网开发的重要性就不必多说了.作为大数据和AI时代的互联网er,如果你还是只懂MySQL,那你可就火星大发了.下面给大家总结下每个互联网er都必须懂的几种数据库产品. MongoDB Mon ...

  2. 计算机毕业设计Java智慧社区信息管理系统开发(源码+系统+mysql数据库+lw文档)

    计算机毕业设计Java智慧社区信息管理系统开发(源码+系统+mysql数据库+lw文档) 计算机毕业设计Java智慧社区信息管理系统开发(源码+系统+mysql数据库+lw文档) 本源码技术栈: 项目 ...

  3. xlsx表格怎么筛选重复数据_excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法...

    excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法,最近到了季度汇报的时候,掌握一手excel技能在此刻显得多么重要,为了是你的excel看起来更高大上,今天教大家设置 ...

  4. java计算机毕业设计vue.js开发红酒网站源码+mysql数据库+系统+lw文档+部署

    java计算机毕业设计vue.js开发红酒网站源码+mysql数据库+系统+lw文档+部署 java计算机毕业设计vue.js开发红酒网站源码+mysql数据库+系统+lw文档+部署 本源码技术栈: ...

  5. Matlab中将数据保存为txt或dat格式四种方法

    转载于 Tsingke 老师的文章--Matlab中将数据保存为txt或dat格式四种方案 - Tsingke - 博客园.                                       ...

  6. stream去重_重复数据如何处理?List集合去重的四种方式

    List集合在Java日常开发中是必不可少的,只要懂得运用各种各样的方法就可以大大提高我们开发的效率,适当活用各种方法才会使我们开发事半功倍.但是,有时候难免会遇到集合里的数据是重复的,需要进行去除. ...

  7. 知道接口地址 如何传数据_如何选显示器连接线?四种主流接口要知道

    前两天家里电脑显示器的线坏了,火急火燎的买了根线,谁知道买回来之后接口不匹配,不能用.显示器为什么要有这么多接口呢?这些接口又有什么区别呢?必须把它搞清楚!这不,经过我的不屑努力,终于搞明白了,马不停 ...

  8. 全网最详细SoilGrid数据的下载与提取(含四种方法)

    方法一:R语言 (可直接提取并导出数据,快慢依电脑性能和网速而定...) soil_world在R中的使用指南(可以直接调用SG的数据) 代码如下 ///感谢zihao师兄鼎力相助 install.p ...

  9. Java vs Kotlin,Android开发人员应该选择哪种语言?

    自 Google 于 2017 年宣布 Kotlin 成为 Google IO 的 Android 开发官方语言以来,想要成为Android开发人员的程序员正陷入两难境地. 在讨论这个问题前,我首先要 ...

最新文章

  1. python 怎么将数组转为列表_图片转换成pdf格式怎么操作?什么软件能将图片转为pdf?...
  2. mysql每个类型查三条_Mysql的几个灵魂拷问(三)
  3. python利器手机版-将安卓手机打造成你的python全栈开发利器
  4. Linux - 磁盘操作
  5. DC/DC变换器的典型拓扑
  6. 开创手机影像全新时代的微云台要来了!vivo X系列夏季新品发布会今晚高能来袭...
  7. Windows安装RabbitMQ集群的几个注意点
  8. anaconda怎么打开python3.7,使用anaconda更新到python 3.7
  9. HTML5的文档声明
  10. 安卓圆形头像制作两种方法。
  11. 计算机管理-磁盘管理中进行扩展卷操作,Win8系统如何进行磁盘管理?
  12. 乐高机器人 搭建钟摆_乐高创意百变31088拼搭指北:深海生物大鲨鱼,拼成3变变形金刚...
  13. php reactphp wss_swoole 使用websocket建立wss连接
  14. 常用数学公式,推导记录
  15. 根据心电信号计算心率的matlab代码
  16. Java处理Excel文件工具包-easyexcel使用详解
  17. 微服务架构通讯模式架构分析
  18. python如何把ts视频拼接起来_Python爬取网站m3u8视频,将ts解密成mp4,合并成整体视频...
  19. jquery开关灯案例_jQuery实现开关灯效果
  20. python爬虫音乐犯法么_Python爬虫案例:爬取网易云音乐

热门文章

  1. Daily English Dictation Number Four
  2. 二进制、八进制、十进制与十六进制,最全,没有之一
  3. 华为防火墙跨三层mac识别配置
  4. 2023 云塔IDC系统程序开源源码
  5. optfine的jar文件打不开_电脑如果打不开jar文件的解决办法
  6. 《商业的本质》—— 商业篇
  7. 想考PMP,殊不知没有达到报考条件?小场面,莫慌~
  8. EFM32例程——DAC
  9. 10年Java开发,准备去腾讯了~
  10. 织梦仿XDGAME下载游戏网站源码 可做资讯网站