谈谈大数据架构下的存储系统
相信了解过大数据的小伙伴们,对大数据架构的各个组件的名称和大致作用肯定有一定的了解。那我们来看看那些属于存储系统吧1.hadoop,毫无疑问,它肯定是存储系统,用来存储分布式文件的。从存取速度角度来说,它的速度并不快。从数据量来说,海亮数据存储说的就是以它为鼻祖的组件。他并不擅长存取大量的小文件。适合存储大文件。因为文件的元数据信息保存在namenode的内存中,这个数据结构决定了不能存储太多小文件。
2.hive,它不是存储系统,它是一个基于hadoop的数据仓库,即可以讲存储在hadoop上的结构化文件的内容转化为数据库的逻辑结构。没有了hadoop,hive将无法运行。
3.hbase,他是一个存储系统,不基于hadoop运行,它有自己的文件存储实现。适合来做大量数据的随机读。它需要借助于zookeeper来提供集群管理。
4.kafka,它是一个就是的消息中间件,是一个存储系统。它将发送到它的消息以顺序的形式写入文件,故可以提供快速的磁盘读。它不能存储文件,而是存储消息。
5.zookeeper,它是一个分布式协调服务,它的内部可以存储数据,但不存储文件。而且设计的原理就是为了分布式协调而来,故对文件化存储不支持,也不要用它来做这个。
6.spark,flink等计算框架,这些计算框架里不支持数据存储,它们是做为调用存储系统中的数据,计算后写入存储的一个系统。
7.其他数据库组件,其他关于数据库的组件,基本都是有自己数据存储的模块实现,如es,CK,doris,kudu等。这里就不做一一介绍了。
当然了,也还有其他组件,去数据湖组件,我这边基本没有接触过。有兴趣的小伙伴可以留言。我这里会做相应的分享。
谈谈大数据架构下的存储系统相关推荐
- 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...
背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...
- 云原生大数据架构中实时计算维表和结果表的选型实践
简介: 随着互联网技术的日渐发展.数据规模的扩大与复杂的需求场景的产生,传统的大数据架构无法承载. 作者 | 志羽 来源 | 阿里技术公众号 一 前言 传统的大数据技术起源于 Google 三架马车 ...
- 看大数据时代下的IT架构(1)图片服务器之演进史
柯南君的公司最近产品即将上线,由于产品业务对图片的需求与日俱增,花样百出,与此同时,在大数据时代,大流量的冲击下,对图片服务器的压力可想而知,那么今天,柯南君结合互联网的相关热文,加上 ...
- 柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)...
二.Work Queues(using the Java Client) 走起 在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工作者 ...
- 柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航)...
柯南君:看大数据时代下的IT架构(4)消息队列之RabbitMQ--案例(Helloword起航) 二.起航 本章节,柯南君将从几个层面,用官网例子讲解一下RabbitMQ的实操经典程序案例,让大家重 ...
- 混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践
摘要:2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 "混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践" 为题的演讲.本文讲述了从 ...
- 独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)
金秋九月,2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议盛大开幕,大数据系统软件国家工程实验室作为大数据系统软件技术研发与工程化的国家级创新平台,将通过大数据系统软件技 ...
- 大数据架构如何做到流批一体?
阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值.这也是当下许多企业,在大数据上深耕的原因.大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发 ...
- 大数据架构如何做到流批一体?【对于Flink等流批一体的概念做了很好的澄清!】
导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值.这也是当下许多企业,在大数据上深耕的原因.大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发展?今 ...
最新文章
- 用python做算法_自己用python写的螺旋矩阵生成算法
- 不会MySQL索引,面试官让回家等通知!
- 百度小程序--支付功能
- Mybatis如何打印sql语句
- python 实现简单查询页面_python web 实现简易天气查询
- 如何在MySQL中创建存储过程
- windows下git安装
- .net反混淆脱壳工具de4dot的使用
- mysql取值范围1-10_mysql各种数据类型取值范围
- 如何用快解析自制IoT云平台
- 几个免费IP地址查询API接口
- 新·自学日语教材推荐加点评
- hive优化——并行执行
- Flutter系列-flutter路由管理
- Python 斐波那契数列 及 杨辉三角
- LINQ查询————八大基本子句
- C++ 的图形界面(UI)库
- ati显卡驱动的安装 linux,Fedora 18 下ATI 显卡驱动的安装
- 分享25个很棒的网页设计教程和资源网站
- ET篇:master客户端学习(框架初始化流程的介绍)
热门文章
- 揭秘 Google 成长史:荒诞梦想的副产品
- Java switch和break用法
- leangoo大讲堂—北京站
- Python-玩转数据-selenium库
- Android 签名机制原理解析和V1 、V2签名区别
- 百度首次元宇宙里开大会,李彦宏:智能交通将使5年内一线城市不再限购限行...
- 打通MySQL架构和业务的任督二脉
- Python批量对DJ歌曲进行下载,配合电子木鱼更佳
- 用计算机演奏香蜜的歌曲,杨紫新剧《蜜汁炖鱿鱼》上演计算机天才,搭档李现CP感爆棚...
- vue+springboot+java志愿者活动报名网站系统maven源码