Hive

Hbase

存储介质:

https://www.zhihu.com/question/46392643?sort=created

请问,在家里攒一套 100TB-200TB 的存储有什么架构方案可以借鉴的?

  1. 预算10万以内,性价比越高越好
  2. 带宽和吞吐量不是很重要,USB 3.0/千兆LAN 单出口都可以接受,软raid硬raid都行
  3. 可以是机柜形式,有单间机房
  4. 耗电无所谓,噪声小一点
  5. 可靠,2-3年内只需要更换坏掉的HDD或SSD,最多换换风扇
  6. 软硬件架构都需要信息参考和指导

与 Hadoop 对比,如何看待 Spark 技术? - 知乎

http://www.pp1pp.com/news/detail/1285

https://www.zhihu.com/question/56577327

1万亿条,每条10K,也就是 1T*10K = 10PB,以每秒 175MB的速度写入,大概需要 710天。

假定你搭个 100个结点的集群,每个结点就是 100TB,然后每个结点以 175MB 的速度写入,大约需要一个星期写满,这还不包括冗余。

在这个数据量下要求实时搜索性能高,建议你注明下搜索性能要高到什么程度。

作者:雷鹏
链接:https://www.zhihu.com/question/56577327/answer/226815332
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

https://www.zhihu.com/question/20004877

分布式与集群的区别是什么?

RAID50
RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。RAID50具备更高的容错能力,因为它允许某个组内有一个磁盘出现故障,而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上,故重建速度有很大提高。优势:更高的容错能力,具备更快数据读取速率的潜力。需要注意的是:磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。
存储服务器
https://blog.csdn.net/fgf00/article/details/52592651/
DAS、SAN和NAS三种服务器存储方式
https://blog.csdn.net/Celeste7777/article/details/48711169?utm_source=blogxgwz31
DAS,NAS,SAN和ISCSI存储架构介绍
https://www.csdn.net/article/2011-06-14/299663

统一存储
统一存储具体概念:
  统一存储,实质上是一个可以支持基于文件的网络附加存储(NAS)以及基于数据块的SAN的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储,因此也被称为多协议存储。
  基本简介:
  统一存储(有时也称网络统一存储或者NUS)是一个能在单一设备上运行和管理文件和应用程序的存储系统。为此,统一存储系统在一个单一存储平台上整合基于文件和基于块的访问,支持基于光纤通道的SAN、基于IP的SAN(iSCSI)和NAS(网络附加存储)。
  工作方式:
  既然是一个集中化的磁盘阵列,那么就支持主机系统通过IP网络进行文件级别的数据访问,或通过光纤协议在SAN网络进行块级别的数据访问。同样,iSCSI亦是一种非常通用的IP协议,只是其提供块级别的数据访问。这种磁盘阵列配置多端口的存储控制器和一个管理接口,允许存储管理员按需创建存储池或空间,并将其提供给不同访问类型的主机系统。最通常的协议一般都包括了NAS和FC,或iSCSI和FC。当然,也可以同时支持上述三种协议的,不过一般的存储管理员都会选FC或iSCSI中的一种,它们都提供块级别的访问方式,和文件级别的访问方式(NAS方式)组成统一存储。
存储架构方案。

https://blog.csdn.net/cuiyaonan2000/article/details/80226556

Hadoop、Spark、HBase与Redis的适用性见解

知乎技术分享:从单机到2000万QPS并发的Redis高性能缓存实践之路

http://www.cnblogs.com/imstudy/p/9668257.html

RAID50
RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。RAID50具备更高的容错能力,因为它允许某个组内有一个磁盘出现故障,而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上,故重建速度有很大提高。优势:更高的容错能力,具备更快数据读取速率的潜力。需要注意的是:磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。
存储服务器
https://blog.csdn.net/fgf00/article/details/52592651/
DAS、SAN和NAS三种服务器存储方式
https://blog.csdn.net/Celeste7777/article/details/48711169?utm_source=blogxgwz31
DAS,NAS,SAN和ISCSI存储架构介绍
https://www.csdn.net/article/2011-06-14/299663

统一存储
统一存储具体概念:
  统一存储,实质上是一个可以支持基于文件的网络附加存储(NAS)以及基于数据块的SAN的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储,因此也被称为多协议存储。
  基本简介:
  统一存储(有时也称网络统一存储或者NUS)是一个能在单一设备上运行和管理文件和应用程序的存储系统。为此,统一存储系统在一个单一存储平台上整合基于文件和基于块的访问,支持基于光纤通道的SAN、基于IP的SAN(iSCSI)和NAS(网络附加存储)。
  工作方式:
  既然是一个集中化的磁盘阵列,那么就支持主机系统通过IP网络进行文件级别的数据访问,或通过光纤协议在SAN网络进行块级别的数据访问。同样,iSCSI亦是一种非常通用的IP协议,只是其提供块级别的数据访问。这种磁盘阵列配置多端口的存储控制器和一个管理接口,允许存储管理员按需创建存储池或空间,并将其提供给不同访问类型的主机系统。最通常的协议一般都包括了NAS和FC,或iSCSI和FC。当然,也可以同时支持上述三种协议的,不过一般的存储管理员都会选FC或iSCSI中的一种,它们都提供块级别的访问方式,和文件级别的访问方式(NAS方式)组成统一存储。
存储架构方案
分布式文件系统与服务器存储方式
分布式文件系统比较
作者:知乎用户
链接:https://www.zhihu.com/question/26993542/answer/129451667
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
既然是关于分布式文件系统的,就多说几句
***GlusterFS
1.GlusterFS 文件系统标准的posix接口支持,可以做分布式NAS,也有人HPC(高性能计算),甚至支持KVM的虚机卷;做分布式NAS最多,其他方面用的不多,很多互联网视频公司用GlusterFS来做片库;
POSIX表示可移植操作系统接口(Portable Operating System Interface of UNIX,缩写为 POSIX ),为一个POSIX兼容的操作系统编写的程序,应该可以在任何其它的POSIX操作系统(即使是来自另一个厂商)上编译执行。
 
ceph
2.ceph,支持块ceph RBD,对象ceph RGW,文件cephfs;ceph RBD和ceph RGW比较成熟,在openstack社区比较火,做虚机块存储用的很多,cephfs的前期bug比较多,社区目前也在解决这些问题;
3.Lustre,比较老牌的分布式文件系统,部署在多个san阵列上,不支持副本,支持分布式锁,主要做HPC高性能计算;
4.HDFS只支持追加写,设计中没有考虑修改写、截断写、稀疏写等复杂的posix语义,目的并不是通用的文件系统,一般作为hadoop ecosystem的存储引擎;
5.moosefs 比较接近GoogleFS的c++实现,通过fuse支持了标准的posix,算是通用的文件系统,可惜社区不是太活跃;
6.IBM的GPFS也是一个很老牌的分布式文件系统,非常强大,有两个分支,一个是通用文件系统,一个是兼容hadoop mapreduce,可惜没有开源,国内也没人买的起;
7.facebook Haystack是一个专有的图片存储系统的原型,适合小文件和worm场景(write once read many),本身并没有开源,github上已经有一个比较成熟的实现Terry-Mao/bfs(不是百度的BFS)
注意:
与Hadoop对比,如何看待spark技术
Hadoop解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。
HDFS:在由普通PC组成的集群上提供高可靠地文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。
MapReduce:通过将简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠集群上并发地、分布式地处理大量的数据集,而把并发、分布式(如机器间通信)和故障恢复等计算细节隐藏起来。而Mapper和Reducer的抽象,又是各种各样的复杂数据处理都可以分解为的基本元素。这样,复杂的数据处理可以分解为由多个Job(包含一个Mapper和一个Reducer)组成的有向无环图(DAG),然后每个Mapper和Reducer放到Hadoop集群上执行,就可以得到结果。

大数据的技术基础:MapReduce、Google File System和BigTable

2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。

MapReduce是分布式计算框架,GFS(Google File System)是分布式文件系统,BigTable是基于Google File System的数据存储系统,这三大组件组成了Google的分布式计算模型。

Google的分布式计算模型相比于传统的分布式计算模型有三大优势:首先,它简化了传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。其次,它可以应用在廉价的计算设备上,只需增加计算设备的数量就可以提升整体的计算能力,应用成本十分低廉。最后,它被Google应用在Google的计算中心,取得了很好的效果,有了实际应用的证明。

后来,各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统,Google的这三篇论文也就成为了大数据时代的技术核心。

主流的三大分布式计算系统:Hadoop,Spark和Storm

由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。

Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。

Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。

不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。

Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。

Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。

100TB大数据存储方案相关推荐

  1. 分布式医疗大数据存储方案研究综述

    摘要 医疗数据属于大数据的一种,具有数据量大.增长迅速.多模态.高价值.重隐私等特点.针对医疗数据特点,如何对其进行统一.高效的组织管理是目前重要的研究方向.为此,通过阐述医疗数据特点,分析其存储需求 ...

  2. 大数据存储技术方案介绍

    2019独角兽企业重金招聘Python工程师标准>>> 大数据存储方案 Cap思想 分布式领域CAP理论, Consistency(一致性), 数据一致更新,所有数据变动都是同步的 ...

  3. 给我一个西门子plc采集大数据存储与分析方案

    对于西门子PLC采集大数据存储与分析方案,下面是一个建议: 数据采集: 在PLC中设置数据采集程序,以记录关键数据并定期发送到数据存储仓库. 数据存储: 使用大数据存储技术,例如 Hadoop.Spa ...

  4. 澄清大数据存储——系统集成商篇

    大数据考验整合能力 大数据在带来新的商机和用户的同时,也带来了诸多挑战. 大数据存储主要考验的是技术整合能力和资源整合能力. 大数据是一项持久的工程,也是一个不断迭代的过程,不能一蹴而就. 业务集中在 ...

  5. 证券期货行业监管大数据治理方案研究

    证券期货行业监管大数据治理方案研究 蒋东兴1, 高若楠2, 王浩宇2 1. 中国证券监督管理委员会信息中心,北京 100033: 2. 中证信息技术服务有限责任公司,北京 100033 摘要:为充分发 ...

  6. Android Learning:数据存储方案归纳与总结

    前言 最近在学习<第一行android代码>和<疯狂android讲义>,我的感触是Android应用的本质其实就是数据的处理,包括数据的接收,存储,处理以及显示,我想针对这几 ...

  7. 管理大数据存储的十大技巧

    在1990年,每一台应用服务器都倾向拥有直连式系统(DAS).SAN的构建则是为了更大的规模和更高的效率提供共享的池存储.Hadoop已经逆转了这一趋势回归DAS.每一个Hadoop集群都拥有自身的- ...

  8. HBase实战 | 从MySQL到HBase:数据存储方案转型的演进

    作者介绍 杨宏志,知乎首页架构负责人,主要负责首页工程化建设.工程架构优化.性能提升等工作.知乎专栏:https://zhuanlan.zhihu.com/c_195355141 本文转载自dbapl ...

  9. 基于HBase的大数据存储在京东的应用场景

    引言 HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群.因 ...

最新文章

  1. java double储存原理_Java内存分配原理
  2. tushare股票数据接口
  3. vim之好用插件-ctrlp.vim
  4. 空值替换为0_「Excel」是零值还是空值,你可以自由掌控
  5. 学习记录1-python图片分割transforms方法
  6. 前端面试之webpack面试常见问题
  7. python 类方法 静态方法_Python静态方法和类方法
  8. U 盘安装 CentOS的方法
  9. linux_systemd启动方式解析,如何开机自动登录,开机自动运行程序
  10. echo和narcissus寓意_【故事】三毛的英文名Echo,有什么含义?
  11. Android基础篇-四大组件之使用ContentProvider实现数据共享
  12. 沧州中考计算机考试时间,2017年沧州市中考考试科目及时间
  13. 计算机组成原理之MIPS汇编:冒泡排序
  14. 梯度下降算法_Adam-一种随机优化算法
  15. 朴素贝叶斯法及python实现
  16. Cortex-M3处理器内核与基于Cortex-M3的MCU关系
  17. 计算机专业考研复试(前沿知识篇)
  18. 数字孪生开发 数字孪生用什么软件实现
  19. HICO/HICO-Det 数据集介绍
  20. HDU3527(杭电)spy问题

热门文章

  1. Hermite插值及其Julia实现
  2. 常见室内定位技术对比,你了解吗?
  3. 转: SteveY对Amazon和Google平台的长篇大论
  4. telnet mysql3306端口失败
  5. php 图片 放大镜,详解html5实现图像局部放大镜(可调节)(图文)
  6. OneVPS云服务评测以及基础的搭建教程(二)
  7. PMP通过率暴跌,是否跟新大纲有关?
  8. Win10 PowerShell命令大全
  9. gradle打包流程(一)--- 整体把控
  10. matlab l 汉字字符串,MATLAB字符串