请问，在家里攒一套 100TB-200TB 的存储有什么架构方案可以借鉴的？

预算10万以内，性价比越高越好
带宽和吞吐量不是很重要，USB 3.0/千兆LAN 单出口都可以接受，软raid硬raid都行
可以是机柜形式，有单间机房
耗电无所谓，噪声小一点
可靠，2-3年内只需要更换坏掉的HDD或SSD，最多换换风扇
软硬件架构都需要信息参考和指导

与 Hadoop 对比，如何看待 Spark 技术？ - 知乎

http://www.pp1pp.com/news/detail/1285

https://www.zhihu.com/question/56577327

1万亿条，每条10K，也就是 1T*10K = 10PB，以每秒 175MB的速度写入，大概需要 710天。

假定你搭个 100个结点的集群，每个结点就是 100TB，然后每个结点以 175MB 的速度写入，大约需要一个星期写满，这还不包括冗余。

在这个数据量下要求实时搜索性能高，建议你注明下搜索性能要高到什么程度。

作者：雷鹏
链接：https://www.zhihu.com/question/56577327/answer/226815332
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

https://www.zhihu.com/question/20004877

分布式与集群的区别是什么？

RAID50
RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。RAID50具备更高的容错能力，因为它允许某个组内有一个磁盘出现故障，而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上，故重建速度有很大提高。优势：更高的容错能力，具备更快数据读取速率的潜力。需要注意的是：磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。
存储服务器
https://blog.csdn.net/fgf00/article/details/52592651/
DAS、SAN和NAS三种服务器存储方式
https://blog.csdn.net/Celeste7777/article/details/48711169?utm_source=blogxgwz31
DAS,NAS,SAN和ISCSI存储架构介绍
https://www.csdn.net/article/2011-06-14/299663

https://blog.csdn.net/cuiyaonan2000/article/details/80226556

Hadoop、Spark、HBase与Redis的适用性见解

知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

http://www.cnblogs.com/imstudy/p/9668257.html

统一存储
统一存储具体概念：
　　统一存储，实质上是一个可以支持基于文件的网络附加存储（NAS）以及基于数据块的SAN的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储，因此也被称为多协议存储。
　　基本简介：
　　统一存储（有时也称网络统一存储或者NUS）是一个能在单一设备上运行和管理文件和应用程序的存储系统。为此，统一存储系统在一个单一存储平台上整合基于文件和基于块的访问，支持基于光纤通道的SAN、基于IP的SAN（iSCSI）和NAS（网络附加存储）。
　　工作方式：
　　既然是一个集中化的磁盘阵列，那么就支持主机系统通过IP网络进行文件级别的数据访问，或通过光纤协议在SAN网络进行块级别的数据访问。同样，iSCSI亦是一种非常通用的IP协议，只是其提供块级别的数据访问。这种磁盘阵列配置多端口的存储控制器和一个管理接口，允许存储管理员按需创建存储池或空间，并将其提供给不同访问类型的主机系统。最通常的协议一般都包括了NAS和FC，或iSCSI和FC。当然，也可以同时支持上述三种协议的，不过一般的存储管理员都会选FC或iSCSI中的一种，它们都提供块级别的访问方式，和文件级别的访问方式（NAS方式）组成统一存储。
存储架构方案
分布式文件系统与服务器存储方式
分布式文件系统比较
作者：知乎用户
链接：https://www.zhihu.com/question/26993542/answer/129451667
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
既然是关于分布式文件系统的，就多说几句
***GlusterFS
1.GlusterFS 文件系统标准的posix接口支持，可以做分布式NAS，也有人HPC（高性能计算），甚至支持KVM的虚机卷；做分布式NAS最多，其他方面用的不多，很多互联网视频公司用GlusterFS来做片库；
POSIX表示可移植操作系统接口（Portable Operating System Interface of UNIX，缩写为 POSIX ），为一个POSIX兼容的操作系统编写的程序，应该可以在任何其它的POSIX操作系统（即使是来自另一个厂商）上编译执行。

ceph
2.ceph，支持块ceph RBD，对象ceph RGW，文件cephfs；ceph RBD和ceph RGW比较成熟，在openstack社区比较火，做虚机块存储用的很多，cephfs的前期bug比较多，社区目前也在解决这些问题；
3.Lustre，比较老牌的分布式文件系统，部署在多个san阵列上，不支持副本，支持分布式锁，主要做HPC高性能计算；
4.HDFS只支持追加写，设计中没有考虑修改写、截断写、稀疏写等复杂的posix语义，目的并不是通用的文件系统，一般作为hadoop ecosystem的存储引擎；
5.moosefs 比较接近GoogleFS的c++实现，通过fuse支持了标准的posix，算是通用的文件系统，可惜社区不是太活跃；
6.IBM的GPFS也是一个很老牌的分布式文件系统，非常强大，有两个分支，一个是通用文件系统，一个是兼容hadoop mapreduce，可惜没有开源，国内也没人买的起；
7.facebook Haystack是一个专有的图片存储系统的原型，适合小文件和worm场景（write once read many），本身并没有开源，github上已经有一个比较成熟的实现Terry-Mao/bfs（不是百度的BFS）
注意：
与Hadoop对比，如何看待spark技术
Hadoop解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。
HDFS：在由普通PC组成的集群上提供高可靠地文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。
MapReduce:通过将简单的Mapper和Reducer的抽象提供一个编程模型，可以在一个由几十台上百台的PC组成的不可靠集群上并发地、分布式地处理大量的数据集，而把并发、分布式（如机器间通信）和故障恢复等计算细节隐藏起来。而Mapper和Reducer的抽象，又是各种各样的复杂数据处理都可以分解为的基本元素。这样，复杂的数据处理可以分解为由多个Job(包含一个Mapper和一个Reducer)组成的有向无环图（DAG）,然后每个Mapper和Reducer放到Hadoop集群上执行，就可以得到结果。

大数据的技术基础：MapReduce、Google File System和BigTable

2003年到2004年间，Google发表了MapReduce、GFS（Google File System）和BigTable三篇技术论文，提出了一套全新的分布式计算理论。

MapReduce是分布式计算框架，GFS（Google File System）是分布式文件系统，BigTable是基于Google File System的数据存储系统，这三大组件组成了Google的分布式计算模型。

Google的分布式计算模型相比于传统的分布式计算模型有三大优势：首先，它简化了传统的分布式计算理论，降低了技术实现的难度，可以进行实际的应用。其次，它可以应用在廉价的计算设备上，只需增加计算设备的数量就可以提升整体的计算能力，应用成本十分低廉。最后，它被Google应用在Google的计算中心，取得了很好的效果，有了实际应用的证明。

后来，各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统，Google的这三篇论文也就成为了大数据时代的技术核心。

主流的三大分布式计算系统：Hadoop，Spark和Storm

由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。

Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席，主持Hadoop的开发工作。

Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop在运算速度上依然达不到Google论文中的标准。

不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon以及国内的百度，阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。

Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

100TB大数据存储方案相关推荐

分布式医疗大数据存储方案研究综述
摘要医疗数据属于大数据的一种,具有数据量大.增长迅速.多模态.高价值.重隐私等特点.针对医疗数据特点,如何对其进行统一.高效的组织管理是目前重要的研究方向.为此,通过阐述医疗数据特点,分析其存储需求 ...
大数据存储技术方案介绍
2019独角兽企业重金招聘Python工程师标准>>> 大数据存储方案 Cap思想分布式领域CAP理论, Consistency(一致性), 数据一致更新,所有数据变动都是同步的 ...
给我一个西门子plc采集大数据存储与分析方案
对于西门子PLC采集大数据存储与分析方案,下面是一个建议: 数据采集: 在PLC中设置数据采集程序,以记录关键数据并定期发送到数据存储仓库. 数据存储: 使用大数据存储技术,例如 Hadoop.Spa ...
澄清大数据存储——系统集成商篇
大数据考验整合能力大数据在带来新的商机和用户的同时,也带来了诸多挑战. 大数据存储主要考验的是技术整合能力和资源整合能力. 大数据是一项持久的工程,也是一个不断迭代的过程,不能一蹴而就. 业务集中在 ...
证券期货行业监管大数据治理方案研究
证券期货行业监管大数据治理方案研究蒋东兴1, 高若楠2, 王浩宇2 1. 中国证券监督管理委员会信息中心,北京 100033: 2. 中证信息技术服务有限责任公司,北京 100033 摘要:为充分发 ...
Android Learning：数据存储方案归纳与总结
前言最近在学习<第一行android代码>和<疯狂android讲义>,我的感触是Android应用的本质其实就是数据的处理,包括数据的接收,存储,处理以及显示,我想针对这几 ...
管理大数据存储的十大技巧
在1990年,每一台应用服务器都倾向拥有直连式系统(DAS).SAN的构建则是为了更大的规模和更高的效率提供共享的池存储.Hadoop已经逆转了这一趋势回归DAS.每一个Hadoop集群都拥有自身的- ...
HBase实战 | 从MySQL到HBase：数据存储方案转型的演进
作者介绍杨宏志,知乎首页架构负责人,主要负责首页工程化建设.工程架构优化.性能提升等工作.知乎专栏:https://zhuanlan.zhihu.com/c_195355141 本文转载自dbapl ...
基于HBase的大数据存储在京东的应用场景
引言 HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群.因 ...

100TB大数据存储方案