大数据的4V特征

公司的“大数据”

随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;

2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

……

三国里的“大数据”

“草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

Google分布式计算的三驾马车

Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。

Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。

BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

Hadoop体系架构

Hadoop核心设计

HDFS介绍-文件读流程

Client向NameNode发起文件读取的请求。

NameNode返回文件存储的DataNode的信息。

Client读取文件信息。

HDFS介绍-文件写流程

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

MapReduce——映射、化简编程模型

输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果

Hbase——分布式数据存储系统

Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

HMaster: 管理用户对表的增删改查操作

HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

HStore:HBase存储的核心。由MemStore和StoreFile组成。

HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

还有哪些NoSQL产品?

为什么要使用NoSQL?

一个高并发网站的DB进化史

关系模型>聚合数据模型的转换-基本变换

关系模型>聚合数据模型的转换-内嵌变换

关系模型>聚合数据模型的转换-分割变换

关系模型>聚合数据模型的转换-内联变换

Hadoop2.0

MapReduce:

JobTracker:协调作业的运行。

TaskTracker:运行作业划分后的任务。

大数据的技术领域

公司数据处理平台的基础架构

公司大数据平台架构图

应用一数据分析

应用二视频存储

应用三离线日志分析

互联互通社区

互联互通社区专注于IT互联网交流与学习,旨在打造最具价值的IT互联网智库中心,关注公众号:互联互通社区,每日获取最新报告并附带专题内容辅助学习。

方案咨询、数字化转型、中台建设、前沿技术培训与交流,合作请+微信:hulianhutongshequ

一文详解大数据平台架构相关推荐

  1. 万字详解大数据平台异地多机房架构实践

    大家好,我是一哥,我在18年的时候刚好经历过一次机房的数据迁移,之前也给大家分享给 → 你经历过完整的大数据平台迁移吗?,今天看到B站的这个方案,推荐给大家~ 01 背景 随着B站业务的高速发展,业务 ...

  2. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  3. 《程序员》11月精彩内容:大数据平台架构与技术实践

    本期<程序员>呈现大数据平台架构与技术实践精彩内容,汇聚来自去哪儿.游族网络.链家网.万达金融等公司的技术专家,将带领读者共同探讨热门技术应用和实践优化,深入解析蕴藏的数据价值,展现时下大 ...

  4. 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

    导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...

  5. 一文读懂大数据平台——写给大数据开发初学者的话!

     一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...

  6. 大数据平台架构技术选型与场景运用

    内容来源:2017年5月6日,大眼科技CTO张逸在"魅族技术开放日第八期--数据洞察"进行<大数据平台架构技术选型与场景运用>演讲分享.视频地址:https://mp. ...

  7. 大数据平台架构的层次划分

    1. 数据源层:包括传统的数据库,数据仓库,分布式数据库,NOSQL数据库,半结构化数据,无结构化数据,爬虫,日志系统等,是大数据平台的数据产生机构. 2. 数据整理层:包括数据清洗.数据转换.数据加 ...

  8. 数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构

    了解大数据平台的基础架构有助于我们清楚数据是怎么流转与处理的,在每一层的结构中数据是以什么形式存储的,当我们听到工程师们谈论到这些内容时,不至于一无所知. 本文内容偏基础,适合像作为入门了解. 文不如 ...

  9. 软件架构设计原则和大数据平台架构层

    1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...

最新文章

  1. 用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割
  2. CentOS7 service network start命令启动时报错解决方法
  3. 测试函数: Ackely,Rastrigin,Griewangk,SumSquartes,Sphere,Quartic,Schwefel' Problem 12等
  4. 二维随机变量期望公式_MIT 6.041 概率论笔记 离散随机变量(二)
  5. java数据类型指定长度_判断(2分) Java的各种数据类型占用固定长度,与具体的软硬件平台环境无关...
  6. Java编程讲义之Eclipse开发工具
  7. EPSON 机器人多任务下的互锁处理
  8. tf.layers.dense
  9. 监视和调整Linux网络协议栈:接收数据
  10. 如何打造个人品牌,把自己“卖”出去?
  11. 《南溪的目标检测学习笔记》——预训练微调的学习笔记
  12. Nali:一个离线查询 IP 地理信息和 CDN 提供商的终端利器
  13. JS中的大括号{}和中括号[]详解
  14. jsf入门实例_JSF selectManyListBox示例教程
  15. python3 读写json文件,python3没有读取JSON文件righ
  16. git的丰富实用经验
  17. 拓端tecdat|R语言分布滞后非线性模型(DLNM)研究发病率,死亡率和空气污染示例
  18. onTouch事件分发
  19. 华软计算机网络课程设计任务,计算机网络网络课程设计任务.doc
  20. html (第四本书第九章参考)

热门文章

  1. 置换密码加密解密设计与实现
  2. 混沌工程之ChaosBlade-Operator使用之一模拟POD丢包场景
  3. C++沉思录 第十章
  4. Windows 7各版本切换语言
  5. 一台计算机可以安装多台打印机吗,一台打印机这样设置可以让多台电脑进行共享打印...
  6. kotlin-Android开发依赖库
  7. linux最少需要几个分区,安装linux至少需要哪两个分区?作用分别是什么?
  8. ghelper上网助手和谷歌浏览器安装,支付宝支付方式
  9. abaqus中python版本_ABAQUS中的python语言入门
  10. uniapp黑马商城项目开发记录