大数据日知录要点整理

第0 章 当谈论大数据时我们在谈什么 1 
NOSQL选型:kv-cassandra、dynamo,列式存储-HBase,图存储-Neo4j
社交网络数据存储适合用图数据库,而实时响应要求较高的场合适合Hbase等列式数据库。海量数据批处理任务,Hadoop+HDFS更好。

  第1 章 数据分片与路由 9 
  1.1 抽象模型10 
  1.2 哈希分片(Hash Partition) 11 
  1.2.1 Round Robin11 
  1.2.2 虚拟桶(Virtual Buckets) 12 
  1.2.3 一致性哈希(Consistent Hashing) 13 
  1.3 范围分片(Range Partition) 18 
  参考文献19 
  第2 章 数据复制与一致性20 
  2.1 基本原则与设计理念21 
  2.1.1 原教旨CAP 主义21 
  2.1.2 CAP 重装上阵(CAP Reloaded)23 
  2.1.3 ACID 原则24 
  2.1.4 BASE 原则24 
  2.1.5 CAP/ACID/BASE 三者的关系25 
  2.1.6 幂等性(Idempotent)26 
  2.2 一致性模型分类26 
  2.2.1 强一致性27 
  2.2.2 最终一致性28 
  2.2.3 因果一致性28 
  2.2.4 “读你所写”一致性29 
  2.2.5 会话一致性29 
  2.2.6 单调读一致性30 
  2.2.7 单调写一致性30 
  2.3 副本更新策略30 
  2.3.1 同时更新30 
  2.3.2 主从式更新31 
  2.3.3 任意节点更新32 
  2.4 一致性协议32 
  2.4.1 两阶段提交协议(Two—Phrase Commit,2PC)33 
  2.4.2 向量时钟(Vector Clock) 38 
  2.4.3 RWN 协议40 
  2.4.4 Paxos 协议42 
  2.4.5 Raft 协议45 
  参考文献49 
  第3 章 大数据常用的算法与数据结构51 
  3.1 布隆过滤器(Bloom Filter) 51 
  3.1.1 基本原理52 
  3.1.2 误判率及相关计算52 
  3.1.3 改进:计数Bloom Filter53 
  3.1.4 应用54 
  3.2 SkipList55 
  3.3 LSM 树58 
  3.4 Merkle 哈希树(Merkle Hash Tree) 62 
  3.4.1 Merkle 树基本原理62 
  3.4.2 Dynamo 中的应用63 
  3.4.3 比特币中的应用63 
  3.5 Snappy 与LZSS 算法65 
  3.5.1 LZSS 算法65 
  3.5.2 Snappy67 
  3.6 Cuckoo 哈希(Cuckoo Hashing) 67 
  3.6.1 基本原理68 
  3.6.2 应用:SILT 存储系统68 
  参考文献70 
  第4 章 集群资源管理与调度71 
  4.1 资源管理抽象模型72 
  4.1.1 概念模型72 
  4.1.2 通用架构73 
  4.2 调度系统设计的基本问题74 
  4.2.1 资源异质性与工作负载异质性74 
  4.2.2 数据局部性(Data Locality) 75 
  4.2.3 抢占式调度与非抢占式调度75 
  4.2.4 资源分配粒度(Allocation Granularity) 76 
  4.2.5 饿死(Starvation)与死锁(Dead Lock)问题76 
  4.2.6 资源隔离方法77 
  4.3 资源管理与调度系统范型77 
  4.3.1 集中式调度器(Monolithic Scheduler)78 
  4.3.2 两级调度器(Two—Level Scheduler) 79 
  4.3.3 状态共享调度器(Shared—State Scheduler) 79 
  4.4 资源调度策略81 
  4.4.1 FIFO 调度策略81 
  4.4.2 公平调度器(Fair Scheduler)81 
  4.4.3 能力调度器(Capacity Scheduler) 82 
  4.4.4 延迟调度策略(Delay Scheduling)82 
  4.4.5 主资源公平调度策略(Dominant Resource Fair Scheduling)82 
  4.5 Mesos 84 
  4.6 YARN87 
  参考文献90 
  第5 章 分布式协调系统91 
  5.1 Chubby 锁服务92 
  5.1.1 系统架构93 
  5.1.2 数据模型94 
  5.1.3 会话与KeepAlive 机制95 
  5.1.4 客户端缓存95 
  5.2 ZooKeeper 96 
  5.2.1 体系结构96 
  5.2.2 数据模型(Data Model) 97 
  5.2.3 API 98 
  5.2.4 ZooKeeper 的典型应用场景98 
  5.2.5 ZooKeeper 的实际应用103 
  参考文献104 
  第6 章 分布式通信106 
  6.1 序列化与远程过程调用框架107 
  6.1.1 Protocol Buffer 与Thrift 108 
  6.1.2 Avro109 
  6.2 消息队列110 
  6.2.1 常见的消息队列系统110 
  6.2.2 Kafka 111 
  6.3 应用层多播通信(Application—Level Multi—Broadcast)114 
  6.3.1 概述114 
  6.3.2 Gossip 协议115 
  参考文献118 
  第7 章 数据通道120 
  7.1 Log 数据收集120 
  7.1.1 Chukwa121 
  7.1.2 Scribe122 
  7.2 数据总线123 
  7.2.1 Databus125 
  7.2.2 Wormhole 127 
  7.3 数据导入/导出128 
  参考文献129 
  第8 章 分布式文件系统131 
  8.1 Google 文件系统(GFS) 132 
  8.1.1 GFS 设计原则132 
  8.1.2 GFS 整体架构133 
  8.1.3 GFS 主控服务器134 
  8.1.4 系统交互行为136 
  8.1.5 Colossus 137 
  8.2 HDFS 138 
  8.2.1 HDFS 整体架构139 
  8.2.2 HA 方案140 
  8.2.3 NameNode 联盟143 
  8.3 HayStack 存储系统145 
  8.3.1 HayStack 整体架构146 
  8.3.2 目录服务147 
  8.3.3 HayStack 缓存148 
  8.3.4 HayStack 存储系统的实现148 
  8.4 文件存储布局150 
  8.4.1 行式存储151 
  8.4.2 列式存储151 
  8.4.3 混合式存储156 
  8.5 纠删码(Erasure Code)158 
  8.5.1 Reed—Solomon 编码159 
  8.5.2 LRC 编码164 
  8.5.3 HDFS—RAID 架构166 
  参考文献166 
  …… 
  第9 章 内存KV 数据库168 
  第10 章 列式数据库176 
  第11 章 大规模批处理系统199 
  第12 章 流式计算219 
  第13 章 交互式数据分析240 
  第14 章 图数据库:架构与算法271 
  第15 章 机器学习:范型与架构313 
  第16 章 机器学习:分布式算法337 
  第17 章 增量计算366 

转载于:https://www.cnblogs.com/bonelee/p/6244221.html

大数据日知录要点整理相关推荐

  1. 大数据日知录_腾讯T4专家精心整理:java+大数据+机器学习+数据挖掘+算法大集结...

    前言 本篇文章总共八大部分组成,包括数据挖掘:概念.模型.方法和算法:大数据日知录:架构与算法:大数据算法:数据结构与算法经典问题解析:算法基础:打开算法之门:机器学习算法大集结:Java数据结构和算 ...

  2. 《大数据日知录:架构与算法》前言

       <大数据日知录:架构与算法>前言 像移动互联网.O2O.可穿戴设备等概念一样,"大数据"从甫一提出到飓风般席卷并风靡全球,从最初的技术名词到形成渗透各行各业的社会 ...

  3. 大数据日知录:架构与算法

    大数据丛书 大数据日知录:架构与算法(大数据领域专家力作,专注大数据架构和算法,全面梳理大数据相关技术) 张俊林 著   ISBN 978-7-121-24153-6 2014年9月出版 定价:69. ...

  4. 大数据丛书 大数据日知录:架构与算法

    大数据丛书 大数据日知录:架构与算法(大数据领域专家力作,专注大数据架构和算法,全面梳理大数据相关技术) 张俊林 著   ISBN 978-7-121-24153-6 2014年9月出版 定价:69. ...

  5. 博主新书:《大数据日知录:架构与算法》目录

    <大数据日知录:架构与算法>目录 4目录编辑 第0 章 当谈论大数据时我们在谈什么................ 1 0.1 大数据是什么........................ ...

  6. 《BIG DATA大数据日知录 架构和算法》读书笔记

    2019独角兽企业重金招聘Python工程师标准>>> <BIG DATA大数据日知录 架构和算法>读书笔记 博客分类: 架构 分布式计算 1.数据分片和路由 Hash ...

  7. 好书推荐--大数据日知录(深入理解大数据的必备书籍)附电子版下载

    今天给大家推荐一本大数据领域中必读的一本书,名字叫<大数据日知录-架构与算法> 这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据.算法.策略.应用和系统架构等多个维度进行剖析, ...

  8. 从《大数据日知录》的目录想到的学习路径

    第0 章 当谈论大数据时我们在谈什么................ 1 第1 章 数据分片与路由......................................9 第2 章 数据复制与一 ...

  9. 大数据日知录(一)数据分片与路由

    概念     目前主流的大数据存储与计算系统通常采用横向扩展(Scale Out)的方式支持系统可扩展性,即通过增加机器数目来获得水平扩展能力.对于待存储处理的海量数据,需要通过数据分片(Shard/ ...

最新文章

  1. MySQL面试题 | 附答案解析(六)
  2. Python3连接PostgreSQL(10.5)数据库
  3. 机械爪的带有压力反馈的控制实验
  4. php 数学函数bc的使用(浮点数计算)
  5. ARM Cortex Debug Port Access Port DP AP JTAG-DP SW-DP SWJ-DP JTAG-AP MEM-AP
  6. Python 日志模块Loguru的使用
  7. 善用工具_如何善用色彩心理学
  8. uva 10539——Almost Prime Numbers
  9. 第四十七期:漫画:什么是公有云、私有云和混合云?
  10. 创建用于 iPad 的 iOS 幻灯片应用程序
  11. ajax前台获取json,ajax与json 获取数据并在前台使用简单实例
  12. 【图像算法】七种常见阈值分割代码(Otsu、最大熵、迭代法、自适应阀值、手动、迭代法、基本全局阈值法)...
  13. 主管叫我看tcpmp播放器,下面几行代码1月没看懂,求求你了,
  14. 详细讲解Socket服务器与多客户端的长链接通信(含Demo)
  15. FFmpeg合并ts文件为mp4文件
  16. Scratch 游戏项目学习法 —— 接苹果(八)添加接住苹果的接盘(角色)
  17. adb 连接方式汇总
  18. 10、私网与公网的转换---NAT网络地址转换技术
  19. 小程序PHP字体,微信小程序在text文本实现多种字体样式
  20. 第7章 分析恶意的windows程序

热门文章

  1. Selenium3自动化测试——18.窗口截图
  2. virilog 模块之间的层次关系_软件工程导论 期末复习题
  3. system diagnostics starts什么意思_System类
  4. java 文本编辑器替换特殊字符_linux中批量替换文本中字符串--转载
  5. android 下拉刷新 组件,android系统自带下拉刷新控件的实现
  6. php ios视频文件上传,iOS实现视频和图片的上传思路
  7. spark 简单实战_大数据入门与实战-Spark上手
  8. laravel框架集成PHPExcel讲解及demo
  9. linux的命令行操作和shell的区别
  10. kafka实战最佳经验,【源码分析设计模式 10