大数据挑战与NoSQL数据库技术pdf
内容简介
编辑
《大数据挑战与nosql数据库技术》对大数据时代面临的挑战,以及nosql数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。[1]
目录
编辑
1.1引子2
1.2大数据挑战3
1.3大数据的存储和管理5
1.3.1并行数据库5
1.3.2NoSQL数据管理系统6
1.3.3NewSQL数据管理系统8
1.3.4云数据管理11
1.4大数据的处理和分析11
1.5小结13
参考文献13
理论篇
第2章数据一致性理论16
2.1CAP理论17
2.2数据一致性模型21
2.3ACID与BASE22
2.4数据一致性实现技术23
2.4.1Quorum系统NRW策略23
2.4.2两阶段提交协议24
2.4.3时间戳策略27
2.4.4Paxos30
2.4.5向量时钟38
2.5小结43
参考文献43
第3章数据存储模型45
3.1总论46
3.2键值存储48
3.2.1Redis49
3.2.2Dynamo49
3.3列式存储50
3.3.1Bigtable51
3.3.2Cassandra与HBase51
3.4文档存储52
3.4.1MongoDB53
3.4.2CouchDB53
3.5图形存储54
3.5.1Neo4j55
3.5.2GraphDB55
3.6本章小结56
参考文献56
第4章数据分区与放置策略58
4.1分区的意义59
4.1.1为什么要分区59
4.1.2分区的优点60
4.2范围分区61
4.3列表分区62
4.4哈希分区63
4.5三种分区的比较64
4.6放置策略64
4.6.1一致性哈希算法65
4.6.2容错性与可扩展性分析66
4.6.3虚拟节点68
4.7小结69
参考文献69
第5章海量数据处理方法70
5.1MapReduce简介71
5.2MapReduce数据流72
5.3MapReduce数据处理75
5.3.1提交作业76
5.3.2初始化作业78
5.3.3分配任务78
5.3.4执行任务79
5.3.5更新任务执行进度和状态80
5.3.6完成作业81
5.4Dryad简介81
5.4.1DFSCosmos介绍82
5.4.2Dryad执行引擎84
5.4.3DryadLINQ解释引擎86
5.4.4DryadLINQ编程88
5.5Dryad数据处理步骤90
5.6MapReducevsDryad92
5.7小结94
参考文献95
第6章数据复制与容错技术96
6.1海量数据复制的作用和代价97
6.2海量数据复制的策略97
6.2.1Dynamo的数据库复制策略97
6.2.2CouchDB的复制策略99
6.2.3PNUTS的复制策略99
6.3海量数据的故障发现与处理101
6.3.1Dynamo的数据库的故障发现与处理101
6.3.2CouchDB的故障发现与处理103
6.3.3PNUTS的故障发现与处理103
6.4小结104
参考文献104
第7章数据压缩技术105
7.1数据压缩原理106
7.1.1数据压缩的定义106
7.1.2数据为什么可以压缩107
7.1.3数据压缩分类107
7.2传统压缩技术[1]108
7.2.1霍夫曼编码108
7.2.2LZ77算法109
7.3海量数据带来的3V挑战112
7.4Oracle混合列压缩113
7.4.1仓库压缩114
7.4.2存档压缩114
7.5Google数据压缩技术115
7.5.1寻找长的重复串115
7.5.2压缩算法116
7.6Hadoop压缩技术118
7.6.1LZO简介118
7.6.2LZO原理[5]119
7.7小结121
参考文献121
第8章缓存技术122
8.1分布式缓存简介123
8.1.1分布式缓存的产生123
8.1.2分布式缓存的应用123
8.1.3分布式缓存的性能124
8.1.4衡量可用性的标准125
8.2分布式缓存的内部机制125
8.2.1生命期机制126
8.2.2一致性机制126
8.2.3直读与直写机制129
8.2.4查询机制130
8.2.5事件触发机制130
8.3分布式缓存的拓扑结构130
8.3.1复制式拓扑131
8.3.2分割式拓扑131
8.3.3客户端缓存拓扑131
8.4小结132
参考文献132
系统篇
第9章key—value数据库134
9.1key—value模型综述134
9.2Redis135
9.2.1Redis概述135
9.2.2Redis下载与安装135
9.2.3Redis入门操作136
9.2.4Redis在业内的应用143
9.3Voldemort143
9.3.1Voldemort概述143
9.3.2Voldemort下载与安装144
9.3.3Voldemort配置145
9.3.4Voldemort开发介绍[3]147
9.4小结149
参考文献149
第10章Column—Oriented数据库150
10.1Column—Oriented数据库简介151
10.2Bigtable数据库151
10.2.1Bigtable数据库简介151
10.2.2Bigtable数据模型152
10.2.3Bigtable基础架构154
10.3Hypertable数据库157
10.3.1Hypertable简介157
10.3.2Hypertable安装157
10.3.3Hypertable架构163
10.3.4基本概念和原理164
10.3.5Hypertable的查询168
10.4Cassandra数据库175
10.4.1Cassandra简介175
10.4.2Cassandra配置175
10.4.3Cassandra数据库的连接177
10.4.4Cassandra集群机制180
10.4.5Cassandra的读/写机制182
10.5小结183
参考文献183
第11章文档数据库185
11.1文档数据库简介186
11.2CouchDB数据库186
11.2.1CouchDB简介186
11.2.2CouchDB安装188
11.2.3CouchDB入门189
11.2.4CouchDB查询200
11.2.5CouchDB的存储结构207
11.2.6SQL和CouchDB209
11.2.7分布式环境中的CouchDB210
11.3MongoDB数据库211
11.3.1MongoDB简介211
11.3.2MongoDB的安装212
11.3.3MongoDB入门215
11.3.4MongoDB索引224
11.3.5SQL与MongoDB226
11.3.6MapReduce与MongoDB229
11.3.7MongoDB与CouchDB对比234
11.4小结236
参考文献237
第12章图存数据库238
12.1图存数据库的由来及基本概念239
12.1.1图存数据库的由来239
12.1.2图存数据库的基本概念239
12.2Neo4j图存数据库240
12.2.1Neo4j简介240
12.2.2Neo4j使用教程241
12.2.3分布式Neo4j——Neo4jHA251
12.2.4Neo4j工作机制及优缺点浅析256
12.3GraphDB258
12.3.1GraphDB简介258
12.3.2GraphDB的整体架构260
12.3.3GraphDB的数据模型264
12.3.4GraphDB的安装266
12.3.5GraphDB的使用268
12.4OrientDB276
12.4.1背景276
12.4.2OrientDB是什么276
12.4.3OrientDB的原理及相关技术277
12.4.4Windows下OrientDB的安装与使用282
12.4.5相关Web应用286
12.5三种图存数据库的比较288
12.5.1特征矩阵288
12.5.2分布式模式及应用比较289
12.6小结289
参考文献290
第13章基于Hadoop的数据管理系统291
13.1Hadoop简介292
13.2HBase293
13.2.1HBase体系结构293
13.2.2HBase数据模型297
13.2.3HBase的安装和使用298
13.2.4HBase与RDBMS303
13.3Pig304
13.3.1Pigr的安装和使用304
13.3.2PigLatin语言306
13.3.3Pig实例311
13.4Hive315
13.4.1Hive的数据存储316
13.4.2Hive的元数据存储316
13.4.3安装Hive317
13.4.4HiveQL简介318
13.4.5Hive的网络接口(WebUI)328
13.4.6Hive的JDBC接口328
13.5小结330
参考文献331
第14章NewSQL数据库332
14.1NewSQL数据库简介333
14.2MySQLCluster333
14.2.1概述334
14.2.2MySQLCluster的层次结构336
14.2.3MySQLCluster的优势和应用337
14.2.4海量数据处理中的sharding技术339
14.2.5单机环境下MySQLCluster的安装343
14.2.6MySQLCluster的分布式安装与配置指导348
14.3VoltDB350
14.3.1传统关系数据库与VoltDB351
14.3.2VoltDB的安装与配置351
14.3.3VoltDB组件354
14.3.4HelloWorld355
14.3.5使用Generate脚本361
14.3.6Eclipse集成开发362
14.4小结365
参考文献365
第15章分布式缓存系统366
15.1Memcached缓存技术367
15.1.1背景介绍367
15.1.2Memcached缓存技术的特点368
15.1.3Memcached安装[3]374
15.1.4Memcached中的数据操作375
15.1.5Memcached的使用376
15.2Micros of Velocity分布式缓存系统378
15.2.1Micros of Velocity简介378
15.2.2数据分类379
15.2.3Velocity核心概念380
15.2.4Velocity安装382
15.2.5一个简单的Velocity客户端应用385
15.2.6扩展型和可用性387
15.3小结388
参考文献388
应用篇
第16章企业应用392
16.1Instagram393
16.1.1Instagram如何应对数据的急剧增长395
16.1.2Instagram的数据分片策略398
16.2Facebook对Hadoop以及HBase的应用400
16.2.1工作负载类型401
16.2.2为什么采用ApacheHadoop和HBase403
16.2.3实时HDFS405
16.2.4HadoopHBase的实现409
16.3淘宝大数据解决之道411
16.3.1淘宝数据分析412
16.3.2淘宝大数据挑战413
16.3.3淘宝OceanBase数据库414
16.3.4淘宝将来的工作422
16.4小结423
下载地址:网盘下载
转载于:https://www.cnblogs.com/long12365/p/9731448.html
大数据挑战与NoSQL数据库技术pdf相关推荐
- 南大通用:元宇宙数据库技术展望
1 元宇宙数据库重要特色 无论是现实还是虚拟世界,数据库都是重要IT基础技术支撑,为了维系元宇宙的日常运作,数据库为数字孪生世界的镜像和混合现实世界中的虚拟扩展提供数据平台支撑.元宇宙中的一切虚拟概念 ...
- GBASE南大通用:元宇宙数据库技术展望
元宇宙数据库重要特色 无论是现实还是虚拟世界,数据库都是重要IT基础技术支撑,为了维系元宇宙的日常运作,数据库为数字孪生世界的镜像和混合现实世界中的虚拟扩展提供数据平台支撑.元宇宙中的一切虚拟概念,不 ...
- 大数据参考架构和关键技术
大数据参考架构 大数据作为一种新兴技术,目前尚未形成完善.达成共识的技术标准体系.本文结合NIST和JTC1/SC32的研究成果,结合我们对大数据的理解和分析,提出了大数据参考架构. 大数据参考架构图 ...
- 大数据时代的新型数据库 — 图数据库 Neo4j 的应用
概览 微云数聚(北京)科技有限公司是一家实力雄厚的大数据技术公司,由移动互联网技术专家团队.大数据专业团队和建模博士团队组成.微云数聚专注于研究图数据库技术及其应用,是世界领先的图数据库Neo4j在中 ...
- 云计算、人工智能、大数据等当前火热的技术,都离不开它!
近年来,无论是互联网巨头还是创业新贵,越来越多的公司投身到大数据.人工智能以及云计算的洪流之中.随着科技的进步,全面实现生产过程和业务管理的数字化.智能化是企业保持市场竞争力的关键,在这一过程中对数据 ...
- 大数据智能算法及测评技术(二)
3.分类算法及其测评 3.1 分类算法介绍 分类算法需要事先定义好类别,并对训练样本进行人工标记.分类算法通过有标记的训练样本,学习得到分类器,该分类器可对新样本自动分类,分类的流程下图所示.分类算法 ...
- 大数据开发:大数据背景下的数据库选型
在IT技术领域,数据库技术是重要的支撑性技术,尤其是进入大数据时代以来,海量的数据累积起来,成为庞大的数据集合,更是需要强大的数据库去完成存储支持.今天我们主要来讲讲,大数据背景下的数据库选型. 整体 ...
- 大数据时代的计算机信息处理技术
大数据时代的计算机信息处理技术 一.大数据时代的重要特性 二.大数据时代下计算机信息处理技术的分析 三.结语 参考文献 大数据是对这一个时代最好的诠释,在这一背景下,计算机信息处理技术得到广泛的使用, ...
- 【中台实践】滴滴大数据研发中台的最佳实践.pdf(附下载链接)
今天给大家分享滴滴高级技术专家曾文秋在2019中国大数据技术大会(BDTC)上做的分享<滴滴大数据研发中台的最佳实践.pdf>,分享包括四个方面:1.滴滴大数据发展史:2.一站式大数据研发 ...
- 【电子书分享】决战大数据-驾驭未来商业的利器.pdf(附下载链接)
今天给大家分享一本实用的图书<决战大数据-驾驭未来商业的利器.pdf>,该书由大数据实践的先行者.阿里巴巴集团副总裁.数据委员会会长车品觉所著,全书由两大部分十一个章节组成,第一部分为从数 ...
最新文章
- 系统学英语 —语法— 句子成分
- 常用事件方法及技巧(二) -- MouseEvent(鼠标事件)
- hmcl整合包导入_SSM实战第一篇_SSM的整合
- 时序分析:HMM模型(状态空间)
- 分布式监控系统开发【day37】:需求讨论(一)
- Ionic系列——使用ng-cordova插件
- 【Programming Clip】点分十进制IP和长整型转换
- css的position中absolute和fixed的区别
- 4 构建Mysql+heartbeat+DRBD+LVS集群应用系统系列之Lvs为Mysql-slave做负载均衡
- 苹果的哪个软件能测试游戏帧率,王者荣耀90帧率差别不太大,苹果手机竟然可以体验90帧率...
- cuda10.2+ubuntu18.04+docker视频编解码
- MySQL-Front设置中文
- 发字的楷书写法图片_优秀的楷体书写作品高清图片
- 【御剑问情】外网手工外网端+游戏后台
- exls表格搜索快捷键_Excel快捷键使用大全
- win10/win11 + WSL + gui 配置教程
- 大学里软件工程专业学习的主要课程
- Java使用graphhopper完成路线规划
- python练习|if嵌套
- WIN8.1添加中文美式键盘并改成默认输入