《数据算法:Hadoop_Spark大数据处理技巧》艾提拉笔记.docx

第1章二次排序:简介 19

第2章二次排序:详细示例 42

第3章 Top 10 列表 54

第4章左外连接 96

第5章反转排序 127

第6章移动平均 137

第7章购物篮分析 155

第8章共同好友 182

第9章使用MapReduce实现推荐引擎 201

第10章基于内容的电影推荐 225

第11章使用马尔可夫模型的智能邮件营销 .253

第12章 K-均值聚类 282

第13章 k-近邻 296

第14章朴素贝叶斯 315

第15章情感分析 349

第16章查找、统计和列出大图中的所有三角形 354

第17章 K-mer计数 375

第18章 DNA测序 390

第19章 Cox回归 413

第20章 Cochran-Armitage趋势检验 426

第21章等位基因频率 443

第22章 T检验 468

第23章皮尔逊相关系数 488

第24章 DNA碱基计数 520

第25章 RNA测序 543

第26章基因聚合 553

第27章线性回归 586

第28章 MapReduce和幺半群 600

第29章小文件问题 622

第30章 MapReduce的大容量缓存 635

第31章 Bloom过滤器 651Bloom

前言 3
第1章二次排序:简介 19
二次排序问题解决方案 21
MapReduce/Hadoop的二次排序解决方案 25
Spark的二次排序解决方案 29
第2章二次排序:详细示例 42
二次排序技术 43
二次排序的完整示例 46
运行示例——老版本Hadoop API 50
运行示例——新版本Hadoop API 52
第3章 Top 10 列表 54
Top N 设计模式的形式化描述 55
MapReduce/Hadoop实现:唯一键 56
Spark实现:唯一键 62
Spark实现:非唯一键 73
使用takeOrdered()的Spark Top 10 解决方案 84
MapReduce/Hadoop Top 10 解决方案:非唯一键 91
第4章左外连接 96
左外连接示例 96
MapReduce左外连接实现 99
Spark左外连接实现 105
使用leftOuterJoin()的Spark实现 117
第5章反转排序 127
反转排序模式示例 128
反转排序模式的MapReduce/Hadoop实现 129
运行示例 134
第6章移动平均 137
示例1:时间序列数据(股票价格) 137
示例2:时间序列数据(URL访问数) 138
形式定义 139
POJO移动平均解决方案 140
MapReduce/Hadoop移动平均解决方案 143
第7章购物篮分析 155
MBA目标 155
MBA的应用领域 157
使用MapReduce的购物篮分析 157
Spark解决方案 166
运行Spark实现的YARN 脚本 179
第8章共同好友 182
输入 183
POJO共同好友解决方案 183
MapReduce算法 184
解决方案1: 使用文本的Hadoop实现 187
解决方案2: 使用ArrayListOfLongsWritable 的Hadoop实现 189
Spark解决方案 191
第9章使用MapReduce实现推荐引擎 201
购买过该商品的顾客还购买了哪些商品 202
经常一起购买的商品 206
推荐连接 210
第10章基于内容的电影推荐 225
输入 226
MapReduce阶段1 226
MapReduce阶段2和阶段3 227
Spark电影推荐实现 234
第11章使用马尔可夫模型的智能邮件营销 .253
马尔可夫链基本原理 254
使用MapReduce的马尔可夫模型 256
Spark解决方案 269
第12章 K-均值聚类 282
什么是K-均值聚类? 285
聚类的应用领域 285
K-均值聚类方法非形式化描述:分区方法 286
K-均值距离函数 286
K-均值聚类形式化描述 287
K-均值聚类的MapReduce解决方案 288
K-均值算法Spark实现 292
第13章 k-近邻 296
kNN分类 297
距离函数 297
kNN示例 298
kNN算法非形式化描述 299
kNN算法形式化描述 299
kNN的类Java非MapReduce 解决方案 299
Spark的kNN算法实现 301
第14章朴素贝叶斯 315
训练和学习示例 316
条件概率 319
深入分析朴素贝叶斯分类器 319
朴素贝叶斯分类器:符号数据的MapReduce解决方案 322
朴素贝叶斯分类器Spark实现 332
使用Spark和Mahout 347
第15章情感分析 349
情感示例 350
情感分数:正面或负面 350
一个简单的MapReduce情感分析示例 351
真实世界的情感分析 353
第16章查找、统计和列出大图中的所有三角形 354
基本的图概念 355
三角形计数的重要性 356
MapReduce/Hadoop解决方案 357
Spark解决方案 364
第17章 K-mer计数 375
K-mer计数的输入数据 376
K-mer计数应用 376
K-mer计数MapReduce/Hadoop解决方案 377
K-mer计数Spark解决方案 378
第18章 DNA测序 390
DNA测序的输入数据 392
输入数据验证 393
DNA序列比对 393
DNA测试的MapReduce算法 394
第19章 Cox回归 413
Cox模型剖析 414
使用R的Cox回归 415
Cox回归应用 416
Cox回归 POJO解决方案 417
MapReduce输入 418
使用MapReduce的Cox回归 419
第20章 Cochran-Armitage趋势检验 426
Cochran-Armitage算法 427
Cochran-Armitage应用 432
MapReduce解决方案 435
第21章等位基因频率 443
基本定义 444
形式化问题描述 448
等位基因频率分析的MapReduce解决方案 449
MapReduce解决方案, 阶段1 449
MapReduce解决方案,阶段2 459
MapReduce解决方案, 阶段3 463
染色体X 和Y的特殊处理 466
第22章 T检验 468
对bioset完成T检验 469
MapReduce问题描述 472
输入 472
期望输出 473
MapReduce解决方案 473
Spark实现 476
第23章皮尔逊相关系数 488
皮尔逊相关系数公式 489
皮尔逊相关系数示例 491
皮尔逊相关系数数据集 492
皮尔逊相关系数POJO 解决方案 492
皮尔逊相关系数MapReduce解决方案 493
皮尔逊相关系数的Spark 解决方案 496
运行Spark程序的YARN 脚本 516
使用Spark计算斯皮尔曼相关系数 517
第24章 DNA碱基计数 520
FASTA 格式 521
FASTQ 格式 522
MapReduce解决方案:FASTA 格式 522
运行示例 524
MapReduce解决方案: FASTQ 格式 528
Spark 解决方案: FASTA 格式 533
Spark解决方案: FASTQ 格式 537
第25章 RNA测序 543
数据大小和格式 543
MapReduce工作流 544
RNA测序分析概述 544
RNA测序MapReduce算法 548
第26章基因聚合 553
输入 554
输出 554
MapReduce解决方案(按单个值过滤和按平均值过滤) 555
基因聚合的Spark解决方案 567
Spark解决方案:按单个值过滤 567
Spark解决方案:按平均值过滤 576
第27章线性回归 586
基本定义 587
简单示例 587
问题描述 588
输入数据 589
期望输出 590
使用SimpleRegression的MapReduce解决方案 590
Hadoop实现类 593
使用R线性模型的MapReduce解决方案 593
第28章 MapReduce和幺半群 600
概述 600
幺半群的定义 602
幺半群和非幺半群示例 603
MapReduce示例:非幺半群 606
MapReduce示例:幺半群 608
使用幺半群的Spark示例 612
使用幺半群的结论 618
函子和幺半群 619
第29章小文件问题 622
解决方案1:在客户端合并小文件 623
解决方案2:用CombineFileInputFormat解决小文件问题 629
其他解决方案 634
第30章 MapReduce的大容量缓存 635
实现方案 636
缓存问题形式化描述 637
一个精巧、可伸缩的解决方案 637
实现LRUMap缓存 640
使用LRUMap的MapReduce解决方案 646
第31章 Bloom过滤器 651Bloom
过滤器性质 651
一个简单的Bloom过滤器示例 653

《数据算法:Hadoop_Spark大数据处理技巧》([美]Mahmoud Parsian(马哈默德·帕瑞斯安))【简介_书评_在线阅读】 - 当当图书.html

《数据算法:Hadoop_Spark大数据处理技巧》艾提拉笔记.docx 第1章二次排序:简介 19 第2章二次排序:详细示例 42 第3章 Top 10 列表 54 第4章左外连接 96 第5相关推荐

  1. 数据算法 --hadoop/spark数据处理技巧 --(二次排序问题和TopN问题)

    一.二次排序问题. MR/hadoop两种方案: 1.让reducer读取和缓存给个定键的所有值(例如,缓存到一个数组数据结构中,)然后对这些值完成一个reducer中排序.这种方法不具有可伸缩性,因 ...

  2. spark的数三角形算法_数据算法 Hadoop Spark大数据处理技巧 PDF 下载

    相关截图: 资料简介: 本书介绍了很多基本设计模式.优化技术和数据挖掘及机器学习解决方案,以解决生物信息学.基因组学.统计和社交网络分析等领域的很多问题.这本书还概要介绍了MapReduce.Hado ...

  3. 大话数据结构读书笔记艾提拉总结 查找算法 和排序算法比较好 第1章数据结构绪论 1 第2章算法 17 第3章线性表 41 第4章栈与队列 87 第5章串 123 第6章树 149 第7章图 21

    大话数据结构读书笔记艾提拉总结 查找算法 和排序算法比较好 第1章数据结构绪论 1 第2章算法 17 第3章线性表 41 第4章栈与队列 87 第5章串 123 第6章树 149 第7章图 211 第 ...

  4. 艾提拉近年来技术大总结

    ##基本信息 姓名:艾提拉    民族:汉  生日:1984.3 email:1466519819@qq.com 英文名&网名id : attilax 曾用名:艾龙 ##主要方向与目标: 技术 ...

  5. 大数据算法_大数据时代,机器学习算法该如何升级?

    文 /杨晓宁 随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注.由于大数据的海量.复杂多样.变化快的特性,对于大数据环境下的应用问题,传统的小数据上的机器学习算法很多已不再适用.因此,研究大 ...

  6. 大数据时代:大数据处理技术及采集方法

    在大数据时代,传统的大数据处理技术还管用吗? 大数据处理环节下的需求 大数据环节下的数据来源是非常多,而且类型也很多花样,存储和数据处理的需求量很大,对于数据展现也非常的高,并且很看重数据处理的高效性 ...

  7. 第四章 SQL查询 之连接{自然连接,内连接,外连接(左外连接,右外连接,完全连接)}

    4.4 连接 自然连接 自然连接实际指定了搜寻条件.这里包括两部分的内容:首先,自然连接列必须同名,另外,所有同名列都将作为搜索条件. 自然连接所使用的关键字为natural join .其连接原则为 ...

  8. 数据库内连接、左外连接、右外连接中的on、and、where条件使用

    数据库各种连接方式的on.and.where条件使用 文章目录 前言 使用on条件,A为主表 使用on条件,B为主表 使用on.and主表条件 使用on.where主表条件 使用on.and条件,a. ...

  9. hive 内连接 左外连接 右外连接 满外连接 左半开连接 交叉连接 多表连接 隐式连接

    目录 hive outline hive 内连接 inner join hive 左外连接 left join hive 右外连接 right join hive 满外连接 full join hiv ...

  10. Atitit 关于艾提拉个人简绍 中文日文英文对照版

    Atitit 关于艾提拉个人简绍 日文版 经历了很多项目实践,具备较为宽广的IT从业与信息化工作背景,具备若干创业历程,道路曲折,初心不改.在相关领域累计了较深的深度(细化度)与高度(抽象度)与广度 ...

最新文章

  1. 官宣:图灵的 _____ ,只送不卖?
  2. 【福利】赠书:Spring Cloud与Docker微服务架构实战(第2版)
  3. Struts的基础案例的步骤
  4. indexes和indices的区别
  5. mysql全量备份、增量备份实现方法
  6. QList 列表指针的操作 释放
  7. JAVA-容器(2)-Collection
  8. Wireshark(2):应用Wireshark观察基本网络协议
  9. iOS-Delegate模式
  10. 关于软件定义IT基础设施的未来,深信服是这么思考的
  11. hun 暑期实训之打牌 cin与scanf的输入
  12. 引路蜂地图API:Gis.Location包定义
  13. linux移动文件 rf参数_北京尚学堂卓越班252天[第095天]—Linux
  14. 删除数据库中的所有表
  15. 一千啊计算机英语,计算机英语900句
  16. 如何将数字转化为中文大写
  17. Python问题解决6:使用jupyter notebook时安装第三方库提示升级pip,pip升级不成功一直报错
  18. mac 命令修改dns服务器,MAC设置DNS的步骤
  19. c++实现剧情小游戏:哈利波特
  20. android_静默安装/adb执行/软件搬家/消息派发

热门文章

  1. ipad如何连接电脑_台式电脑如何连接蓝牙耳机
  2. java组件名词解释_简述Java EE三类组件的构成及运行环境。
  3. aspose word 删除空行_Word:删除空行
  4. 突然发现,工作已满四年了
  5. lintcode 中等题:Palindrome Linked List 回文链表
  6. ThinkPHP中的三大自动简介
  7. Oracle导入导出之dmp
  8. Python开发第一步的环境搭建
  9. 号码卡JAVA算法---猜车牌号
  10. javascript中的继承[二] 基于构造函数(《Object-Oriented JavaScript》第六章)