《大数据:互联网大规模数据挖掘与分布式处理》
基本信息
原书名:Mining of Massive Datasets
作者: (美)拉贾拉曼(Rajaraman,A.) (美)厄尔曼(Ullman,J.D.) [作译者介绍]
译者: 王斌
丛书名: 图灵程序设计丛书
出版社:人民邮电出版社
ISBN:9787115291318
上架时间:2012-9-23
出版日期:2012 年9月
开本:16开
页码:1
版次:1-1
所属分类: 计算机
内容简介

更多关于 》》》《大数据:互联网大规模数据挖掘与分布式处理》
书籍
计算机书籍
  《大数据:互联网大规模数据挖掘与分布式处理》由斯坦福大学的“web 挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。其中相关章节有对应的习题,以巩固所讲解的内容。读者更可以从网上获取相关拓展材料。
  《大数据:互联网大规模数据挖掘与分布式处理》适合本科生、研究生及对数据挖掘感兴趣的读者阅读。
目录
《大数据:互联网大规模数据挖掘与分布式处理》
第1章  数据挖掘基本概念  1
1.1  数据挖掘的定义  1
1.1.1  统计建模  1
1.1.2  机器学习  1
1.1.3  建模的计算方法  2
1.1.4  数据汇总  2
1.1.5  特征抽取  3
1.2  数据挖掘的统计限制  4
1.2.1  整体情报预警  4
1.2.2  邦弗朗尼原理  4
1.2.3  邦弗朗尼原理的一个例子  5
1.2.4  习题  6
1.3  相关知识  6
1.3.1  词语在文档中的重要性  6
1.3.2  哈希函数  7
1.3.3  索引  8
1.3.4  二级存储器  10
1.3.5  自然对数的底e  10
1.3.6  幂定律  11
1.3.7  习题  12
1.4  本书概要  13
1.5  小结  14
1.6  参考文献  14
第2章  大规模文件系统及map-reduce  16
2.1  分布式文件系统  16
2.1.1  计算节点的物理结构  17
2.1.2  大规模文件系统的结构  18
2.2  map-reduce  18
2.2.1  map任务  19
2.2.2  分组和聚合  20
2.2.3  reduce任务  20
2.2.4  组合器  21
2.2.5  map-reduce的执行细节  21
2.2.6  节点失效的处理  22
2.3  使用map-reduce的算法  22
2.3.1  基于map-reduce的矩阵—向量乘法实现  23
2.3.2  向量v无法放入内存时的处理  23
2.3.3  关系代数运算  24
2.3.4  基于map-reduce的选择运算  26
2.3.5  基于map-reduce的投影运算  26
2.3.6  基于map-reduce的并、交和差运算  27
2.3.7  基于map-reduce的自然连接运算  27
2.3.8  一般性的连接算法  28
2.3.9  基于map-reduce的分组和聚合运算  28
2.3.10  矩阵乘法  29
2.3.11  基于单步map-reduce的矩阵乘法  29
2.3.12  习题  30
2.4  map-reduce的扩展  31
2.4.1  工作流系统  31
2.4.2  map-reduce的递归扩展版本  32
2.4.3  pregel系统  34
2.4.4  习题  35
2.5  集群计算算法的效率问题  35
2.5.1  集群计算的通信开销模型  35
2.5.2  实耗通信开销  36
2.5.3  多路连接  37
2.5.4  习题  40
2.6  小结  40
2.7  参考文献  42
……
第6章  频繁项集  146
6.1  购物篮模型  146
6.1.1  频繁项集的定义  146
6.1.2  频繁项集的应用  148
6.1.3  关联规则  149
6.1.4  高可信度关联规则的发现  150
6.1.5  习题  151
6.2  购物篮及a-priori算法  152
6.2.1  购物篮数据的表示  152
6.2.2  项集计数中的内存使用  153
6.2.3  项集的单调性  154
6.2.4  二元组计数  155
6.2.5  a-priori算法  155
6.2.6  所有频繁项集上的a-priori算法  157
6.2.7  习题  158
6.3  更大数据集在内存中的处理  159
6.3.1  pcy算法  160
6.3.2  多阶段算法  161
6.3.3  多哈希算法  163
6.3.4  习题  164
6.4  有限扫描算法  166
6.4.1  简单的随机化算法  166
6.4.2  抽样算法中的错误规避  167
6.4.3  son算法  168
6.4.4  son算法和map-reduce  168
6.4.5  toivonen算法  169
6.4.6  toivonen算法的有效性分析  170
6.4.7  习题  170
6.5  流中的频繁项计数  171
6.5.1  流的抽样方法  171
6.5.2  衰减窗口中的频繁项集  172
6.5.3  混合方法  172
6.5.4  习题  173
6.6  小结  173
6.7  参考文献  175
第7章  聚类  176
7.1  聚类技术介绍  176
7.1.1  点、空间和距离  176
7.1.2  聚类策略  177
7.1.3  维数灾难  178
7.1.4  习题  179
7.2  层次聚类  179
7.2.1  欧氏空间下的层次聚类  180
7.2.2  层次聚类算法的效率  183
7.2.3  控制层次聚类的其他规则  183
7.2.4  非欧空间下的层次聚类  185
7.2.5  习题  186
7.3  k-均值算法  187
7.3.1  k-均值算法基本知识  187
7.3.2  k-均值算法的簇初始化  187
7.3.3  选择k的正确值  188
7.3.4  bfr算法  189
7.3.5  bfr算法中的数据处理  191
7.3.6  习题  192
7.4  cure算法  193
7.4.1  cure算法的初始化  194
7.4.2  cure算法的完成  195
7.4.3  习题  195
7.5  非欧空间下的聚类  196
7.5.1  grgpf算法中的簇表示  196
7.5.2  簇表示树的初始化  196
7.5.3  grgpf算法中的点加入  197
7.5.4  簇的分裂及合并  198
7.5.5  习题  199
7.6  流聚类及并行化  199
7.6.1  流计算模型  199
7.6.2  一个流聚类算法  200
7.6.3  桶的初始化  200
7.6.4  桶合并  200
7.6.5  查询应答  202
7.6.6  并行环境下的聚类  202
7.6.7  习题  203
7.7  小结  203
7.8  参考文献  205
第8章  web广告  207
8.1  在线广告相关问题  207
8.1.1  广告机会  207
8.1.2  直投广告  208
8.1.3  展示广告的相关问题  208
8.2  在线算法  209
8.2.1  在线和离线算法  209
8.2.2  贪心算法  210
8.2.3  竞争率  211
8.2.4  习题  211
8.3  广告匹配问题  212
8.3.1  匹配及完美匹配  212
8.3.2  最大匹配贪心算法  213
8.3.3  贪心匹配算法的竞争率  213
8.3.4  习题  214
8.4  adwords问题  214
8.4.1  搜索广告的历史  215
8.4.2  adwords问题的定义  215
8.4.3  adwords问题的贪心方法  216
8.4.4  balance算法  217
8.4.5  balance算法竞争率的一个下界  217
8.4.6  多投标者的balance算法  219
8.4.7  一般性的balance算法  220
8.4.8  adwords问题的最后论述  221
8.4.9  习题  221
8.5  adwords的实现  221
8.5.1  投标和搜索查询的匹配  222
8.5.2  更复杂的匹配问题  222
8.5.3  文档和投标之间的匹配算法  223
8.6  小结  224
8.7  参考文献  226
第9章  推荐系统  227
9.1  一个推荐系统的模型  227
9.1.1  效用矩阵  227
9.1.2  长尾现象  228
9.1.3  推荐系统的应用  230
9.1.4  效用矩阵的填充  230
9.2  基于内容的推荐  231
9.2.1  项模型  231
9.2.2  文档的特征发现  231
9.2.3  基于tag的项特征获取  232
9.2.4  项模型的表示  233
9.2.5  用户模型  234
9.2.6  基于内容的项推荐  235
9.2.7  分类算法  235
9.2.8  习题  237
9.3  协同过滤  238
9.3.1  相似度计算  238
9.3.2  相似度对偶性  241
9.3.3  用户聚类和项聚类  242
9.3.4  习题  243
9.4  降维处理  243
9.4.1  uv分解  244
9.4.2  rmse  244
9.4.3  uv分解的增量式计算  245
9.4.4  对任一元素的优化  247
9.4.5  一个完整uv分解算法的构建  248
9.4.6  习题  250
9.5  netflix竞赛  250
9.6  小结  251
9.7  参考文献  253
索引  254

本图书信息来源于:中国互动出版网

大数据:互联网大规模数据挖掘与分布式处理相关推荐

  1. 大数据:互联网大规模数据挖掘与分布式处理(第二版)-电子书

    简介:Jure Leskovec 斯坦福大学计算机科学系助理教授,研究方向是大型社交和信息网络的数据挖掘.他的研究成果获得了很多奖项,如Microsoft Research Faculty Fello ...

  2. 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...

  3. 【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...

    大数据时代的数据挖掘 -- 从应用的角度看大数据挖掘 李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2 1. 南京邮电大学计算机学院 南京 210023:2. 美国佛罗里达国际大学 迈 ...

  4. 大数据和「数据挖掘」是何关系?---来自知乎

    知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候: 如果要描述数据量非常大,我们用Massive Data(海量数据) 如果要描述数据非常多样,我们用Heterogeneous Dat ...

  5. 2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...

    2015年<大数据>高被引论文Top10文章展示 [编者按]本刊将把2015年<大数据>高被引论文Top10的文章陆续发布,欢迎大家关注!本文为高被引Top10论文的No.2, ...

  6. 【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...

    大数据时代的数据挖掘 -- 从应用的角度看大数据挖掘(下) 李 涛1,2,曾春秋1,2,周武柏1,2,周绮凤3,郑 理1,2 1. 南京邮电大学计算机学院 南京 210023:2. 美国佛罗里达国际大 ...

  7. 李涛:深度解读大数据时代的数据挖掘

    3月13日下午,南京邮电大学计算机学院.软件学院院长.教授李涛在CIO时代APP微讲座栏目作了题为<大数据时代的数据挖掘>的主题分享,深度诠释了大数据及大数据时代下的数据挖掘. 众所周知, ...

  8. 大数据时代的数据挖掘

    大数据是2012的时髦词汇,正受到越来越多人的关注和谈论.大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会. 大数据时代,数据挖掘是最关键的工作.以下内容供个人学习用,感兴 ...

  9. 软件开发全套视频教程汇总(javaSE,javaEE,linux,android开发,C# ,web前端,大数据云计算,数据挖掘,web前端,php开发,UI设计,C++开发,3D视频)

    软件开发全套视频教程汇总(javaSE,javaEE,linux,android开发,C# ,web前端,大数据云计算,数据挖掘,web前端,php开发,UI设计,C++开发,3D视频) 这是我以前学 ...

最新文章

  1. 苹果终端date命令_mac 终端 常用命令
  2. select模型详解
  3. spring核心:bean工厂的装配 1
  4. css教程–十步学会用css建站(全)
  5. 计组—存储以及字、位扩展
  6. CrossPHP--在我们用ajax,js取不到指定数据时,我们可以换一种方式
  7. [傅里叶变换及其应用学习笔记] 九. 继续卷积的讨论
  8. Delphi 的消息机制浅探二
  9. php启动端口修改,PHP_启动服务端口报错
  10. axios传参 后台接收为空
  11. 公务员计算机基本操作知识培训,计算机基础知识:计算机中窗口的基本操作
  12. Problem L: 数羊————思维不严谨
  13. ①变量、常量、数据类型解释 ②标识符命原则 ③sizeof使用原则 ④float型科学计数法 ⑤字符转换到ASCII表 ⑥\t 的使用意义【黑马程序员视频】
  14. PS制作3D立体字、透明气泡
  15. Windows10蓝牙突然消失不见(设置中蓝牙开关键消失)
  16. c#字符串转为json对象与json转对象
  17. IG NZT 安装使用过程中可能遇到的问题解决办法
  18. 信息学竞赛学习资料整理
  19. 微课竞赛系统的设计与实现所需工作条件_快速微课制作方法
  20. 服务器屏蔽了无线网卡,树莓派永久禁用无线网卡

热门文章

  1. c语言标识符的文法表示,第三章文法和语法[lly]3.ppt
  2. matlab不同调制方式下性能比较,用不同调制方式实现跳/扩频混合通信的抗干扰性能...
  3. java实现ListObject转List实体类,java实现Object转对象,java实现Object转实体类
  4. Hibernate 更新部分更改的字段 hibernate update
  5. MySQL命令(二)| 表的增删查改、聚合函数(复合函数)、联合查询
  6. 二叉树相关知识及求深度的代码实现
  7. 指针、引用以及const限定符、constexpr限定符
  8. notepad++ 文本文件内容丢失恢复
  9. leetcode614. 二级关注者(SQL)
  10. C++: 21---引用和指针