这是我读到的第一本真正讲“大数据”处理思路的书,我想分享一下我读了这本书的感悟。

一般情况下,在面对海量数据的时候,我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候,你就得考虑硬盘;当你的硬盘也放不下的时候,你就得考虑分布式;当你做分布式的时候,你就得考虑数据共享、容错、一致性、可扩展和并行计算等。

这本书的价值本身不在于教你机器学习算法,科普什么是流式处理,PageRank 等。而在于告诉你,当你的数据量大到你不能在单机完成的时候,你可以通过哪些方式达到你的目的。本书最常用的几种方法有:采样、近似计算(状态压缩)、并行计算(MapReduce)和降维等。

因为近似计算和采样都涉及到新算法结果有效性的问题,所以有很多关于近似算法收敛至目标结果的证明。抱着这样的心态去读,你会发现书中介绍了很多非常巧妙的处理方式。

书不厚,但内容详实,习题很棒,而且有丰富的引用文献,第二版在预售的时候我就赶紧订购了。新版补充了 SVD 降维相关技术,以及目前最热的分布式机器学习相关技术。另外此书译者很刁钻,翻译的几本书都是精品。

书的密度很大,每个知识点页数都不多,但至少都介绍清晰,而且还有深入探索用的文献。MapReduce 论文也不过 10 页左右,估计怕有人读不懂,书里非常详细的做了延伸,用了 30 页。本书中 MapReduce 代码很少,因为书只介绍思路,习题中需要自己用 MapReduce 实现。目录中提到的每个方面,作者只介绍了其中需要用“大数据”思路去解决的问题,其他的方面有其他方面专业的书籍和论文可以去探索。建议还在念书的同学们如果真的对大数据和分布式处理感兴趣的话,可以阅读本书。

END

以上是一位豆瓣读者sned_comer 写的书评,网址请见——https://book.douban.com/review/7560975/

接下来,我们再来了解一下这本书。

图书介绍

作者:Jure Leskovec,Anand Rajaraman,Jeffrey Ullman

译者:王斌,王达侃

作者介绍

Jure Leskovec(尤雷·莱斯科夫)

近年来最优秀的 AI 科学家之一。Pinterest 公司首席科学家,斯坦福大学计算机科学系副教授,研究方向为大型社交和信息网络的数据挖掘。

他的研究成果获得了很多奖项,如 Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship 和 Okawa Foundation Fellowship,还获得了很多最佳论文奖,同时也被《纽约时报》《华尔街日报》《华盛顿邮报》《连线》及 NBC、CBC 等流行的社会媒体刊载。

他还创建了斯坦福网络分析平台(SNAP)。

Anand Rajaraman阿南德·拉贾拉曼

数据库和 Web 技术领域领军者,硅谷连续创业者和风险投资人,斯坦福大学计算机科学系助理教授。

自 1996 年起创立过多家公司,这些公司先后被亚马逊、谷歌和沃尔玛集团收购,而他本人历任亚马逊技术总监、沃尔玛负责全球电子商务业务的副总裁。之后创立了风投公司 Milliways Ventures 和 Rocketship VC,投资过 Facebook、Lyft 等众多公司。

作为学者,他主要研究数据库系统、Web 和社交媒体,他的研究论文在学术会议上获得了多个奖项,他在 2012 年被《快公司》杂志列入“商界最具创造力 100 人”。

Jeffrey Ullman杰弗里·厄尔曼

计算机科学家,美国国家工程院院士,2020 年图灵奖得主。

早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。

他是 ACM 会员,曾获 SIGMOD 创新奖、高德纳奖、冯诺依曼奖等多项科研大奖;合著有“龙书”《编译原理》、数据库名著《数据库系统实现》等多部经典著作。

Ullman 培养了很多了不起的学生,其中包括谷歌联合创始人 Sergey Brin,本书第二作者也是他的得意弟子。目前担任 Gradiance 公司 CEO。

译者介绍

王斌博士

小米 AI 实验室主任,NLP 首席科学家。中国中文信息学会理事,《中文信息学报》编委。

加入小米公司之前,是中科院研究员、博导及中科院大学教授。译有《信息检索导论》《大数据:互联网大规模数据挖掘与分布式处理》和《机器学习实战》等书。

王达侃

优刻得 AI 部门负责人,曾任 WeWork Research & Applied Science  中国区负责人,并曾在 LinkedIn、Twitter 和微软亚洲研究院负责 AI 以及大数据方向的研发工作。

硕士毕业于斯坦福大学计算机系,本科毕业于上海交通大学 ACM 班。

图书特色

  • 当今 AI 领域最知名的学者之一Jure Leskovec、2020 年图灵奖得主 Jeffrey Ullman 及弟子作品

  • 国内知名 NLP 专家王斌、AI 青年学者王达侃执笔翻译

  • “数据挖掘全景式入门参考书”,源自斯坦福大学公开课“CS246:海量数据挖掘”“CS224W:图机器学习”和“CS341:项目实战课”

  • 配套资源丰富,包括开源英文原书 PDF、PPT、视频讲解

内容简介

本书源自斯坦福大学公开课“CS246:海量数据挖掘”“CS224W:图机器学习”和“CS341:项目实战课”,主要关注极大规模数据的挖掘。书中包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等主要内容。第3版新增了决策树、神经网络和深度学习等内容。几乎每节都有对应的习题,以此来巩固所讲解的内容。读者还可以从网上获取相关拓展资料。

这是一本关注极大规模数据挖掘的书

本书可以带你进入数据挖掘的大门

推荐阅读

《2020 年图灵奖得主 Ullman :做开源电子书,让肯掏钱买书的老实人免费读》

新书上市 | 世界名校数据挖掘经典《斯坦福数据挖掘教程(第3版)》

图灵社区

喜欢这篇文章?点个“在看”吧~▼

一本真正讲“大数据”处理思路的书相关推荐

  1. [重磅]秦雯讲大数据:心动.幡动.风动

    我想因为今年我觉得是传统媒体,或者说媒体行业发展,中国的媒体行业发展比较特殊的一年.有几个大的市场因素在变化,第一个大的变化是政策因素,应该说政策因素对传统媒体是向好的,在这一块儿在座的所有的各位都比 ...

  2. 牛津博士讲大数据和量化金融

    本讲座选自2015年8月27日在2015中国国际大数据大会主题论坛五──牛津大学NIE金融大数据实验室.数据科学高级研究员.博士王宁所做的题为<大数据和量化金融,从机器交易,高频交易到大数据交易 ...

  3. 【PPT】我在高中讲大数据 by 傅一平

    儿子所在的学校组织名为"启封未来,遇见更好的自己"的高中生涯规划教育活动,拟邀请部分家长代表讲讲行业知识,自己报了大数据,然后幸运入选. 为了让高中学生也能理解大数据,因此花了点时 ...

  4. 大数据技术原理与应用—第1讲 大数据概述(林子雨老师)课后习题

    以下是慕课上林子雨老师,大数据原理及应用的第一讲习题答案.仅供大家学习参考. 第8题:4V指的是:价值密度低,数据量大,数据类型多,处理速度快

  5. 大家都在讲大数据,大数据是什么呢?

    如今这个时代,大数据,云计算这些热门概念是人们茶余饭后议论的热点话题,然而很多人还是搞不清楚什么是大数据.今天,每日精彩科技将根据自己的经验回答这个问题! 什么是大数据? 半个世纪以来,当计算机技术全 ...

  6. 构建煤矿物联网大数据平台思路(2)-实时数据库与时序数据库

    传统工业实时历史数据库与时序数据库的区别? 本文介绍了实时数据库和时序数据库,并就其特点.应用场景.相关厂商.联系与区别做介绍. 实时历史数据库 ![实时历史数据库架构.png](https://im ...

  7. 被新基建点名的大数据,有哪些书最值得读?

    导读:没人说得清"大数据"概念是哪天诞生的,更没人说得清大数据行业是什么时候开张的,大概追溯一下,应该都是十多年前的事了.资本对大数据的态度已经越来越理智,大数据早已不在风口上. ...

  8. 大数据入门看哪些书比较好

    大数据行业前景看好,有很多朋友对大数据行业心向往之,却苦于不知道该如何下手,或者说学习大数据不知道应该看些什么书.作为一个零基础大数据入门学习者该看哪些书? 就目前公司招聘和其他所了解到的大数据专业的 ...

  9. 大数据实验室:零基础学习大数据该看哪些书?

    小编身边有很多朋友对大数据行业心向往之,却苦于不知道该如何下手.作为一个无基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考. 查看全文 http://www.ta ...

最新文章

  1. 在线学html5,HTML5 在线学习自我演进的导弹系统
  2. wxWidgets:wxActiveXContainer类用法
  3. 2021数字化就业新职业新岗位研究报告
  4. QT之计算器对四则运算表达式的解析(九)
  5. 自动驾驶 2-5 自动驾驶汽车的未来 The Future of Autonomous Vehicles
  6. java怎么控制页面打印次数_java – 控制打印页面上面板的大小
  7. 基于slate构建文档编辑器
  8. C++配置OpenCv:一劳永逸
  9. 【白话经典算法系列之十二】数组中只出现1次的两个数字(百度面试题)
  10. 感觉媒体、表示媒体、表现媒体、存储媒体和传输媒体
  11. Java JVM 运行机制及基本原理
  12. 电脑重装系统如何在 Win11查看显卡型号信息
  13. 96-centos安装postgresql
  14. Android中日志打印 Log的使用
  15. 【计算几何】计算几何复习
  16. “拆股”买投资房正在成为现实,不用攒钱也能买上房
  17. 2022年中国数据库排行榜年终盘点-墨天轮
  18. 185. [USACO Oct08] 挖水井
  19. windows7虚拟机无法安装Xshell显示-1618错误怎么解决?
  20. 义勇军进行曲[聂耳]

热门文章

  1. 蓝牙 socket 建立不了_蓝牙电话之PBAP同步电话簿的安卓实现
  2. php 7.1 寿命,PHP 7.1新特性
  3. linux的备份命令详解,docker备份linux系统的命令详解
  4. mysql 资深dba_MySQL数据库专家分享资深DBA经验
  5. sip 时序图_时序图怎么看_教你如何看懂时序图 - 什么是时序图_时序图怎么看_教你如何看懂时序图...
  6. db2字符串不能累加的吗_二建可以考两种专业吗?建筑和公路能同时考吗?
  7. Google App Engine 的简易教程(转载)
  8. Python学习小结---粗略列表解析
  9. js阿拉伯数字转成汉字
  10. Top100论文导读:深入理解卷积神经网络CNN(Part Ⅱ)