记录一下笔者所阅读过的与大数据相关的书籍,以及阅读感受,以期为同仁提供此许参考建议。

1. 《数据科学实战》(英文版本名称: Doing data science)

读后感:

这是一本有态度、有观点的书。作者在其中表达了对业界一些关于大数据说法的不认可。同时,作者没有装作万事通,而是很实在地讲,有些分析思路,他也不知道什么好什么不好,而要通过实践来尝试。比如第22页,作者写道 “你怎么知道什么数据该用什么模型? 这一半是科学,一半是艺术。这个问题正是打开数据科学大门的钥匙,可惜的是,本书中就这个问题能够给出的指引非常有限。只能说模型的选择是建模过程中的一环,你需要对底层数据结构做出大量假设,应该有一个标准来规范如何选择模型和解释这样选择的理由。但是我们还没有统一的规范。所以只能摸着石头过河,希望经过深思熟虑,能制定这样一套规范。必须承认,我们也不知道从哪儿开始,如果知道的话,我们已经知道了生命的意义。但是,我们会尽力在书中向你展示我们在面对这样的问题时要怎么做。”

但同时,这本书也有一些不足之处,就是有些章节介绍得过于简略,如第5章,逻辑回归,第8章,推荐引擎,均没有详细介绍算法原理,而是对参数估计的方法、降维有较多介绍。而且看的过程中也发现,本书的内容貌似有许多企业界人士参与撰写,这样的好处是能感受到国外工业实践中真实的一些做法。

总体上,这本书不适合那些想深入了解数据挖掘算法细节的入门者,而较适合有一定建模经验的老手,看看业界其他人都遇到哪些问题,他们解决问题的思路是什么。

2. 《这就是搜索引擎 核心技术详解》 张俊林

读后感:

本书较通俗易懂,作者显然具有丰富的实践经验,才得以将原理概念性的东西介绍地很通俗。较适合于对于搜索引擎技术有好奇心,想知其所以然的读者。但是,本书在可操作层面并无太多指引,更多是原理性的讲解,代码也很少。同时,也没有推荐一些相关的好书箱(笔者近来觉得,好的作者,应该像个导师一样,教学有针对性,不是本课程关注的范畴,就不讲,但是我告诉你在哪本书,或者某某是这方面的专家,如果要深入了解,可参考)。

3. 《机器学习》周志华

读后感:

本书的用途是周老师为开设机器学习课程而撰写的,故而其内容多在理论介绍层面。特点是全而细,确实较适合用于课堂教学。

对于从事数据挖掘工作的一线工程师,如果对于常规挖掘算法原理已有掌握,则不太推荐此书。并不是本书不好,而是每本书都有其特定用途。本书中缺少在实践过程中遇到问题、分析问题、解决问题的思路讲述,故而是一本讲what的书,不是讲how的书。近来笔者发现一个规律,书名为**实战的书,往往有较强的实践基础,且有较多代码描述。而这类书,对于一线码农,其实最实用。

4. 《互联网大规模数据挖掘与分布式处理》英文版本名称《minging of massive datasets》

读后感:

本书内容有一定深度,适合于在数据挖掘战线上工作过几年,积累了一些自己的实战经验、困惑的工程师。

本书中所谈到的一些话题或观点,在普通的数据挖掘教材中很少看到。比如,第4页就提到了“邦弗朗尼原理”,我自己理解这个原理的大意是说如果一些特征在随机事件中也经常出现,那么即便这些特征会在想挖掘的案件中经常出现,这些特征的可信性也是不足的。像这个观点,笔者就很少在其它地方看到。其实,我们阅读为的不就是不断接受新鲜的观点、理论,再结合自己的实践和思考,最终形成自己独特的方法论和观点体系吗? 从这个立场出发,我比较推荐大家去阅读此书。

5. 《洞悉数据 用可视化方法发掘数据真义》

读后感:

刚开始是在公司知识库中一位数据专家的文章中看到提及本书,就买来看一下,结果发现,坑了,没啥干货,高屋建瓴谈思想的过多,实战过少。所以不适合一线工程师阅读。如果你想从这本书学习如何进行数据可视化,或者有什么好的平台工具可以用,那么就死了这个心吧,do not buy it.

6. 《数据仓库工具箱 第3版 --维度建模权威指南》

读后感:

平心而论,本书翻译的质量实在不敢苟同。大多数段落靠生硬的语言描述来试述应用场景,堆砌了大量的名词术语。但是耐着性子看,是能看出来作者想表达的意思的。本书主要讲述了在数据仓库建模时,要遵循几个重要的步骤:1. 选择业务过程 2. 选择粒度 3. 选择维度 4. 选择事实。  然后讲述了在不同产业应用中,应该怎样建立事实维度表。 如果你是数据仓库ETL开发工程师,那么建议阅读一下,毕竟这方面的书本身就不多。

7. 《机器学习》 Peter Flach 著,段菲 译

读后感:

本书更像是一本综述,面面俱到,但未深入细节。在方法讲述及推导上,有思路的跳跃。个人感觉更加适合于作为工具书,查找知识点提要,不适合作为机器学习入门学习的读物。 推荐指数 3星。

8. 《干净的数据 数据清洗入门与实践》

读后感:

这是一本书教会你 how to do it 的书。讲解详尽,甚至会一步一步告诉你在哪里找到一个命令操作,必要的地方也有代码说明。个人感觉算是一本良心之作,比较适用于数据科学这个行业的入门者。推荐指数 4星。

9. 《Java8 实战》

读后感:

良心之作! 讲解非常细致,思路清晰,读来有如听老师在讲课一样生动。推荐指数:5颗星

个人接触spark后,深感scala的强大和便捷。而这本书就着重讲解如何在java中引入函数式编程的思想,甚至大胆地与scala作了对比,承认相比于后者,在很多方面还有不足。虽然平时使用java做数据挖掘的机会并不多,但开拓下视野,读一读还有很有裨益的。会让你体会到,一门编程语言是如何随着时代在前进,如何借鉴其它语言中的精华来保持自身的竞争力。

10. 《软技能 代码之外的生存指南》

读后感:

非常好的一本书,娓娓道来,仿佛与读者在聊天一般。从作者的亲身经历出发,给了很多非常适合程序员这个职业的软技能培养建议。尤其是其中关于树立个人品牌的部分,把自己当成一个生意人,不断强化自己所能提供的产品服务。我觉得吧,有时候,一些观念听上去有些水,但如果将这种观念融入行为方式,就会体会到思维意识对行动之影响力的巨大威力。

11. 《走近2050 注意力、互联网与人工智能》 集智俱乐部 著

读后感:

该书更多地是总结了近年来社会上出现的新兴科技思潮,并包装出一个”注意力理论”,将众包、社会计算、人工智能等概念与注意力之间建立联系。本书较适合于开拓视野,每个部分讲得都不是太深入,但总体上覆盖的面比较宽。

12. 《Python 机器学习及实践》 范淼 李超 著

读后感:

推荐指数:2星。 内容较浅,仅仅适合入门用。尤其是介绍kaggle实战的部分,建模的过程过于简略,没有思路上的讲解,也有没有特征工程上的展开分析,直接一步步地说了操作。即是说,更多是讲了怎样做,而没有讲为什么,怎么想到这么做。

13 《凤凰项目 一个IT运维的传奇故事》

读后感:

推荐指数:5星。 以故事化的形式展示,栩栩如生地讲述IT职场中发生的各类工作方式、思维方式。引人深思,又能不时唤起同感。对于初入职场的年经人,非常有裨益。需求永远是做不完的,老板永远是不好应付的,职场中永远是有竞争和PK的,时间管理也会一直是个难题,而这些在本书都有生动的讲解。非常佩服老外写书的功力。

14 《深入浅出数据分析》 《深入浅出统计学》

读后感:

推荐指数:5星。 以一种十分轻松、明了易懂的方法来介绍数据分析、统计学的知识。如果有人觉得内容过于简单,那么我倒觉得,这套书最大的优点在于,它启发人们去思考,去体会学习的乐趣。同时,我们也应该思考,如果让你自己用类似的方法把所知道的技术讲解出来,该如何做?

数据科学系列读书笔记相关推荐

  1. 大数据之路读书笔记-01总述

    大数据之路读书笔记-01总述 此系列文章为大数据之路的读书笔记,如侵可删 2014 年,马云提出,"人类正从 IT 时代走向 DT 时代 "如果说IT时代是以自我控制.自我管理为主 ...

  2. 数据之道读书笔记-06面向“自助消费”的数据服务建设

    数据之道读书笔记-06面向"自助消费"的数据服务建设 数据底座建设的目标是更好地支撑数据消费,在完成数据的汇聚.整合.联接之后,还需要在供应侧确保用户更便捷.更安全地获取数据.一方 ...

  3. 【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建

    ▐ 前言 在[阿里妈妈数据科学系列]前四期内容中,我们介绍了 AB TEST 的基础知识与框架及每个部分的方法论与技术,本期我们主要介绍实验指标设定方法与指标体系构建. 指标体系构建在 AB Test ...

  4. 【阿里妈妈数据科学系列】第三篇:离线抽样框架下的AB Test

    在 AB Test 的语境中,"离线抽样"指在实验开始之前就确定实验组和对照的抽样方式.很显然,离线抽样的对象不是实时产生的流量,相反,离线抽样框架下的 AB Test 更接近于传 ...

  5. 【阿里妈妈数据科学系列】第二篇:在线分流框架下的AB Test

    背景 AB Test 是为同一目标制定两个方案,在同一时间维度,保证其他条件一致的情况下,分析实验组跟对照组的区别,根据不同的实验类型以及应用场景,产生了不同分桶逻辑的AB Test,包括在线分流及离 ...

  6. UCSD COGS108 数据科学实战中文笔记·翻译完成

    原文:COGS108/Tutorials 译者:飞龙 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. ApacheCN 机器学习交流群 62 ...

  7. 《R数据科学》学习笔记|Note5:使用dplyr进行数据转换(下)

    点击蓝字 关注我! 写在前面 本系列为<R数据科学>(R for Data Science)的学习笔记.相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据 ...

  8. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  9. 关于数据治理的读书笔记 - 什么是数据治理?

    <关于数据治理的读书笔记 - 数据治理.数据管理和数据管控的理解>我们了解了有关数据治理.数据管理和数据管控,这几个名词之间的区别和联系,回到数据治理的话题上,数据治理究竟是什么? 站在不 ...

最新文章

  1. ks检验正态分布结果_【学习】AD, RJ和KS哪种正态性检验是最好的?
  2. AI研习丨专题:可解释推荐的强化学习框架
  3. 【django】【基础】templates
  4. TCP/IP协议的SYN攻击
  5. 【Pytorch神经网络基础理论篇】 08 Softmax 回归 + 损失函数 + 图片分类数据集
  6. b+树时间复杂度_满二叉树、完全二叉树、二叉搜索树、平衡二叉树
  7. RabbitMQ消息订阅与轮询
  8. python3发送邮件_Python3使用SMTP发送带附件邮件
  9. 7-12 求给定精度的简单交错序列部分和 (15 分)
  10. 后缀表达式/逆波兰表达式
  11. Setinterl全面介绍
  12. Chrome插件-Dark reader,护眼的黑暗模式浏览器
  13. 盗版WIN7的管理员权限
  14. winform 窗体设置成无边框、可拖拽、四周圆角
  15. CentOS 7 LVM创建与使用
  16. Python之排序函数总结
  17. JavaScript IndexedDB 完整指南
  18. 细说二维码扫码登录的原理
  19. PMP-11.项目管理的五大过程组
  20. Unity(二)示例项目(1):FPS游戏—认识基本工具

热门文章

  1. 计算机概论和发展简史教案,计算机概论教案.pdf
  2. 如何安装配置BRAS
  3. DHCP服务器知识点总结
  4. 药一点医疗管理软件供应商—诊所管理系统
  5. 单片机欠压保护、欠压复位的用法及作用
  6. NO.012-2018.02.17《题都城南庄》唐代:崔护
  7. 运用深度学习预测肺癌
  8. 2、采用结构体数组编写程序,定义一个含职工姓名、工作年限、工资总额的结构体类型,从键盘输入5名职工的信息,最后再对工作年限超30年的职工加1000元工资,并输出工资变化后的所有职工的信息
  9. also与apply区别
  10. Markdown教程--Markdown链接