原标题:数据分析最需要的12本中文书(从入门到高阶)

作为一名工作两年的产品新人,想学一些数据分析的知识,推荐的书多又杂,并且没有一个阅读顺序,实在不知道该怎么办才好。 整理了各大网站关于学习数据分析的文章,希望把这篇文章分享给处于和我一样想学数据分析不知该从何入门的小伙伴们一起学习。也希望可以收到别人对我这种小公司产品新人的建议或处于相同阶段的小伙伴们的交流。

因工作原因要学习一些数据的知识,从人人都是产品经理网站上并没有找到一篇从入门到进阶成体系的文章,且查找的分享都是数据体系中一个分支的分支,整体看起来烟雾缭绕,经一位前辈点播还是先从书籍中建立整体的认知再看这些碎片化的知识,才能更有体会(手动@前辈谭小超,私聊的感受就是超级平易近人,受我一拜orz),故有了这篇内容。

文章内容整理至知乎,感谢两位大佬的分享,其中@知乎用户 张溪梦 Simon、DataCastle(其中大部分内容源自Simon,部分属于DataCastle已标注)

入门

适合数据分析的入门者,对数据分析没有整体概念的人,如应届毕业生,经验尚浅的转行者。

《深入浅出数据分析》

HeadFirst类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。——Simon

把这本书放在第一顺序,是因为它真的很简单,但是能够让你对数据分析的一些基本概念有大致的了解。即便是你毫无数据分析经验,一两天也足够读完整本书了。这本书的实操性并不强,所以也不建议你去跟着实践,了解作者传达出来的数据分析基本思想和原则就OK了,这对你建立宏观的视野,和接下来的学习很有帮助。

另外,书中提到的一些案例,比如提升化妆品销量、分析星巴克销量、生产线最优解、网站ABtest、竞品分析、薪资预测等等,看起来很简单,但其实都是工作最常见的一些分析场景。这对数据思维的养成,非常有帮助。

个人觉得书中最有用的一些点如下。

统计学概念在数据分析中的作用:比如方差、标准差、相关系数、均方根误差等。

集中数据分析的基本方法:假设检验、回归分析、误差分析等。

统计图形分析:散点图、直方图等来探索数据中隐藏的规律。

数据库以及数据整理。

这本书很难让你掌握数据分析技术,过一遍即可。

《谁说菜鸟不会数据分析》

不仅讲解了一些常见的分析技巧,并附带excel的一些知识及数据分析在公司中所处的位置,对职场了解亦有一定帮助。

《赤裸裸的统计学》

作者年轻时是个追求学习意义的学霸,后来自己从统计学中发掘了很多可以应用到生活的地方。这也是本书的主旨,结合生活讲解统计知识,生动有趣。可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。

《统计数字会撒谎》

知名度高,但是还没看过…

进阶

具有一定的行业针对性,要求具备一定的分析常识,适合网站分析师,商业分析师以及数据产品经理。

《深入浅出统计学》

HeadFirst类书籍,可以帮助你快速了解统计方面的知识。——Simon

非常非常基础的统计书,适合任何一个没有基础的小白,文科生也能看懂。有人说这本书简直太简单了,但是对于数据分析来说,需要用到的恰好是这些最简单的东西。比如基本的统计量,基本上每个分析项目中都会用到。比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。

所以强烈推荐这本,其他的比较深度的书,并不建议在入门的阶段去啃,一方面是很多难以理解,二是即便你花大力气学习了,入门的阶段你也不怎么能在实践中使用。当然多学一些是没有坏处的,但你需要知道在什么时候学习哪些东西性价比最高。或者你自我感觉良好,誓要学最难的,从入门到放弃,得不偿失。

总结起来,需要重点了解的统计学知识如下。

基本的统计量:均值、中位数、众数、方差、标准差、百分位数等。

概率分布:几何分布、二项分布、泊松分布、正态分布等。

总体和样本:了解基本概念、抽样的概念。

这本书非常的简单,但是基本的数据分析的一些方法都有了,你需要做的,是利用之前学过的Python 的一些库(pandas、Numpy、matplotlib)来实现这些数据分析的方法、实现基本的可视化来进行图形化的分析。——DataCastle

《MySQL必知必会》

这本也是我当年学习SQL的入门书,薄册子一本,看起来很快。SQL是个性价比很高的技能,简单而强大。任何想进一步提高自己数据分析技能的产品/运营/分析师同学,都建议点亮这个技能点。——Simon

这本书把SQL写得非常简单,没办法,SQL确实也很简单。其实pandas 就已可以实现很多数据管理的工作,而了解SQL 的意义在于融入到实际的数据使用的场景。比如企业的数据,多是以数据库的形式存储起来的,那么如果你要去调用你想要的那部分数据,SQL就是必须的技能。如果你在最开始就想用公司的数据来练习,那么你可以把这本书的阅读放到最前面。(当然,如果你不会遇到数据提取的问题,SQL这部分也可以暂时不管,对具体的数据分析没有影响,等到你真正需要用到SQL的时候再学习。)

MySQL本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。

书中重点掌握以下几个点。

SELECT语句:让你能够去提取你需要的那部分数据。

DELETE和UPDATE:知道怎么实现数据的增、删、改。

数据过滤:where、and、or、通配符等过滤方式。

数据的汇总和分组、数据库连接:应对更加复杂的数据和相关联的数据。

子查询:查询中的查询。

当然还是希望你去公司的数据库找一些数据进行练习,如果不方便的话,也可以直接用上述UCI数据集中的数据进行实践。

如果遇到问题,可以去菜鸟教程查询相关操作。

好了,恭喜,你已经基本入门了。到此,你就完全可以去进行一个完整的数据分析项目了,如果你没有头绪,可以去找一些行业的分析报告来看看,找一找分析的思路。能够独立完成一些项目,通过数据分析能够得出一些深刻的结论,能够给人以可视化的形式将结果描述出来,能够基于历史数据对未来的一些情况进行预测,那么一般的数据分析岗位,完全可以胜任了。

《互联网增长的第一本数据分析手册》

GrowingIO出的一本数据分析的增长手册,为大家提供常见的分析手段讲解,如漏斗分析,同期群分析等。可在GrowingIO技术论坛中免费下载。

《利用Python进行数据分析》

这应该是最经典的数据分析书之一了,作者是pandas 库的作者WesMcKinney 。所以这本书对于pandas 的理解,应该是非常深刻的,而经过梳理介绍的pandas、numpy、matplotlib 等库,应对一般的数据分析,完全足够了。

书中应该重点掌握的一些点。

IPython Notebook 的使用:最适合小白的代码编写环境,非常容易上手。

科学计算库 Numpy:数组和矢量计算、学会利用数组进行数据处理。

数据处理及分析工具 pandas:数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化。

可视化工具 matplotlib:用这个库,基本的数据可视化问题皆可以解决了。

看上去是不是很简单,这本书就是教会你如何开始使用Python 进行数据分析,当然首推的就是pandas ,不仅可以做数据的预处理,还能够做基本的数据分析和可视化。这个库一定是你开始入门的时候需要重点学习的,其次用Numpy 进行数组的计算、利用matplotlib 进行可视化的描述性分析,也是同步需要掌握的东西。

但是,这个部分光看书是远远不够的,你可以尽量去找一些可以练手的数据集,来实际操作和调用这些库的功能,确保熟练数据分析中最常用的函数和模块。如果纠结去哪找练手的数据,推荐UCI经典数据集。

关于pandas、Numpy、matplotlib 网上应该可以搜索到很多有用的资料、教程,可以看一看别人的使用技巧、应用场景,并通过练习转化成自己的经验。

因为Python 库的更新迭代非常快,这本书里的一些内容其实已经“过时”了,这里也非常建议你去查看一些官方的文档,基本上你需要的都能查到。

另外,在进行一些数据处理、数据分析的时候,你可能需要去了解一些更细节化的Python 用法,这里就不推荐书了,因为你没必要去系统地学,按照这个菜鸟教程看看或者查询相关的用法就OK了。

高阶

更高阶的数据相对来说专业性较强了,如涉及到企业内部数据治理,数据结合的业务分析,数据可视化等。当然,还有数据挖掘算法之类的更深入的东西,这块没有研究就不瞎推荐了。

《精益数据分析》

此书优势在于将企业分成了几个大的行业类别,并分门别类地讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。——Simon

书中主要讲到各种产品中用到的指标和模型,这是一本写给产品经理的书,其中并没有具体的数据分析技术,涉及的更多是数据驱动型产品的一些思路。

比如怎么将数据驱动的产品落地,怎么为产品设计数据指标,哪些指标对于产品迭代优化更有效,如何依靠数据分析来驱动用户增长等。——DataCastle

《数据之美》

本书通过世界上最好的数据工作者的示例,向读者展示处理数据的方法。本书使得读者可以站在优秀的数据设计师、管理者和处理者的肩上,去仔细审视涉及数据的一些最有趣的项目。

《决战大数据》

阿里巴巴前数据副总裁车品觉老师所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。

《The Wall Street Journal Guide to Information Graphics》

华尔街日报负责商业分析的人做的可视化指南,精华且实用。

《数据科学实战》

这本书应该是数据分析和数据挖掘(机器学习)之间的桥梁。从探索性的数据分析开始,通过数据分析的思维,引出了机器学习的基本算法:回归分析、k近邻、k均值。接着通过不同的应用场景分别介绍了最常见的机器学习算法,以及在真实场景的应用。

对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑过渡到机器学习和数据挖掘,这本书我认为是这方面做得最好的一本。

所以如果你在做一些探索性的分析遇到瓶颈之后,自然而然会进入数据挖掘和机器学习算法的坑,因为只有更高级的算法和模型,才能够支撑大规模的数据的预测。

下面列出一些书中有意思也比较有用的点:了解探索性数据分析,为更高级的需求打好基础; 了解机器学习的基本算法、k近邻、k均值等; 用朴素贝叶斯方法做垃圾邮件的过滤; 线性回归和逻辑回归的分析方法; 如何从数据中获取结论,从数据挖掘竞赛开始; 构建自己的推荐系统; 数据泄漏与模型评价,如何筛选模型。

推荐关注

在知乎上有不少数据分析及Growth的大牛,在这里推荐几位我熟悉的,经常会写一些相关的文章:

覃超,前Facebook 早期工程师,关于增长黑客写了许多优秀的文章。

邹昕,Facebook 用户增长数据分析,在数据分析方面很有见解。

范冰,《增长黑客》一书作者,人非常有趣,同事也非常推荐《增长黑客》这本书。

曾加,蚂蚁金服 BI-数据分析,数学方面的牛人。

何明科,专注于数据和互联网产品,许多回答很值得细看。

对于推荐的书籍来讲,有一位前辈能对这本书有所评价并告诉后辈的,无异于考试时书上画了重点,所以,关于数据分析的书,有这么一篇介绍就够了。

但是关于产品的书,从网上找到的书单涉及的太多,因为产品经理需要对各个方面都有所了解,要对各个领域都列出个书单的话,也没时间看,毕竟人的精力是有限的,还是要有所选择。

这里想讲一个选书的方法,将每一位大牛列出的书单视作他们的一个产品,将产品领域各位大牛的书单做个竞品分析,列出每个书单的相同点,也就是找出每份书单都会出现的书,对于新人来说,从这些书中开始读,准没错。

产品岗位近几年才逐渐有了系统化的培训,在之前鱼龙混杂的时代有人出了一本书,各个产品人一定都有所涉猎,而那个时候产品可选择的书籍并不多,这些人中又渐渐出了大神,值得被多位大神站台的书籍,内容一般都有保障。

一个真心喜欢工作的2年产品新人,目前学习的方法是通过书籍掌握基础脉络再通过碎片化的文章往不同的方向延伸,期望只通过能力而不通过公司的背景和光环被人认可。

作者:三郎

python讲统计学 书籍_数据分析最需要的12本中文书(从入门到高阶)相关推荐

  1. Python金融量化 | 从入门到高阶实战应用

    引言 今天给大家分享一个微信公众号"Python金融量化",作者是金融学博士,堪萨斯大学访问学者,专注于分享Python在金融量化领域的实战应用,坚持走原创路线,持续输出技术干货, ...

  2. python数据分析师书籍_做数据分析不得不看的书有哪些?

    小K给大家整理了一份书单,很适合刚接触数据分析的同学哦,快快收藏起来. <深入浅出数据分析> <深入浅出数据分析>写得漂亮,读者可以学到分析现实问题的系统性方法.从卖咖啡到开橡 ...

  3. python 数据科学书籍_您必须在2020年阅读的数据科学书籍

    python 数据科学书籍 "We're entering a new world in which data may be more important than software.&qu ...

  4. 学习python最好的书籍_最好的Python书籍

    学习python最好的书籍 Python is an amazing programming language. It can be applied to almost any programming ...

  5. python金融量化书籍_超强干货 | Python金融数据量化分析教程+机器学习电子书

    如今Python语言的学习已经上升到了国家战略的层面上.Python语言是人工智能的基础语言,国家相关教育部门对于"人工智能普及"格外重视,不仅将Python列入到小学.中学和高中 ...

  6. 自学python的经典书籍_有哪些 Python 经典书籍?

    内容太长,完整内容请访问原文: python 3.7极速入门教程9最佳python中文工具书籍下载 筛选了2年内优秀的python书籍,个别经典的书籍扩展到5年内. python现在的主流版本是3.7 ...

  7. python框架django书籍_【2020Python修炼记】web框架之 Django的ORM语法

    [目录] 一.单表查询(增删改查) 二.常见的十几种查询方法 三.神奇的双下划线查询 四.外键字段的增删改查 五.跨表查询(重点) (一)子查询 (二)联表查询 六.聚合查询 七.分组查询 八.F与Q ...

  8. python自然语言处理书籍推荐-自然语言处理有哪些好的入门书籍推荐?入门首先应该有哪些实践?...

    自然语言处理入门书籍推荐: /><数学之美(第二版)> 由原谷歌自然语言处理专家吴军博士将原谷歌黑板报内容重新编辑整理而成,让非专业人士也能了解到算法与常见应用的背后数学原理. 介绍 ...

  9. 盘点:从入门到高阶的10本数据分析类图书

    一.入门的过瘾是能"麻溜的一下看完" 1.深入浅出系列: "HeadFirst类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知." <深入浅出 ...

  10. Python高效技巧(三)---查缺补漏(时间处理、shutill模块、高阶函数、装饰器)

    Python高效技巧 前言: 函数 1.可接受任意数量参数的函数和关键词参数 2.匿名函数 lambda 二.其他 1.关于序列的各种方法 2.产生器表达式 三. 查缺补漏 1.时间处理 1. cal ...

最新文章

  1. 面试官:你说熟悉MySQL,那来谈谈InnoDB怎么解决幻读的?
  2. 你真的会vue-router吗?
  3. git push代码出现push rejected错误
  4. NET问答: 重写了 Equals,还有必要重写 GetHashCode 吗?
  5. ejb的maven_针对新手的Java EE7和Maven项目-第3部分-定义ejb服务和jpa实体模块
  6. python导入同一文件夹下的类_Python模块导入机制与规范
  7. java ssm框架 mapper文件里的#符号和$符号的区别
  8. 个位数不含4用计算机表示,计算机组成原理
  9. x86汇编指令:EIP、ESP、EBP
  10. 学习C++: VSCode配置C++开发环境
  11. 如何使用海康威视网络相机(激活+修改ip)
  12. 微信小程序服务器布置轮播图,微信小程序自定义轮播图
  13. HTTP和HTTPS请求的整个过程详解
  14. 数据库分页的几种实现
  15. Word自动生成的目录超出页边距
  16. 获取高匿代理ip的步骤思路
  17. 给kvm虚机开放对外访问的端口
  18. 如何获取到javasript链接的网址
  19. JavaScript时间日期
  20. [轻松一下]2005年十二生肖运程

热门文章

  1. 5G啊5G,你是不是只比4G多一G?
  2. SPI通信协议学习笔记
  3. JAVA输出100以内素数
  4. 手机运作html实现弹窗,html5实现手机弹窗留言对话框(摘)
  5. linux 时间戳是什么数据类型,Linux时间戳、时间类型转换
  6. 医疗器械app软件开发功能明细
  7. 智能电气阀门定位器原理
  8. matlab 摄动波浪理论,等于波浪论文,关于MATLAB在实验室波高采集中的应用相关参考文献资料-免费论文范文...
  9. 在线分析丨相关性分析——RDA/CCA分析
  10. 使用命令查看linux编码,如何利用命令查看linux 系统汉字编码