译者序

前言

关于本书

关于作者

关于封面插图

章 大数据世界中的数据科学1

1.1 数据科学和大数据的好处和用途2

1.2 数据种类3

1.2.1 结构化数据3

1.2.2 非结构化数据3

1.2.3 自然语言数据4

1.2.4 计算机数据4

1.2.5 图类数据5

1.2.6 音频、视频和图像数据5

1.2.7 流数据6

译者序

前言

关于本书

关于作者

关于封面插图

章 大数据世界中的数据科学1

1.1 数据科学和大数据的好处和用途2

1.2 数据种类3

1.2.1 结构化数据3

1.2.2 非结构化数据3

1.2.3 自然语言数据4

1.2.4 计算机数据4

1.2.5 图类数据5

1.2.6 音频、视频和图像数据5

1.2.7 流数据6

1.3 数据科学过程6

1.3.1 设置研究目标6

1.3.2 检索数据6

1.3.3 数据准备7

1.3.4 数据探索7

1.3.5 数据建模7

1.3.6 展示与自动化7

1.4 大数据生态系统与数据科学7

1.4.1 分布式文件系统7

1.4.2 分布式编程框架9

1.4.3 数据集成框架9

1.4.4 机器学习框架9

1.4.5 NoSQL数据库10

1.4.6 调度工具10

1.4.7 基准测试工具10

1.4.8 系统部署11

1.4.9 服务开发11

1.4.10 安全11

1.5 Hadoop工作示例介绍11

1.6 本章小结16

第2章 数据科学过程17

2.1 数据科学过程概述17

2.2 步骤1:定义研究目标并创立项目章程19

2.2.1 了解研究的目标和背景20

2.2.2 创立项目章程20

2.3 步骤2:检索数据20

2.3.1 从存储在公司内部的数据开始21

2.3.2 不要害怕去购买数据21

2.3.3 检查数据质量以预防问题发生22

2.4 步骤3:数据的清洗、整合以及转换22

2.4.1 数据清洗22

2.4.2 尽可能早地修正错误27

2.4.3 从不同的数据源整合数据28

2.4.4 数据转换30

2.5 步骤4:探索性数据分析32

2.6 步骤5:构建模型35

2.6.1 模型与变量的选择35

2.6.2 模型执行36

2.6.3 模型诊断与模型比较39

2.7 步骤6:展示结果并在其上搭建应用程序40

2.8 本章小结40

第3章 机器学习42

3.1 什么是机器学习,为什么需要关注它42

3.1.1 机器学习在数据科学中的应用43

3.1.2 机器学习在数据科学过程中的使用43

3.1.3 Python工具在机器学习中的应用44

3.2 建模过程45

3.2.1 特征工程以及模型选取46

3.2.2 模型的训练47

3.2.3 模型的验证47

3.2.4 预测新的观测值48

3.3 机器学习的类型48

3.3.1 有监督学习48

3.3.2 无监督学习53

3.4 半监督学习60

3.5 本章小结61

第4章 单机上处理大数据63

4.1 大数据处理过程中遇到的难题63

4.2 处理巨量数据的通用技术64

4.2.1 选择合适的算法65

4.2.2 选择合适的数据结构71

4.2.3 选择合适的工具73

4.3 处理大数据集的通用编程技巧75

4.3.1 不必重复发明轮子75

4.3.2 充分利用硬件76

4.3.3 减少计算需求76

4.4 案例研究1:预测恶意URL77

4.4.1 步骤1:确立研究目标77

4.4.2 步骤2:获取URL数据77

4.4.3 步骤4:数据探索78

4.4.4 步骤5:建模79

4.5 案例研究2:在数据库中建立一个推荐系统80

4.5.1 所需的工具及技术80

4.5.2 步骤1:研究问题82

4.5.3 步骤3:数据准备82

4.5.4 步骤5:建模86

4.5.5 步骤6:展示与自动化86

4.6 本章小结88

第5章 大数据世界的步89

5.1 数据分布存储和框架处理89

5.1.1 Hadoop:存储和处理大数据集的框架90

5.1.2 Spark:取代MapReduce以获得更好的性能92

5.2 案例研究:借贷的风险评估93

5.2.1 步骤1:研究目标94

5.2.2 步骤2:数据检索95

5.2.3 步骤3:数据准备98

5.2.4 步骤4(数据探索)和步骤6(报告形成)101

5.3 本章小结111

第6章 了解NoSQL112

6.1 NoSQL简介114

6.1.1 ACID:关系型数据库核心原则114

6.1.2 CAP理论:多节点数据库的问题115

6.1.3 NoSQL数据库的BASE原则116

6.1.4 NoSQL数据库的种类117

6.2 案例研究:这是什么疾病123

6.2.1 步骤1:设置研究目标124

6.2.2 步骤2和步骤3:数据检索与数据准备124

6.2.3 步骤4:数据探索131

6.2.4 再回到步骤3:为描述疾病概况做数据准备137

6.2.5 再回到步骤4:为描述疾病概况做数据探索140

6.2.6 步骤6:展示与自动化140

6.3 本章小结141

第7章 图数据库的兴起143

7.1 互联数据及图数据库概述143

7.2 图数据库Neo4j概述146

7.3 数据互联案例:食谱推荐引擎152

7.3.1 步骤1:设置研究目标153

7.3.2 步骤2:数据检索154

7.3.3 步骤3:数据准备155

7.3.4 步骤4:数据探索157

7.3.5 步骤5:数据建模159

7.3.6 步骤6:数据展示162

7.4 本章小结162

第8章 文本挖掘和文本分析164

8.1 现实世界中的文本挖掘165

8.2 文本挖掘技术169

8.2.1 词袋169

8.2.2 词干提取和词形还原170

8.2.3 决策树分类器171

8.3 案例研究:Reddit帖子分类173

8.3.1 自然语言工具包173

8.3.2 数据科学过程综述及步:研究目标175

8.3.3 第2步:数据检索175

8.3.4 第3步:数据准备178

8.3.5 步骤4:数据探索180

8.3.6 再回到步骤3:数据准备的调整182

8.3.7 步骤5:数据分析185

8.3.8 步骤6:展示与自动化188

8.4 本章小结189

第9章 面向终端用户的数据可视化191

9.1 数据可视化选项192

9.2 Crossfilter—JavaScript MapReduce库194

9.2.1 安装195

9.2.2 利用Crossfilter筛选药品数据集198

9.3 用dc.js创建一个交互式控制面板201

9.4 控制面板开发工具205

9.5 本章小结207

附录A 搭建Elasticsearch209

附录B 搭建Neo4j214

附录C 安装MySQL服务器217

附录D 在虚拟环境下搭建Anaconda220

python数据科学导论 中南_Python数据科学导论相关推荐

  1. python数据科学常国珍_python数据科学:技术详解与商业实践

    前言 章数据科学家的武器库 1.1数据科学的基本概念 1.2数理统计技术 1.2.1描述性统计分析 1.2.2统计推断与统计建模 1.3数据挖掘的技术与方法 1.4描述性数据挖掘算法示例 1.4.1聚 ...

  2. python数据分析培训内容可以_Python数据分析师

    阶段一 学完后能达到什么水平? 数据分析师认知篇 说 明:0基础入学,5大进阶之路,8大课程阶段,35+课程,1000+学时, 18大行业经典案例,两大商业项目实战!人工智能是你的终极目标! 课程时长 ...

  3. python数据可视化的特点_Python数据可视化, 看这一篇就够了

    开个玩笑了,其实可视化想做深入,只看这一篇,必然是不够的了~ 入个门估计差不多可以的. 为什么写这一篇呢?算是继续上一篇最嗨的歌最快的车:Data Fountain光伏发电量预测 Top1 开源分享​ ...

  4. python可视化编程实战代码_Python数据可视化编程实战——导入数据

    1.从csv文件导入数据 原理:with语句打开文件并绑定到对象f.不必担心在操作完资源后去关闭数据文件,with的上下文管理器会帮助处理.然后,csv.reader()方法返回reader对象,通过 ...

  5. python填补缺失值数据驱动代码_python数据预处理之缺失值的各种填补方式

    对于数据挖掘的缺失值的处理,应该是在数据预处理阶段应该首先完成的事,缺失值的处理一般情况下有三种方式: (1)删掉缺失值数据 (2)不对其进行处理 (3)利用插补法对数据进行补充 第一种方式是极为不可 ...

  6. python 分组箱线图_Python数据科学实践 | 绘图模块4

    点击关注了解更多精彩内容!! 大家好,基于Python的数据科学实践课程又到来了,大家尽情学习吧.本期内容主要由智亿同学与政委联合推出. 本次将继续学习如何用Plotly绘制更加美观的统计图.具体的, ...

  7. python数据科学课后答案_Python数据科学-技术详解与商业实践-第五讲作业

    作者:Ben,著有<Python数据科学:技术详解与商业实践>.<用商业案例学R语言数据挖掘>.<胸有成竹-数据分析的SAS EG进阶>作者.2005年进入数据科学 ...

  8. python分类变量相关性分析_Python数据科学:相关分析

    目前手上有两本书,一本<利用Python进行数据分析>,一本<Python数据科学>.app 对于学习什么东西,都有它的「道」和「术」.「道」即原理,「术」即技巧.dom 经过 ...

  9. python数据科学实践指南_Python数据科学实践指南

    领取成功 您已领取成功! 您可以进入Android/iOS/Kindle平台的多看阅读客户端,刷新个人中心的已购列表,即可下载图书,享受精品阅读时光啦! - | 回复不要太快哦~ 回复内容不能为空哦 ...

最新文章

  1. sqlsever无法重新启动计算机,安装SQL server 提示重新启动计算机失败怎么处理
  2. 二进制与加减乘除的物理层实现
  3. 眼图在通信系统中有什么意义_悟空CRM:施行CRM系统对汽车行业有什么意义
  4. university of liverpool writing techniques
  5. Apache Flink 零基础入门(四)Flink开发批处理应用程序
  6. SAP S4HANA custom logic的一个实际例子
  7. .NET Core开发实战(第10课:环境变量配置提供程序)--学习笔记
  8. 五分钟的JShell
  9. python数组索引和切片_python numpy数组的索引和切片的操作方法
  10. Windows 文件一直被占用,无法删除(对应解决方法)
  11. 科比球衣退役仪式 | 科比演讲
  12. matlab平稳性检验
  13. 结对项目之需求分析与原型设计(导师选择)
  14. vue如何实现打印功能
  15. java实现请假时间判断
  16. mysql小知识:根据指定日期,获取是当年第几周
  17. 编译原理拉链回填技术c语言,编译原理笔记1:概述编译相关的基本知识
  18. OOM问题原理解析(四):Bitmap压缩方案总结
  19. 长沙理工大学第十二届ACM大赛-重现赛
  20. 我的物联网项目(二十七) 分布式锁粗心导致大量阻塞

热门文章

  1. [云炬商业计划书阅读分享]无水洗车业 发展前景好
  2. 科大星云诗社动态20210816
  3. 学长毕业日记 :本科毕业论文写成博士论文的神操作20170410
  4. (Q 2)netstat命令 检测TCP/IP 网络链接是否存在异常
  5. 解决Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz国内下载速度缓慢的问题
  6. OpenGL编程指南5:学习绘制不同风格的曲线
  7. VTK修炼之道14:图像处理_创建
  8. [OS复习]操作系统综述2
  9. 阿拉伯数字转为罗马数字
  10. 【转】ASP.NET之 关于触发Global.asax Session_End事件的经验