本书系统地讲解了大数据处理相关的过程,并通过Python程序的例子讲解了如何使用Python语言对数据进行采集、存储、分析及可视化。本书的章节设计以目标为导向,首先介绍大数据处理各个环节要做什么事情,然后讲解如何使用Python达到对应的目标。

本书有配套的课件、代码和课后练习题答案,有需要的读者可登录出版社网站,免费下载。书中给出的例子和数据文件都保存在source目录下对应章节的子目录下。

目录

第1章 大数据基础1

1.1 什么是大数据1

1.2 大数据处理涉及哪些方面3

1.3 为什么用Python解决大数据的问题5

1.4 关于编程的注意事项7

练习题7

第2章 Python环境的准备8

2.1 Python环境的准备8

2.1.1 Python8

2.1.2 Anaconda10

2.2 集成开发环境12

2.2.1 PyCharm12

2.2.2 Spyder15

2.2.3 IPython和Jupyter18

2.3 包的管理和维护19

2.3.1 pip20

2.3.2 conda和Anaconda22

2.4 大数据处理常用的扩展包26

2.4.1 NumPy26

2.4.2 Pandas26

2.4.3 Matplotlib27

2.4.4 SciPy27

2.4.5 scikit-learn28

练习题28

第3章 大数据获取29

3.1 如何获取数据29

3.2 HTML的基础知识30

3.2.1 HTML页面的获取与显示30

3.2.2 单次请求与响应32

3.2.3 HTML网页内容和结构34

3.3 HTML页面的解析36

3.3.1 使用正则表达式提取信息36

3.3.2 使用XPath提取信息44

3.3.3 使用BeautifulSoup提取信息47

3.4 页面的获取59

3.4.1 使用urllib60

3.4.2 使用requests库获取网页67

3.4.3 使用selenium获取网页74

3.4.4 网页抓取面临的问题79

3.5 Python爬虫框架Scrapy82

练习题87

第4章 大数据存储90

4.1 文件存储91

4.1.1 CSV92

4.1.2 XML97

4.1.3 JSON103

4.1.4 Excel108

4.2 数据库存储110

4.2.1 关系型数据库通用流程110

4.2.2 SQLite关系型数据库113

4.2.3 MySQL关系型数据库118

4.2.4 NoSQL数据库125

练习题129

第5章 大数据的数学基础132

5.1 基本的数据结构和运算132

5.1.1 数组对象的创建与属性132

5.1.2 数组对象的元素级运算138

5.2 矩阵运算141

5.2.1 数组的合并、拆分及切片141

5.2.2 矩阵的乘积与线性代数144

5.3 统计与概率计算150

5.4 随机数生成153

练习题157

第6章 数据预处理158

6.1 数据清洗158

6.1.1 缺失值处理158

6.1.2 噪声数据处理163

6.1.3 数据错误发现与修复167

6.2 数据集成167

6.3 数据转换176

6.3.1 z-score规范化177

6.3.2 最大最小规范化182

6.3.3 属性转换184

6.4 数据归约186

练习题187

第7章 数据挖掘与分析189

7.1 模型选择与验证189

7.1.1 模型选择189

7.1.2 模型验证190

7.2 分类算法192

7.2.1 分类学习的性能评估193

7.2.2 逻辑回归197

7.2.3 支持向量机201

7.2.4 朴素贝叶斯204

7.2.5 决策树207

7.2.6 实例分析211

7.3 回归预测215

7.3.1 回归学习的性能评估215

7.3.2 线性回归216

7.3.3 支持向量机(回归)217

7.3.4 等式回归218

7.3.5 决策树(回归)218

7.3.6 实例分析219

7.4 聚类分析222

7.4.1 基于距离的聚类223

7.4.2 基于密度的聚类算法225

7.4.3 基于层次的聚类算法227

7.4.4 聚类的性能评价228

7.4.5 实例分析231

7.5 主成分分析232

练习题232

第8章 大数据可视化235

8.1 数据可视化基础235

8.2 使用Matplotlib绘图239

8.2.1 准备环境239

8.2.2 图表相关的术语240

8.3 使用Matplotlib绘制常见图表242

8.3.1 散点图242

8.3.2 折线图246

8.3.3 条形图248

8.3.4 直方图252

8.3.5 面积图253

8.3.6 饼图254

8.3.7 箱形图256

8.4 进阶功能258

8.4.1 子图258

8.4.2 中文显示262

8.4.3 组合图形与标注264

8.5 如何画出更好的图267

python大数据书籍推荐-大数据入门书籍推荐《Python 大数据基础》相关推荐

  1. python游戏编程入门书籍推荐-游戏编程入门书籍推荐:想要游戏编程尽快入门这些书不要错过...

    游戏编程一直都是编程之中的一大热点,这也是由于游戏本身的火热造成的结果,所以每年都有很多人在关注着游戏编程.介于此小编今天就来将一些好的游戏编程入门书籍推荐给大家,希望对想要了解和学习游戏编程的朋友能 ...

  2. 神经网络入门推荐知识,神经网络入门书籍推荐

    适合初学者的神经网络和遗传算法资料 遗传算法(GeneticAlgorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法. 遗传 ...

  3. python编程 书籍_Python编程十大最佳书籍

    python编程 书籍 Starting out with Python? Books are going to be your most reliable way to do so. Let's f ...

  4. python人工智能入门书籍推荐-小编就给大家推荐几本python机器学习入门书!

    很多人对于机器学习很感兴趣,所以想要通过一些书籍来学习研究,那么有哪些机器学习入门书籍推荐呢?本文小编就给大家推荐几本python机器学习入门书,大家可以去书店具体购买. 有哪些机器学习入门书籍推荐呢 ...

  5. 斯坦福大学教授,极力推荐5本python入门书籍,入门最快基础最好

    为什么要选择python Python是一门更注重可读性和效率的语言,尤其是相较于 Java,PHP 以及 C++ 这样的语言,它的这两个优势让其在开发者中大受欢迎. 如果你正处于想学习python或 ...

  6. 快看这里,豆瓣9.0的Python爬虫宝藏书籍,自学爬虫必备~

    哈喽~大家好!我是恰恰.今天我们来学些什么呢,那就是爬虫啦!说到学习爬虫,相信很多人都是听过一句话,"爬虫爬的好,监狱进的早"!虽然有点夸张的感觉,但是这也侧面说明,如果学会了爬虫 ...

  7. 推荐上百本优质大数据书籍,附必读清单(大数据宝藏)

    历时多年整理,每看到一本好书都会收藏下来,到现在一看竟然有100多本了 这些书籍确实是大数据的宝藏,从大数据入门到实战,深入原理,大数据架构等全部都有 从 hadoop,hive,spark,flin ...

  8. 有哪些大数据书籍推荐 如何系统掌握大数据

    互联网技术的发展速度之快,让我们不得不在IT技术学习的过程中不断的补充新的知识,来满足技术的快速发展.而对于大数据技术的学习,也必然少不了平时技术经验的积累,因为只有不断的积累才能在熟能生巧中精益求精 ...

  9. Python+Django+Mysql开发在线美食推荐网 协同过滤推荐算法在美食网站中的运用 基于用户、物品的协同过滤推荐算法 个性化推荐算法、机器学习、分布式大数据、人工智能开发

    Python+Django+Mysql开发在线美食推荐网 协同过滤推荐算法在美食网站中的运用 基于用户.物品的协同过滤推荐算法 个性化推荐算法.机器学习.分布式大数据.人工智能开发 FoodRecom ...

最新文章

  1. 每天CookBook之JavaScript-062
  2. sysbench0.5 mysql_sysbench 0.5 安装及 MySQL 基准测试
  3. qlabel 边加载边更新_普及一下什么是超窄边液晶拼接屏
  4. el-table改变宽度刷新不恢复
  5. C#开源资源大汇总(转)
  6. 【转】xilinx usb下载器 速度高速极限设置 JTAG-SMT2 JTAG-HS2 JTAG-HS3和Platform Cable USB DLC9 DLC10速度测试
  7. Objects.equals(a, b)
  8. 罗盘时钟编码代码_安全研究 | 利用macOS Dock实现代码的持久化执行
  9. 【渗透测试】XSS注入原理
  10. 查看tomcat管理信息
  11. 一种免费下载专利的方法
  12. 小任务之使用SVG画柱状图~
  13. java编译 jvm_java编译器和JVM的区别
  14. 一线二线城市工作的区别
  15. html5 堆栈不足,超简单!不用PS也能玩堆栈摄影
  16. 1.机器学习的重要性
  17. 解决Visio用直线手画的形状不能填充问题
  18. [转]我的FLASH情结2010——浅谈FLASH WEB GAME与创业(下)
  19. 回炉夜话 - HTML5
  20. 从数字化转变为数字化敏捷

热门文章

  1. created和mounted时期请求API的区别
  2. 使用CreateJS制作动画
  3. 1. Navicat Premium 12 用户手册之简介
  4. Kaggle:Quora Question Pairs
  5. 智能网联汽车封闭测试场建设内容简介​
  6. 主密钥,传输秘钥,工作秘钥
  7. 金山办公2020校招C++开发工程师笔试题(一)
  8. 格式化代码_格式化代码是什么意思
  9. arcgis 字段计算器 条件赋值_ARCGIS中字段计算器的使用说明
  10. 华硕笔记本k555拆机图解_华硕K751大屏笔记本拆机解析