Python机器学习基础教程-[德] 安德里亚斯·穆勒(Andreas C.Müller)[美]莎拉·吉多(Sarah Guido) 著,张亮(hysic) 译

下载地址1:网盘下载

下载地址2:网盘下载

内容简介

本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。

本书适合机器学习从业者或有志成为机器学习从业者的人阅读。

作者简介

Andreas C.Müller,scikit-learn库维护者和核心贡献者。现任哥伦比亚大学数据科学研究院讲师,曾任纽约大学数据科学中心助理研究员、***公司计算机视觉应用的机器学习研究员。在波恩大学获得机器学习博士学位。

Sarah Guido,Mashable公司数据科学家,曾担任Bitly公司数据科学家。

目录

前言 ix

第 1 章 引言 1

1.1 为何选择机器学习 1

1.1.1 机器学习能够解决的问题 2

1.1.2 熟悉任务和数据 4

1.2 为何选择Python 4

1.3 scikit-learn 4

1.4 必要的库和工具 5

1.4.1 Jupyter Notebook 6

1.4.2 NumPy 6

1.4.3 SciPy 6

1.4.4 matplotlib 7

1.4.5 pandas 8

1.4.6 mglearn 9

1.5 Python 2 与Python 3 的对比 9

1.6 本书用到的版本 10

1.7 第 一个应用:鸢尾花分类 11

1.7.1 初识数据 12

1.7.2 衡量模型是否成功:训练数据与测试数据 14

1.7.3 要事第 一:观察数据 15

1.7.4 构建第 一个模型:k 近邻算法 16

1.7.5 做出预测 17

1.7.6 评估模型 18

1.8 小结与展望 19

第 2 章 监督学习 21

2.1 分类与回归 21

2.2 泛化、过拟合与欠拟合 22

2.3 监督学习算法 24

2.3.1 一些样本数据集 25

2.3.2 k 近邻 28

2.3.3 线性模型 35

2.3.4 朴素贝叶斯分类器 53

2.3.5 决策树 54

2.3.6 决策树集成 64

2.3.7 核支持向量机 71

2.3.8 神经网络(深度学习) 80

2.4 分类器的不确定度估计 91

2.4.1 决策函数 91

2.4.2 预测概率 94

2.4.3 多分类问题的不确定度 96

2.5 小结与展望 98

第3 章 无监督学习与预处理 100

3.1 无监督学习的类型 100

3.2 无监督学习的挑战 101

3.3 预处理与缩放 101

3.3.1 不同类型的预处理 102

3.3.2 应用数据变换 102

3.3.3 对训练数据和测试数据进行相同的缩放 104

3.3.4 预处理对监督学习的作用 106

3.4 降维、特征提取与流形学习 107

3.4.1 主成分分析 107

3.4.2 非负矩阵分解 120

3.4.3 用t-SNE 进行流形学习 126

3.5 聚类 130

3.5.1 k 均值聚类 130

3.5.2 凝聚聚类 140

3.5.3 DBSCAN 143

3.5.4 聚类算法的对比与评估 147

3.5.5 聚类方法小结 159

3.6 小结与展望 159

第4 章 数据表示与特征工程 161

4.1 分类变量 161

4.1.1 One-Hot 编码(虚拟变量) 162

4.1.2 数字可以编码分类变量 166

4.2 分箱、离散化、线性模型与树 168

4.3 交互特征与多项式特征 171

4.4 单变量非线性变换 178

4.5 自动化特征选择 181

4.5.1 单变量统计 181

4.5.2 基于模型的特征选择 183

4.5.3 迭代特征选择 184

4.6 利用专家知识 185

4.7 小结与展望 192

第5 章 模型评估与改进 193

5.1 交叉验证 194

5.1.1 scikit-learn 中的交叉验证 194

5.1.2 交叉验证的优点 195

5.1.3 分层k 折交叉验证和其他策略 196

5.2 网格搜索 200

5.2.1 简单网格搜索 201

5.2.2 参数过拟合的风险与验证集 202

5.2.3 带交叉验证的网格搜索 203

5.3 评估指标与评分 213

5.3.1 牢记目标 213

5.3.2 二分类指标 214

5.3.3 多分类指标 230

5.3.4 回归指标 232

5.3.5 在模型选择中使用评估指标 232

5.4 小结与展望 234

第6 章 算法链与管道 236

6.1 用预处理进行参数选择 237

6.2 构建管道 238

6.3 在网格搜索中使用管道 239

6.4 通用的管道接口 242

6.4.1 用make_pipeline 方便地创建管道 243

6.4.2 访问步骤属性 244

6.4.3 访问网格搜索管道中的属性 244

6.5 网格搜索预处理步骤与模型参数 246

6.6 网格搜索选择使用哪个模型 248

6.7 小结与展望 249

第7 章 处理文本数据 250

7.1 用字符串表示的数据类型 250

7.2 示例应用:电影评论的情感分析 252

7.3 将文本数据表示为词袋 254

7.3.1 将词袋应用于玩具数据集 255

7.3.2 将词袋应用于电影评论 256

7.4 停用词 259

7.5 用tf-idf 缩放数据 260

7.6 研究模型系数 263

7.7 多个单词的词袋(n 元分词) 263

7.8 分词、词干提取与词形还原 267

7.9 主题建模与文档聚类 270

7.10 小结与展望 277

第8 章 全书总结 278

8.1 处理机器学习问题 278

8.2 从原型到生产 279

8.3 测试生产系统 280

8.4 构建你自己的估计器 280

8.5 下一步怎么走 281

8.5.1 理论 281

8.5.2 其他机器学习框架和包 281

8.5.3 排序、推荐系统与其他学习类型 282

8.5.4 概率建模、推断与概率编程 282

8.5.5 神经网络 283

8.5.6 推广到更大的数据集 283

8.5.7 磨练你的技术 284

8.6 总结 284

关于作者 285

关于封面 285

原文地址:https://www.cnblogs.com/hsqdboke/p/9780965.html

python基础教程免费下载-《Python机器学习基础教程》高清版免费PDF下载相关推荐

  1. 如何下载金融街街道卫星地图高清版大图

    如何下载金融街街道卫星地图高清版大图 金融街街道行政区域简介 金融街街道位于西城区中部,东起西四南大街.西单北大街,西至西二环路,南起宣武门西大街,北至阜成门内大街,辖区面积3.78平方公里,有19个 ...

  2. 如何下载建外街道卫星地图高清版大图

    如何下载建外街道卫星地图高清版大图 建外街道行政区域简介 北京市朝阳区辖街道.位于区境西部,地处北京商务中心区核心区.东起西大望路,西至建国门立交桥,南临通惠河,北到光华路,面积4.4平方千米,常住人 ...

  3. 如何下载北京城区卫星地图高清版大图

    如何下载北京城区卫星地图高清版大图 北京城区行政区域简介 文件参数 名称:北京城区高清版大图(卫星地图) 比例尺:1:867402 实际像素:3045x3087 推荐打印尺寸:0.76米x0.77米 ...

  4. 如何下载宝坻区卫星地图高清版大图?

    如何下载宝坻区卫星地图高清版大图 宝坻区行政区域简介 宝坻区是天津市的市辖区之一,位于中国天津市中北部.华北平原北部.燕山山脉南麓,属于华北平原北部的一部分,地处京.津.唐三角地带,临近渤海湾. 文件 ...

  5. 如何下载滨海新区卫星地图高清版大图

    如何下载滨海新区卫星地图高清版大图 滨海新区行政区域简介 滨海新区,是天津市的市辖区.副省级区.国家级新区和国家综合配套改革试验区,国务院批准的第一个国家综合改革创新区. 文件参数 名称:滨海新区高清 ...

  6. 如何下载顺义区卫星地图高清版大图

    如何下载顺义区卫星地图高清版大图 顺义区行政区域简介 顺义区,隶属于北京市,位于北京市东北方向,距市区30千米,北邻怀柔区.密云区,东界平谷区,南与通州区.河北省三河市接壤,西南.西与昌平区.朝阳区隔 ...

  7. 如何下载宁河区卫星地图高清版大图

    如何下载宁河区卫星地图高清版大图 宁河区行政区域简介 宁河区,隶属于天津市,位于天津市东北部,地处京津唐大城市群中间地带,面向广阔的华北.东北平原. 文件参数 名称:宁河区高清版大图(卫星地图) 比例 ...

  8. 如何下载什刹海街道卫星地图高清版大图

    如何下载什刹海街道卫星地图高清版大图 什刹海街道行政区域简介 什刹海街道位于北京市西城区东北部,由原新街口街道的新街口北大街以东地区与原厂桥街道合并组建而成,街道地域面积5.80平方公里,东起旧鼓楼大 ...

  9. 如何下载宝坻区卫星地图高清版大图

    如何下载宝坻区卫星地图高清版大图 宝坻区行政区域简介 宝坻区是天津市的市辖区之一,位于中国天津市中北部.华北平原北部.燕山山脉南麓,属于华北平原北部的一部分,地处京.津.唐三角地带,临近渤海湾. 文件 ...

  10. 如何下载密云区卫星地图高清版大图

    如何下载密云区卫星地图高清版大图 密云区行政区域简介 密云区隶属北京市,地理坐标西起东经116°39 ′33",东至117°30 ′25 ",东西长69公里:南起北纬40°13 ′ ...

最新文章

  1. Mac OS build caffe2 Error:This file was generated by an older version of protoc which is
  2. 使用shiro安全管理
  3. linux mysql 备份脚本_linux 之mysql备份脚本
  4. 用IE和Google 浏览器的比较。。
  5. java播放声音类和一个简单示例
  6. 临时表和游标的使用小总结
  7. Python并发编程Futures
  8. IntelliJ IDEA如何修改背景颜色样式
  9. 重磅!激光SLAM算法及框架概述
  10. java 中文词性标注_pyhanlp 中文词性标注与分词简介
  11. 安装Linux系统跳过系统检测,PXE——无人值守自动安装Linux操作系统(踩坑记录)...
  12. IFD6500_USB转串口驱动
  13. 还能不能愉快地装完Win7了
  14. SEM测试优点与特点
  15. AM5728设备数的描述
  16. 港大火星实验室最新工作:用于精确实时3D SLAM的高效概率自适应体素地图
  17. 联想微型计算机b540,联想B540一体机升级CPU 加内存
  18. 使用git拉取项目、创建分支、提交代码教程
  19. 推荐几个值得看的技术大佬
  20. 74LS175D四人抢答器设计

热门文章

  1. Redis教程:基础知识
  2. rsync java_Linux 同步工具rsync学习
  3. 1019. General Palindromic Number (20)
  4. jsp电子商务 购物车实现之一 设计篇
  5. 第四天:制作网页的基本操作
  6. error C2871: #39;std#39; : does not exist or is not a namespace
  7. HTTP状态代码列表
  8. 你真的了解“真的了解”的含义吗
  9. 2015 ACM/ICPC Asia Regional Shenyang Online题解
  10. POJ1067 HDU1527 取石子游戏【博弈】