这两天,各985高校发布了考研初试分数线。从中发现这两年大数据相关专业的分数线暴涨啊。没有400分估计心里都没底啊。可见大数据这个领域有多火爆!而机器学习是我们团队的一个主要方向,新加入的同学通常都是从《机器学习实战》这本书开始入门的。

所以,我把这本书的电子版分享给大家,可以作为入门教材,希望能够对大数据、机器学习感兴的同学有益。当然,这本书在网上有开源的电子版,其特点是简化了案例背景的介绍,而在每个算法后面加入了作者的理解,大家可以对照着来学习。其网址如下:

https://ailearning.apachecn.org/#/


目录

第一部分 分类

第1章 机器学习基础

  • 1.1 何谓机器学习
  • 传感器和海量数据
  • 机器学习非常重要
  • 1.2 关键术语
  • 1.3 机器学习的主要任务
  • 1.4 如何选择合适的算法
  • 1.5 开发机器学习应用程序的步骤
  • 1.6 Python语言的优势
  • 可执行伪代码
  • Python比较流行
  • Python语言的特色
  • Python语言的缺点
  • 1.7 NumPy函数库基础
  • 1.8 本章小结

第2章 k-近邻算法

  • 2.1 k-近邻算法概述
  • 准备:使用Python导入数据
  • 从文本文件中解析数据
  • 如何测试分类器
  • 2.2 示例:使用k-近邻算法改进约会网站的配对效果
  • 准备数据:从文本文件中解析数据
  • 分析数据:使用Matplotlib创建散点图
  • 准备数据:归一化数值
  • 测试算法:作为完整程序验证分类器
  • 使用算法:构建完整可用系统
  • 2.3 示例:手写识别系统
  • 准备数据:将图像转换为测试向量
  • 测试算法:使用k-近邻算法识别手写数字
  • 2.4 本章小结

第3章 决策树

  • 3.1 决策树的构造
  • 信息增益
  • 划分数据集
  • 递归构建决策树
  • 3.2 在Python中使用Matplotlib注解绘制树形图
  • Matplotlib注解
  • 构造注解树
  • 3.3 测试和存储分类器
  • 测试算法:使用决策树执行分类
  • 使用算法:决策树的存储
  • 3.4 示例:使用决策树预测隐形眼镜类型
  • 3.5 本章小结

第4章 基于概率论的分类方法:朴素贝叶斯

  • 4.1 基于贝叶斯决策理论的分类方法
  • 4.2 条件概率
  • 4.3 使用条件概率来分类
  • 4.4 使用朴素贝叶斯进行文档分类
  • 4.5 使用Python进行文本分类
  • 准备数据:从文本中构建词向量
  • 训练算法:从词向量计算概率
  • 测试算法:根据现实情况修改分类器
  • 准备数据:文档词袋模型
  • 4.6 示例:使用朴素贝叶斯过滤垃圾邮件
  • 准备数据:切分文本
  • 测试算法:使用朴素贝叶斯进行交叉验证
  • 4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向
  • 收集数据:导入RSS源
  • 分析数据:显示地域相关的用词
  • 4.8 本章小结

第5章 Logistic回归

  • 5.1 基于Logistic回归和Sigmoid函数的分类
  • 5.2 基于最优化方法的最佳回归系数确定
  • 梯度上升法
  • 训练算法:使用梯度上升找到最佳参数
  • 分析数据:画出决策边界
  • 训练算法:随机梯度上升
  • 5.3 示例:从疝气病症预测病马的死亡率
  • 准备数据:处理数据中的缺失值
  • 测试算法:用Logistic回归进行分类
  • 5.4 本章小结

第6章 支持向量机

  • 6.1 基于最大间隔分隔数据
  • 6.2 寻找最大间隔
  • 分类器求解的优化问题
  • SVM应用的一般框架
  • 6.3 SMO高效优化算法
  • Platt的SMO算法
  • 应用简化版SMO算法处理小规模数据集
  • 6.4 利用完整Platt SMO算法加速优化
  • 6.5 在复杂数据上应用核函数
  • 利用核函数将数据映射到高维空间
  • 径向基核函数
  • 在测试中使用核函数
  • 6.6 示例:手写识别问题回顾
  • 6.7 本章小结

第7章 利用AdaBoost元算法提高分类性能

  • 7.1 基于数据集多重抽样的分类器
  • bagging:基于数据随机重抽样的分类器构建方法
  • boosting
  • 7.2 训练算法:基于错误提升分类器的性能
  • 7.3 基于单层决策树构建弱分类器
  • 7.4 完整AdaBoost算法的实现
  • 7.5 测试算法:基于AdaBoost的分类
  • 7.6 示例:在一个难数据集上应用AdaBoost
  • 7.7 非均衡分类问题
  • 其他分类性能度量指标:正确率、召回率及ROC曲线
  • 基于代价函数的分类器决策控制
  • 处理非均衡问题的数据抽样方法
  • 7.8 本章小结

第二部分 利用回归预测数值型数据

第8章 预测数值型数据:回归

  • 8.1 用线性回归找到最佳拟合直线
  • 8.2 局部加权线性回归
  • 8.3 示例:预测鲍鱼的年龄
  • 8.4 缩减系数来“理解”数据
  • 岭回归
  • lasso
  • 前向逐步回归
  • 8.5 权衡偏差与方差
  • 8.6 示例:预测乐高玩具套装的价格
  • 收集数据:使用Google购物的API
  • 训练算法:建立模型
  • 8.7 本章小结

第9章 树回归

  • 9.1 复杂数据的局部性建模
  • 9.2 连续和离散型特征的树的构建
  • 9.3 将CART算法用于回归
  • 构建树
  • 运行代码
  • 9.4 树剪枝
  • 预剪枝
  • 后剪枝
  • 9.5 模型树
  • 9.6 示例:树回归与标准回归的比较
  • 9.7 使用Python的Tkinter库创建GUI
  • 用Tkinter创建GUI
  • 集成Matplotlib和Tkinter
  • 9.8 本章小结

第三部分 无监督学习

第10章 利用K-均值聚类算法对未标注数据分组

  • 10.1 K-均值聚类算法
  • 10.2 使用后处理来提高聚类性能
  • 10.3 二分K-均值算法
  • 10.4 示例:对地图上的点进行聚类
  • Yahoo! PlaceFinder API
  • 对地理坐标进行聚类
  • 10.5 本章小结

第11章 使用Apriori算法进行关联分析

  • 11.1 关联分析
  • 11.2 Apriori原理
  • 11.3 使用Apriori算法来发现频繁集
  • 生成候选项集
  • 组织完整的Apriori算法
  • 11.4 从频繁项集中挖掘关联规则
  • 11.5 示例:发现国会投票中的模式
  • 收集数据:构建美国国会投票记录的事务数据集
  • 测试算法:基于美国国会投票记录挖掘关联规则
  • 11.6 示例:发现毒蘑菇的相似特征
  • 11.7 本章小结

第12章 使用FP-growth算法来高效发现频繁项集

  • 12.1 FP树:用于编码数据集的有效方式
  • 12.2 构建FP树
  • 创建FP树的数据结构
  • 构建FP树
  • 12.3 从一棵FP树中挖掘频繁项集
  • 抽取条件模式基
  • 创建条件FP树
  • 12.4 示例:在Twitter源中发现一些共现词
  • 12.5 示例:从新闻网站点击流中挖掘
  • 12.6 本章小结

第四部分 其他工具

第13章 利用PCA来简化数据

  • 13.1 降维技术
  • 13.2 PCA
  • 移动坐标轴
  • 在NumPy中实现PCA
  • 13.3 示例:利用PCA对半导体制造数据降维
  • 13.4 本章小结

第14章 利用SVD简化数据

  • 14.1 SVD的应用
  • 隐性语义索引
  • 推荐系统
  • 14.2 矩阵分解
  • 14.3 利用Python实现SVD
  • 14.4 基于协同过滤的推荐引擎
  • 相似度计算
  • 基于物品的相似度还是基于用户的相似度?
  • 推荐引擎的评价
  • 14.5 示例:餐馆菜肴推荐引擎
  • 推荐未尝过的菜肴
  • 利用SVD提高推荐的效果
  • 构建推荐引擎面临的挑战
  • 14.6 基于SVD的图像压缩
  • 14.7 本章小结

第15章 大数据与MapReduce

  • 15.1 MapReduce:分布式计算的框架
  • 15.2 Hadoop流
  • 分布式计算均值和方差的mapper
  • 分布式计算均值和方差的reducer
  • 15.3 在Amazon网络服务上运行Hadoop程序
  • AWS上的可用服务
  • 开启Amazon网络服务之旅
  • 在EMR上运行Hadoop作业
  • 15.4 MapReduce上的机器学习
  • 15.5 在Python中使用mrjob来自动化MapReduce
  • mrjob与EMR的无缝集成
  • mrjob的一个MapReduce脚本剖析
  • 15.6 示例:分布式SVM的Pegasos算法
  • Pegasos算法
  • 训练算法:用mrjob实现MapReduce版本的SVM
  • 15.7 你真的需要MapReduce吗?
  • 15.8 本章小结

附录A Python入门

附录B 线性代数

附录C 概率论复习

附录D 资源

索引

版权声明


推荐阅读

  • 如何利用 C# 实现 K 最邻近算法?
  • 如何利用 C# 实现 K-D Tree 结构?

下载《机器学习实战》

关注公众号,后台回复

20190313

资料分享:送你一本《机器学习实战》电子书!相关推荐

  1. 逆置单链表c语言程序,(数据结构C语言版)顺序表和单链表的逆置

    <(数据结构C语言版)顺序表和单链表的逆置>由会员分享,可在线阅读,更多相关<(数据结构C语言版)顺序表和单链表的逆置(7页珍藏版)>请在人人文库网上搜索. 1.实验1-1顺序 ...

  2. 数据结构c语言版胡学刚答案,哈夫曼树的建立与实现(最终版)最新版

    <哈夫曼树的建立与实现.doc>由会员分享,可免费在线阅读全文,更多与<哈夫曼树的建立与实现(最终版)>相关文档资源请在帮帮文库(www.woc88.com)数亿文档库存里搜索 ...

  3. 为什么C语言是非形式化的,《数据结构C语言版》——绪论

    <数据结构C语言版>--绪论<笔记> 一.基本概念和术语 1.数据,数据元素, 数据项,数据对象 数据:是客观事物的符号表示,是所有能够输入到计算机中并被计算机程序处理的符号的 ...

  4. C语言中链表的英文名字,数据结构C语言版 循环链表表示和实现(国外英文).doc

    数据结构C语言版 循环链表表示和实现(国外英文) 数据结构C语言版 循环链表表示和实现(国外英文资料) Data structure, C language, circular list repres ...

  5. 数据结构c语言版第16页,数据结构c语言版

    数据结构c语言版[编辑] 概述 <数据结构C语言版>本书的前半部分从抽象数据类型的角度讨论各种基本类型的数据结构及其应用;后半部分主要讨论查找和排序的各种实现方法及综合分析比较 出版信息 ...

  6. 以串结构存储c语言版,数据结构C语言版 串的块链存储表示和实现

    <数据结构C语言版 串的块链存储表示和实现>由会员分享,可在线阅读,更多相关<数据结构C语言版 串的块链存储表示和实现(13页珍藏版)>请在人人文库网上搜索. 1.*数据结构C ...

  7. c语言线性表库函数大全,数据结构(C语言版)-线性表习题详解

    <数据结构(C语言版)-线性表习题详解>由会员分享,可在线阅读,更多相关<数据结构(C语言版)-线性表习题详解(23页珍藏版)>请在人人文库网上搜索. 1.数 据 结 构 ,线 ...

  8. 数据结构c语言版实验报告2,数据结构(C语言版) 实验报告 (2)

    <数据结构(C语言版) 实验报告 (2)>由会员分享,可在线阅读,更多相关<数据结构(C语言版) 实验报告 (2)(15页珍藏版)>请在人人文库网上搜索. 1.数据结构(C语言 ...

  9. c语言 怎么对百位数求余量,数据结构(C语言版)

    <数据结构(C语言版)>由会员分享,可在线阅读,更多相关<数据结构(C语言版)(52页珍藏版)>请在装配图网上搜索. 1.数据结构(C语言版)第7章图,第7章图,内容 7.1 ...

  10. 数据结构c语言版朱战立报告,数据结构(C语言版)

    本书是Sedgewick彻底修订和重写的C算法系列的第一本.全书分为四部分,共16章.第一部分"基础知识"(第1-2章)介绍基本算法分析原理.第二部分"数据结构" ...

最新文章

  1. ARTS打卡计划第六周
  2. 1111 Online Map (30 分)【难度: 一般 / 知识点: Dijkstra最短路】
  3. 长春师范大学 于繁华现任计算机学院工程学院院长,硕士生导师--姚亦飞
  4. Linux下SSH使用rsa认证方式省去输入密码
  5. 设计模式之PHP项目应用——单例模式设计Memcache和Redis操作类
  6. 定制Hamcrest Matchers
  7. 【转】Serverless架构
  8. STM32基础定时器详解
  9. 【报告分享】巨量算数:疫情期间汽车专题研究洞察.pdf(附下载链接)
  10. Spark应用运行流程
  11. Hybrid Astar 算法剖析和实现(三)
  12. 达摩院发布:2022年十大科技趋势
  13. 【golang】kafka
  14. “方正小标宋简体、仿宋_GB2312和楷体_GB2312字体”的添加
  15. excel两个表格数据对比_表格技巧—Excel中如何查找相同的数据
  16. 三级网络技术--宽带接入技术--XDSL
  17. h5微信f分享链接给对方获取对方手机号_裂变、分享、传播:App推广社交玩法全解析...
  18. Denoising DNA deep sequencing data—high-throughput sequencing errors and t对DNA深度测序数据进行去噪-高通量测序错误及其校正
  19. 【Javascript的基本知识——数据的流程和流程的切割】
  20. 东昂科技冲刺深交所:年营收2.6亿 庄俊辉控制69%股权

热门文章

  1. matlab实验是啥,matlab实验心得体会
  2. [swift 进阶]读书笔记-第十一章:互用性 C11P1 实践:封装 CommonMark
  3. 我用python10年后,我发现学python必看这三本书!
  4. OCP换考题了,052新考题及答案整理-第17题
  5. 《Android传感器开发与智能设备案例实战》——导读
  6. java分享第五天(数组)
  7. 如何在JSP页面中获取当前系统时间转
  8. Spring Cloud(六)服务网关 zuul 快速入门
  9. #pragma once与#ifndef的区别
  10. django mysql 时区_django 中的时区设置