第一章:绪论

基本概念

数据集:所有数据的集合
训练集:训练样本的集合
属性(特征):某事物或对象在某方面表现的性质
属性值:属性的取值
属性空间/样本空间/输入空间:属性张成的空间
泛化能力:学得模型适用于新样本的能力(泛化能力强更好地适用于样本空间)

机器学习算法的类型

1. 有监督学习
有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。 Y = f (X)

训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。

利用有监督学习解决的问题大致上可以被分为两类:

分类问题:预测某一样本所属的类别(离散的)。比如给定一个人(从数据的角度来说,是给出一个人的数据结构,包括:身高,年龄,体重等信息),然后判断是性别,或者是否健康。

回归问题:预测某一样本的所对应的实数输出(连续的)。比如预测某一地区人的平均身高。

下面所介绍的前五个算法(线性回归,逻辑回归,分类回归树,朴素贝叶斯,K最近邻算法)均是有监督学习的例子。

除此之外,集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的预测组合起来,用来预测新的样本。本文中所介绍的第九个和第十个算法(随机森林装袋法,和XGBoost算法)便是集成技术的例子。

2. 无监督学习

  无监督学习问题处理的是,只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据,对数据的结构建模。

可以利用无监督学习解决的问题,大致分为两类:

关联分析:发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋,那么商家就会把鸡蛋和面包放在相邻的货架上。

聚类问题:将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。

维度约减:顾名思义,维度约减是指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。

第2章 模型评估与选择

评估方法


以下为参考链接导图:西瓜书自学笔记分享第五章 - 知乎

第一章:

第二章:

参考:机器学习知识点总结(待更新)_GoAI的博客-CSDN博客_机器学习知识点总结

机器学习-西瓜书第一、二章相关推荐

  1. 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归

    本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...

  2. 小白学机器学习西瓜书-第三章对数几率回归

    小白学机器学习西瓜书-第三章对数几率回归 3.3 对数几率回归 3.3.1 对数几率函数 3.3.1 估计参数 上一部分我们介绍了线性回归,包括简单的二元回归和多元回归,这两个主要解决的是拟合预测的问 ...

  3. 【吃瓜教程】周志华机器学习西瓜书第三章答案

    线性模型结构梳理 3.1 试析在什么情形下式3.2中不必考虑偏置项b 答案一: 偏置项b在数值上代表了自变量取0时,因变量的取值: 1.当讨论变量x对结果y的影响,不用考虑b: 2.可以用变量归一化( ...

  4. 机器学习西瓜书第一章总结

    机器学习:研究如何通过计算的手段,利用     经验改善系统自身的性能. 1.训练模型   数据集:一组数据记录的集合.   实例或样本:每条记录是关于一个事件或对      象的描述.   属性:反 ...

  5. 西瓜书第一第二章理解

    第一章 机器学习的整体流程: 1.确定数据集 确定特征向量和属性 2.通过某种算法进行学习和训练 3.得到模型(有监督:分类,回归,无监督:聚类) 4.进行预测 奥卡姆剃刀原则 如果多个假设与观察一致 ...

  6. 西瓜书第一、二章节笔记

    今日完成西瓜书第一二章节,这次已是三刷,但仍感触颇深,发现以前看完没有留下些"东西",故此这一遍认真做好笔记.(第二章节比较检验部分未做整理,会随着后续章节一起补上),此笔记仅供分 ...

  7. 西瓜书第一章阅读笔记

    西瓜书第一章阅读笔记 第一章 绪论 1.机器学习基本术语 2.归纳偏好 3.所有学习算法一样优秀? 4.补充资料 第一章 绪论 1.机器学习基本术语 记录:对一个事件或对象的描述,也称为"示 ...

  8. 机器学习西瓜书(周志华)第七章 贝叶斯分类器

    第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...

  9. 机器学习西瓜书-1-2章

    学习目标: 概览机器学习西瓜书 1.2章 学习内容: 第一章 绪论 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程 第二章 模型评估与选择 2.1 经验误差与过拟合 2.2 评 ...

最新文章

  1. CSS background 之设置图片为背景技巧
  2. cx_Oracle.DatabaseError: ORA-12514
  3. 解析Shell编程中的-----“去重“
  4. win10右键闪退到桌面_【雷粉百科】windows10鼠标点击右键出现卡顿或者转圈
  5. 为SharePoint网站创建自定义导航菜单
  6. [云炬创业基础笔记] 第四章测试16
  7. C#-利用Marshal类实现序列化
  8. chap01 .net 基本框架介绍
  9. 代码对比工具 Top5
  10. ACM基础——OJ上的Java代码提交规范
  11. centos6.5系统不支持 mysql_centos6.5系统下面MySql数据库的安装
  12. ORACLE 登录相关的信息
  13. MySQL用C访问的示例代码
  14. 路由跟踪之tcptraceroute IP延时之tcpping
  15. 省市区三级数据-MySQL
  16. Apache的网页优化!!给你的网页套上一层层保护罩(网页压缩、网页缓存、隐藏版本信息、设置防盗链)
  17. OCR识别技术之—车牌识别
  18. devc++工程提示“源文件未编译”的可能问题
  19. 18年华为没有一项原创的发明
  20. Hadoop 服务器IP地址的配置

热门文章

  1. use proxy for git
  2. Lodash chain功能(Lazy Evaluation)介绍
  3. markdown这么好用的东西我才知道。。。多么不折腾的我。。。
  4. Debian从光盘apt-get
  5. 关于协方差矩阵的理解
  6. Lintcode 138. 子数组之和 [Easy]
  7. 中缀表达式变后缀分析
  8. 完全二叉树的结点数计算
  9. 03-body标签中相关标签
  10. 多线程之NSThread