机器学习-西瓜书第一、二章
第一章:绪论
基本概念
数据集:所有数据的集合
训练集:训练样本的集合
属性(特征):某事物或对象在某方面表现的性质
属性值:属性的取值
属性空间/样本空间/输入空间:属性张成的空间
泛化能力:学得模型适用于新样本的能力(泛化能力强更好地适用于样本空间)
机器学习算法的类型
1. 有监督学习
有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。 Y = f (X)
训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。
利用有监督学习解决的问题大致上可以被分为两类:
分类问题:预测某一样本所属的类别(离散的)。比如给定一个人(从数据的角度来说,是给出一个人的数据结构,包括:身高,年龄,体重等信息),然后判断是性别,或者是否健康。
回归问题:预测某一样本的所对应的实数输出(连续的)。比如预测某一地区人的平均身高。
下面所介绍的前五个算法(线性回归,逻辑回归,分类回归树,朴素贝叶斯,K最近邻算法)均是有监督学习的例子。
除此之外,集成学习也是一种有监督学习。它是将多个不同的相对较弱的机器学习模型的预测组合起来,用来预测新的样本。本文中所介绍的第九个和第十个算法(随机森林装袋法,和XGBoost算法)便是集成技术的例子。
2. 无监督学习
无监督学习问题处理的是,只有输入变量X没有相应输出变量的训练数据。它利用没有专家标注训练数据,对数据的结构建模。
可以利用无监督学习解决的问题,大致分为两类:
关联分析:发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋,那么商家就会把鸡蛋和面包放在相邻的货架上。
聚类问题:将相似的样本划分为一个簇(cluster)。与分类问题不同,聚类问题预先并不知道类别,自然训练数据也没有类别的标签。
维度约减:顾名思义,维度约减是指减少数据的维度同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法,可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高纬度转换到低纬度。广为熟知的主成分分析算法就是特征提取的方法。
第2章 模型评估与选择
评估方法
以下为参考链接导图:西瓜书自学笔记分享第五章 - 知乎
第一章:
第二章:
参考:机器学习知识点总结(待更新)_GoAI的博客-CSDN博客_机器学习知识点总结
机器学习-西瓜书第一、二章相关推荐
- 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归
本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...
- 小白学机器学习西瓜书-第三章对数几率回归
小白学机器学习西瓜书-第三章对数几率回归 3.3 对数几率回归 3.3.1 对数几率函数 3.3.1 估计参数 上一部分我们介绍了线性回归,包括简单的二元回归和多元回归,这两个主要解决的是拟合预测的问 ...
- 【吃瓜教程】周志华机器学习西瓜书第三章答案
线性模型结构梳理 3.1 试析在什么情形下式3.2中不必考虑偏置项b 答案一: 偏置项b在数值上代表了自变量取0时,因变量的取值: 1.当讨论变量x对结果y的影响,不用考虑b: 2.可以用变量归一化( ...
- 机器学习西瓜书第一章总结
机器学习:研究如何通过计算的手段,利用 经验改善系统自身的性能. 1.训练模型 数据集:一组数据记录的集合. 实例或样本:每条记录是关于一个事件或对 象的描述. 属性:反 ...
- 西瓜书第一第二章理解
第一章 机器学习的整体流程: 1.确定数据集 确定特征向量和属性 2.通过某种算法进行学习和训练 3.得到模型(有监督:分类,回归,无监督:聚类) 4.进行预测 奥卡姆剃刀原则 如果多个假设与观察一致 ...
- 西瓜书第一、二章节笔记
今日完成西瓜书第一二章节,这次已是三刷,但仍感触颇深,发现以前看完没有留下些"东西",故此这一遍认真做好笔记.(第二章节比较检验部分未做整理,会随着后续章节一起补上),此笔记仅供分 ...
- 西瓜书第一章阅读笔记
西瓜书第一章阅读笔记 第一章 绪论 1.机器学习基本术语 2.归纳偏好 3.所有学习算法一样优秀? 4.补充资料 第一章 绪论 1.机器学习基本术语 记录:对一个事件或对象的描述,也称为"示 ...
- 机器学习西瓜书(周志华)第七章 贝叶斯分类器
第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...
- 机器学习西瓜书-1-2章
学习目标: 概览机器学习西瓜书 1.2章 学习内容: 第一章 绪论 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程 第二章 模型评估与选择 2.1 经验误差与过拟合 2.2 评 ...
最新文章
- CSS background 之设置图片为背景技巧
- cx_Oracle.DatabaseError: ORA-12514
- 解析Shell编程中的-----“去重“
- win10右键闪退到桌面_【雷粉百科】windows10鼠标点击右键出现卡顿或者转圈
- 为SharePoint网站创建自定义导航菜单
- [云炬创业基础笔记] 第四章测试16
- C#-利用Marshal类实现序列化
- chap01 .net 基本框架介绍
- 代码对比工具 Top5
- ACM基础——OJ上的Java代码提交规范
- centos6.5系统不支持 mysql_centos6.5系统下面MySql数据库的安装
- ORACLE 登录相关的信息
- MySQL用C访问的示例代码
- 路由跟踪之tcptraceroute IP延时之tcpping
- 省市区三级数据-MySQL
- Apache的网页优化!!给你的网页套上一层层保护罩(网页压缩、网页缓存、隐藏版本信息、设置防盗链)
- OCR识别技术之—车牌识别
- devc++工程提示“源文件未编译”的可能问题
- 18年华为没有一项原创的发明
- Hadoop 服务器IP地址的配置