1. 基本概念部分
  1. 统计学习方法可以概括如下……

从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型、策略和算法。

  1. 什么是有监督学习、无监督学习、半监督学习

有监督学习是指从标注数据中学习预测模型的机器学习问题(其本质是学习输入到输出的映射的统计规律)

无监督学习是指从无标注数据中学习预测模型的机器学习问题。(其本质是学习数据中的统计规律潜在结构)

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。(目的是利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果)

  1. 有监督的学习的三要素两过程

三要素:数据、标签、模型

两过程:学习、预测

要有一两句解释

  1. 生成式模型和判别式模型是什么意思,常见的代表模型有哪几个

生成式模型:在监督学习中方法按照生成方法学到的模型为生成式模型 有x——>y 的生成关系,即有联合分布

朴素贝叶斯、隐马尔可夫模型

判别式模型:在监督学习中方法按照判别方法学到的模型为判别式模型 无x——>y的生成关系,由数据出发直接学习

感知机、k近邻、决策树、逻辑斯谛回归、最大熵、支持向量机、提升方法

  1. 什么叫过拟合、欠拟合,常用的减轻拟合的方法

欠拟合:没有充分利用数据集信息,因为数据集信息代表了一部分总体数据的信息又代表了其自身的数据的信息,由于数据集得到的总体信息太少,模型不够复杂、拟合函数的能力不够

解决方法:增加迭代次数继续训练、换用其他算法、增加模型的参数数量和复杂程度,或者采用Boosting等集成方法

过拟合:过于充分利用数据集信息,太过注重数据集信息,学习到的信息大多是关于数据集的,而失去泛化能力(给定的数据集相对过于简单,使得模型在拟合函数时过分地考虑了噪声等不必要的数据间的关联。或者说相对于给定数据集,模型过于复杂、拟合能力过强,而泛化能力弱。)

解决方法:选择复杂度适当的模型,以达到测试误差最小的学习目的

删除异常数据不会减轻过拟合

数据扩增、直接降低模型复杂度、提前停止训练、多模型投票方法、正则化方法

方法1:在经验风险上加一个正则化项或罚项,即模型越复杂,正则化值就越大

方法2:在数据充足情况下,将数据切分为训练集(学习)、验证集(模考,防止过拟合)、测试集(高考);在数据不充足的情况下进行交叉验证,即重复的使用数据

  1. 如果clf是一个模拟的对象,则一般clf.train(X, y), clf.fit(X, y), clf.predict(test)是什么意思,执行后的结果或改变是什么

clf.fit(X,y)和clf.fit(X,y)的意思是将数据X和标签y放入clf这个原始模型(类、对象)中进行学习训练,执行后的改变的是clf不再是一个初始的模型,而是通过数据和标签学习过程中得到了一些特定参数的模型。

clf.predict(test)的意思是将测试集的数据放入已经训练好的模型clf中进行预测,执行后的结果是输出测试集的标签

    1. 理解而不是记住,方便你写代码、看代码
  1. Precision, Recall, F1, Accuracy, AUC of ROC。上面这几个概念的定义、意义、计算。给定正负例的信号强度,能画出ROC

预测值                   真实值

0

1

0

TN

FN

1

FP

TP

Precision(查准率)

P=TPTP+FP

意义:在所有预测为1的数据中找出多少真实值为1的

Recall(召回率)

R=TPTP+FN

意义:在真实值为1的数据中有多少预测值为1的被找出来了

Accuracy(准确率)

准确率=TP+TNTN+FN+FP+TP

意义:判断正确的占总数的比例(判断总的正确率)。但是在样本不均衡的情况下,并不能作为很好的指标来衡量结果。

F1-Score(F1分数)

F=α2+1P*Rα2P+R

当α取1时,就是F1分数

意义:F1分数同时考虑精确率和召回率

  1. 训练集、验证集、测试集的作用是什么,S折交叉验证是怎么回事

建模(发现数据的模式和规律)、控制过拟合、评估模型

训练集的作用是将训练集数据灌入模型进行训练学习

验证集的作用是在训练过程中加入验证集防止过拟合

测试集的作用是评价模型的预测效果

S折交叉验证(S-fold cross validation):首先随机地将已给数据切分为S个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。

  1. 什么叫回归,什么叫聚类,什么叫分类

回归:用于预测输入变量(自变量)和输出变量(因变量)之间的关系(映射)。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合。

聚类:对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内数据比较相似,类别之间的数据相似度比较小。(高耦合低内聚

分类:当输出变量Y取有限个离散值时,预测问题便成为分类问题。分类器对新的输入进行输出的预测,称为分类。

  1. Knn

中英文名字、算法理念、算法过程、算法伪代码,算法代码实现

中文:K近邻算法

算法理念:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。

算法过程:

  1. 计算测试数据与各个训练数据之间的距离;
  2. 按照距离的递增关系进行排序;
  3. 选取距离最小的k个点;
  4. 确定前k个点所在类别的出现频率;
  5. 返回前k个点中出现频率最高的类别作为测试数据的预测分类。 
    1. 感知机

    算法理念、算法过程、算法伪代码,算法代码实现

    算法理念:感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。

    算法过程:

    原始形式:感知机学习算法是误分类驱动的,具体采用随机梯度下降法。首先,任意选取一个超平面w0,b0,然后用梯度下降法不断地极小化目标函数。极小化过程中不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。

    对偶形式:对偶形式的基本想法是,将w和b表示为实例xi和标记yi的线性组合的形式,通过求解其系数而求得w和b。

    算法伪代码:

    原始形式:

    b=1mi=1myi-wxi

    x=1mi=1mxi

    数值解

    广义线性回归:对数线性回归 标签值进行函数映射

    会手算简单的线性回归(单变量)

    有解析解的公式

    1. 逻辑回归

    线性回归的定义,解法,解的情况

    Sigmoid函数及求导,求解最大似然估计

    Sigmoid函数求导:

    正在上传…重新上传取消

    正在上传…重新上传取消求解最大释然估计

    1. 朴素贝叶斯

    给定一个小规模数据集,可以手算朴素贝叶斯

    1. 决策树

    决策树的基本算法

    熵、基尼、熵增益、固有值、熵增益比的定义和业务意义

    ID3、C4.5、Cart算法基本思路和伪代码

    1. 提升方法

    Bagging(有放回,取N个数据,投票法或加权平均法)和随机森林(无放回,特征组合,投票法或加权平均法)

    提升方法江湖地位(非深度学习最好的方法)

    能说清楚GBDT的脉络即:

    adaboost的理念,加法模型,前向加法模型,提升树,回归树对残差的拟合,以及对梯度的拟合。

    1. SVM

    线性可分支持向量机的基本脉络

    松弛变量(一定程度容忍线性不可分问题,还是线性分类)、核函数(解决非线性问题,基于内积,)的业务背景和操作方法

    SVM江湖地位(单模最优)

    1. NN

    说清楚神经网络学习(从后往前)和预测(从前往后)的过程

    了解常见的神经网络,及中英文名称

    CNN(卷积神经网络)

    RNN(递归神经网络)

    对于多层神经网络,可以计算其待定参数的个数,并能说明BP算法如何更新网络参数

    1. Numpy

    基本的向量化运算,使用numpy常见的方法

机器学习期末复习笔记相关推荐

  1. 【期末复习笔记】知识产权法——著作权、专利法、商标权

    [期末复习笔记]知识产权法 著作权 著作权法不予以保护的客体 著作权的归属 著作权的内容 著作人身权 著作财产权 著作权的取得方式:自动取得 著作权的保护期限: 邻接权 表演者权 表演者义务 表演者权 ...

  2. 机器学习——期末复习

    机器学习-期末复习 文章目录 机器学习-期末复习 填空题 第一章 机器学习基础 第二章 数据预处理 KNN算法 支持向量机 集成学习 决策树 聚类算法 联结学习 三种池化操作 选择题 计算题 数据正规 ...

  3. 【Python数据分析与可视化】期末复习笔记整理(不挂科)

    [Python数据分析与可视化]期末复习笔记 1. 数据分析与可视化概述 对比 概念 常用工具 Python常用类库 Jupyter notebook中的常用快捷方式 2. Python编程基础 co ...

  4. RFID原理及应用期末复习笔记 | 1.RFID概述【完结✿✿ヽ(°▽°)ノ✿】

    系列索引:RFID原理及应用期末复习笔记 | 快速索引 RFID是博主大三下的一门专业课,因为疫情缩短学期进程提前结课,所以期末考试也来的更早,这里就简单记录一下自己复习时的一些笔记,也给后来的学弟学 ...

  5. 南邮部分期末复习笔记汇总@tou

    README 知识库链接:tou/njupt-cst-notes 这个知识库存放了部分我在 NJUPT-CST 专业就读期间的期末复习笔记,这一部分公开的语雀笔记是我众多笔记中总结的还算 OK 的,仅 ...

  6. 奇异矩阵能lu分解条件_矩阵分析-期末复习笔记(上)

    (复习笔记,可能有点乱.夹杂着乱七八糟的英文,因为要用英文考试.) (如果有误请一定要和我说!祝我final考个好成绩-) 目录: 特征值,特征向量,相似 (Eigenvalues, eigenvec ...

  7. 数理统计期末复习笔记(一)

    数理统计期末复习笔记 主要内容: 数据压缩,点估计,假设检验,区间检验 Reference: Statistical Inference, Casella&Berger Chapter 6 D ...

  8. 【期末复习】北京邮电大学《数字内容安全》课程期末复习笔记(5. 社交媒体安全)

    [相关链接] [期末复习]北京邮电大学<数字内容安全>课程期末复习笔记(1. 绪论) [期末复习]北京邮电大学<数字内容安全>课程期末复习笔记(2. 信息隐藏与数字水印) [期 ...

  9. 抽样调查理论与方法期末复习笔记

    第3章 简单随机抽样 均方误差=方差+偏倚的平方 ​ 3.5某林场共有1000公顷林地,随机布设了50块面积为0.06公顷的方形样地,测得这50块样本地的平均木材蓄积量为9m3,标准差为1.63m3. ...

最新文章

  1. 关于 OpenIdConnect 认证启用 HTTPS 回调 RedirectUri 不生效问题
  2. SpringCloud之微服务
  3. 谈谈微服务中的 API 网关(API Gateway)
  4. 计算机术语局部性,【计算机基础】程序的局部性简介
  5. FPGA原语使用方法
  6. 运维 xshell 学习
  7. openstack pike版本安装笔记6(dashboard组件,控制台)
  8. 【POJ2352】Stars(树状数组模版题)
  9. 一建已经过去,正是中级通信工程师黄金备考期!
  10. ROS机器人操作系统——什么是ROS(一)
  11. 对比学习(Contrastive Learning) (1)
  12. 第一讲——什么是计算机网络?
  13. C++机器学习经典资料
  14. 关于Spec的一些理解
  15. RSF 分布式 RPC 服务信息的暴露
  16. can收发器 rx_CAN/CANFD采样点
  17. IOS相关培训机构课程内容汇总
  18. linux命令——ll详解
  19. python(进阶篇)——自动化操作Excel(xlrd和xlwt)
  20. 什么是迅驰1、2、3、4代

热门文章

  1. CA证书目的和详细演化过程
  2. iOS简单实现图片模糊渐变效果
  3. 苹果系统搭建mysql_mac下搭建MySql环境
  4. 安卓手机刷twrp和magisk
  5. mqtt 传文件断开连接的原因_mqtt服务器连上就断开
  6. 第三章 正确认识MVC
  7. 2020年最值得关注的5个logo设计趋势:简单的几何形状logo
  8. 苏格拉底《临死前的演说》
  9. cesium加载气象数据
  10. html如何实现加载动画