机器学习——期末复习
机器学习—期末复习
文章目录
- 机器学习—期末复习
- 填空题
- 第一章 机器学习基础
- 第二章 数据预处理
- KNN算法
- 支持向量机
- 集成学习
- 决策树
- 聚类算法
- 联结学习
- 三种池化操作
- 选择题
- 计算题
- 数据正规化
- Hopfield网络能量函数计算
- 卷积、池化操作
- 应用题
- 决策树、朴素贝叶斯、聚类算法
- 单层感知器构造(连接神经元部分)
- 深度学习网络
填空题
第一章 机器学习基础
机器学习系统的含义:是指能够在一定程度上实现机器学习的系统
机器学习按对人类学习的模拟方式分类:符号主义学习、统计学习、连接主义学习等。
学习系统基本模型4部分:
机器学习任务:1、分类、回归、聚类 2、降维、去噪 3、机器翻译、异常检测
机器学习基本流程:数据处理、训练、验证、预测
数据集划分(判断是哪个数据集):训练集。用于训练模型。验证集。用于调整模型。测试集。用于评估模型
模型效果描述(给出意义描述写术语):拟合是模型与训练数据和测试数据具有较好的拟合性、过拟合是指的是模型出现拟合过度的情况。过拟合表现为模型在训练数据中表现良好,在预测时却表现较差、欠拟合是欠拟合是指在训练数据和预测结果时,模型精确度均不高的情况。
机器学习三种类型(区分分类和回归、聚类和降维概念):
- 监督学习:监督学习算法是给定一组输入x和输出y的训练集,学习如何关联输入和输出
- 分类: 分类任务是对离散结果的预测,也就是提供的标签是离散的。
- 回归:回归任务是对连续结果的预测,也就是提供的标签是连续的。
- 无监督学习:
- 聚类:聚类是将数据集中的样本划分为若干个不相交的子集(簇),每个簇可能对应于一些潜在的概念
- 降维:在高维情况下出现的数据样本稀疏、距离计算困难等问题被称为维度灾难,解决维度灾难的一个途径就是降维。降维是将原始高维空间转变为一个低维空间即高维空间的一个低维嵌入。
- 强化学习:就是一个智能体采取行动从而改变自己的状态获得奖励与环境发生交互的循环过程。
模型性能描述
- 准确率、查准率、查全率
- 准确率:分类正确的样本占总样本的比例
- 查准率:正确被检索的样本占所有实际被检索得到的样本的比例
- 查全率:正确被检索出的样本占所有应该检索的样本的比例
- MSE(均方差)、RMSE(均方根误差)
- F1、ROC
第二章 数据预处理
数据预处理(3个给定义写术语):数据清洗、数据转换、数据压缩
数据清洗( Data Cleaning ) 主要是通过填补缺失值、光滑噪声数据,平滑或删除离群点,并解决数据的不一致性来“清理”数据。自然数据中的异常值等问题可能会影响机器学习模型并产生有偏差的结果。常见问题数据如下:
- 缺失值:它指的是现有数据集中某个或某些属性的值是不完全的,可能直接导致算法无法直接分析数据。
- 离群值:它指在一份数据中,与其他观察值具有明显不同特征的那些观察值,可能会使数据的分布失真影响模型判断。
数据转换:数据转换(Data Transformation)就是修改数据的表示形式,使其符合机器学习模型的输入要求,并使机器学习模型的优化算法更容易生效。
- 数字化:一般在计算型任务中需要用数值特征,因此会遇到非数值特征转换为数值特征情况。
- 离散化:有时数据为连续值,而模型只能处理离散型数据,则需要将连续数据转换为离散数据。
- 正规化:数据压缩到一个范围内赋予所有属性相等的权重,进行规范化处理。
- 数值转换:数值变换能够增加数据的非线性特征捕获特征之间的关系,有效提高模型的复杂度。
数据压缩:数据压缩是一种有助于减少数据集的数据量或维数或两者兼得的技术,从而使模型的学习过程更加有效,并帮助模型获得更好的性能,防止过度拟合问题并修复不均匀的数据分布
- 降维:将高维数据转换为低维,有利于模型计算和可视化等操作
- 实例选择和采样:通过减少数据样本,寻求以最小的性能损失来训练模型的机会。如通过K近邻分类算法选择实例,随机采样收集部分样本。
KNN算法
给定义写术语:它根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本距离最小的K个样本作为X的K个最近邻,最后以X的K个最近邻中的大多数样本所属的类别作为X的类别。
三大步骤:算距离、找邻居、做分类
支持向量机
最常使用的四类核函数:
集成学习
集成学习(给定义写术语): 集成学习是指为解决同一问题,先训练出一系列个体学习器(或称弱学习器),然后再根据某种规则把这些个体学习器的学习结果整合到一起,得到比单个个体学习器更好的学习效果。
集成学习两大基本问题:一个是个体学习器的构造,另一个是个体学习器的合成。
集成学习分类:Boosting方法和Bagging方法两大基本类
决策树
给定义写术语:决策树分类方法采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。
常用决策树算法:ID3、C4.5、CART(区分概念,谁取最大或最小)
ID3:按信息增益划分(最大)
C4.5:增益比例(最大)
CART:基尼指数(最小)
聚类算法
K-means、K-中心点、DBSCAN
联结学习
人工神经网络(给定义写术语):人工神经网络是一种对人工神经元进行互联所形成的网络,它是对生物神经网络的模拟。反映的是神经元的饱和特性
人工神经网络分类(重点按拓扑和按学习方法)
常见网络:深度卷积神经网络、深度波尔兹曼机、深度信念网络
深度神经网络(给定义写术语):深层神经网络也叫深度神经网络(DNN),通常是指隐含层神经元不少于2层的神经网络,目前可做到数百层甚至更多
正向传播过程3个操作、反向传播过程2个
三种池化操作
最大池化、最小池化、均值池化
选择题
计算题
数据正规化
- 使用min-max方法规范化数据组:200,300,400,600,1000的结果分别是
- 假定属性平均家庭总收入的均值和标准差分别为9000元和2400元,值12600元使用z-score规范化转换结果为
- 假定A的取值范围是-1075~923。使用十进制缩放规范化方法转换-1075结果为: ,923转换结果为:
Hopfield网络能量函数计算
Hopfield 网络的能量函数定义如下:
式中;n是网络中的神经元个数,wij 是神经元i和神经元 j之间的连接权值,且有wij = wji ; vi和 vj分别是神经元i和神经元 j 的输出;θi 是神经元i的阈值。
卷积、池化操作
卷积操作
池化操作
卷积、池化操作所得特征图的尺寸
卷积:
特征矩阵的行数和列数:假设数据矩阵大小为M×N,卷积核大小为m×n,填充的圈数为p,水平方向和竖直方向的步长分别为d1,d2d_1,d_2d1,d2,则有特征矩阵的行数和列数分别为:
池化
M×N,池化窗口大小为m×n =》 R = M / m, C = N / n
应用题
决策树、朴素贝叶斯、聚类算法
单层感知器构造(连接神经元部分)
试根据训练集:
D=((1,2)T,1),((3,3)T,1),((2,1)T,−1),((5,2)T,−1)D={((1,2)^T,1),((3,3)^T,1),((2,1)^T,-1),((5,2)^T,-1)}D=((1,2)T,1),((3,3)T,1),((2,1)T,−1),((5,2)T,−1)构造一个感知机模型,学习率α=1。
【解】已知感知机模型的具体形式为:f(X)=sgn(WTX)f(X)=sgn(W^T X)f(X)=sgn(WTX)
sgn(t)={1,(t>=0)−1,(t<0)sgn(t)= \left\{ \begin{array}{ lr } 1, &(t>=0) \\ -1, &(t < 0)\\ \end{array} \right.sgn(t)={1,−1,(t>=0)(t<0)
其中W=(b,w1,w2)T,X=(1,x1,x2)TW=(b,w_1,w_2 )^T,X=(1,x_1,x_2 )^TW=(b,w1,w2)T,X=(1,x1,x2)T。使用数据集D构造感知机模型的具体步骤如下:
(1)初始化参数向量W=(0,0,0)TW=(0,0,0)^TW=(0,0,0)T
(2)随机选择一个样本((2,1)T,−1)((2,1)^T,-1)((2,1)T,−1)输入初始模型,求得f(X=(2,1)T)=sgn(0)=1≠−1f(X=(2,1)^T )=sgn(0)=1≠-1f(X=(2,1)T)=sgn(0)=1=−1,该样本未被感知机模型正确分类,使用如下公式更新模型参数:
wi=wi+αyxi,b=b+αyw_i=w_i+αyx_i, b=b+αywi=wi+αyxi,b=b+αy
计算得到新的参数向量W=(−1,−2,−1)TW=(-1 ,-2,-1)^TW=(−1,−2,−1)T,获得的感知机模型为:
f(X)=sgn(−2x1−x2−1)f(X)=sgn(-2x_1-x_2-1)f(X)=sgn(−2x1−x2−1)
将数据集D中样本均输入更新后的感知机模型中,若存在样本被错误分类,则根据步骤(2)中公式进行参数更新,直至D中所有样本均分类正确时结束算法并输出模型。
深度学习网络
机器学习——期末复习相关推荐
- 燕山大学机器学习期末复习知识点罗列
0.前言 本文根据燕山大学软件工程专业机器学习课程期末复习纲要编写,文本内容来源为上课所使用的PPT,由于时间紧迫这个版本是比较全的知识点,只包含关键词的速记突击版本后续会上传. 1.机器学习的定义 ...
- 【机器学习】某工19级智科专业机器学习期末复习资料
前言:本人是华工19级智科专业的一个小菜鸟,机器学习这门课从我们这一届开始才有考试,因为没有往年的试题可以参考,复习的时候有 点摸不着头脑(主要还是因为上课摸鱼,考试前夕才得知老师划的重点:以及老师的 ...
- 机器学习期末复习笔记
基本概念部分 统计学习方法可以概括如下-- 从给定的.有限的.用于学习的训练数据集合出发,假设数据是独立同分布产生的:并且假设要学习的模型属于某个函数的集合,称为假设空间:应用某个评价准则,从假设空间 ...
- 机器学习【期末复习总结】——知识点和算法例题(详细整理)
机器学习[期末复习总结]--知识点和算法例题(详细整理) 1.什么是机器学习,什么是训练集,验证集和测试集?(摘自ML科普系列(一)) 机器学习: 对计算机一部分数据进行学习,然后对另外一些数据进行预 ...
- 机器学习与数据挖掘(上)——期末复习
机器学习与数据挖掘(上)--期末复习 机器学习与数据挖掘(下)--期末复习 预备概念 过拟合与欠拟合 过拟合 过拟合定义 当学习器把训练样本学的"太好"了的时候,很可能已经把训练样 ...
- 数据挖掘期末复习01-02
数据挖掘期末复习 题型 选择题:单选7 + 多选7(上课认真听课) 每道3分 解答 6道 概念性:什么是数据挖掘啊之类的 计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 ...
- 人工智能期末复习——速通知识点
知识点是通过老师上课ppt整理,对于期末复习的基本考点都有涉及,以及计算题部分都有例题进行讲解,希望能帮助大家更好的复习. 人工智能期末复习 人工智能 一.绪论 二.知识表示与知识图谱 三.确定性推理 ...
- 软件体系结构期末复习
软件体系结构期末复习 标签(空格分隔): 未分类 回顾课本和TTP课件 内容总概 章节回顾 第1章.软件体系结构概论 0.软件体系结构的发展过程经历了四个阶段: (1)无体系结构阶段.(2)萌芽阶段. ...
- 武汉理工大学 大数据架构与模式期末复习
武汉理工大学 大数据架构与模式期末复习 在发现学长学姐们上一届是大作业结课而我们是考试结课之后整理复习的结果,可能不会很全,感觉最后老师稍微划知识点的时候没有为难我们(),总之大体是这么些考试内容,也 ...
最新文章
- css html 优化,CSS Animation性能优化
- python 调用摄像头拍照_《自拍教程67》Python调用摄像头, 拍照拍照!
- QT右键点击添加库不响应的解决办法
- python+selenium处理chrome显示通知弹框
- 2018.09.19 atcoder AtCoDeer and Election Report(贪心)
- Unicode数据类型(与ANSI关系和相互转化)
- 通过注册表修改打开方式
- pic单片机c语言编程优势,PIC单片机与PIC单片机C语言编程简介
- 多路归并算法从理论到应用(易懂)
- OpenCV学习——图像二值化处理及二维傅里叶变换
- DrugBank总结
- 第 22 章 动态属性和特性
- 如何改善移动端表现效果-谷歌 AMP 页面
- 人民币对美元汇率中间价报6.7343元 上调13个基点
- Mybatis的学习
- win10 下 caffe 的第一个测试程序(附带详细讲解)
- 解决导出Excel后0丢失的问题
- 硬盘验证器(硬盘检测工具)v1.7绿色汉化版
- 浙江万里学院计算机与科学技术,浙江万里学院计算机与信息学院介绍
- 滤波算法(四)—— 卡尔曼滤波算法
热门文章
- 使用nvm安装node报错,Could not retrieve https://nodejs.org/dist/latest/SHASUMS256.txt. Get “https://nodej
- 一维元胞自动机生命游戏
- 【Hack The Box】windows练习-- love
- 如何产生一个全局唯一的流水号(附demo)
- 图像分割(六) —— STransFuse
- MPP大规模并行处理架构详解(满满干货,需细嚼慢咽)
- 河南专升本公共英语语法考点分析---非谓语动词
- 过来人都是怎么学习stm32的
- 使用Unity制作游戏AI
- pascal语法基础