前言

记录周志华《机器学习》里的一些概念(尽量包括中英文)方便日后温习。当然,仅知道些概念是远远不够的。

正文

第一章 绪论
  • 特征向量 feature vector —— 机器学习的输入往往是向量形式
  • 分类 classification —— 预测为离散值的任务
  • 回归 regression —— 预测为连续值的任务
  • 聚类 clustering
  • 有监督学习 supervised learning —— 有标记信息,代表有分类和回归
  • 无监督学习 unsupervised learning —— 无标记信息,代表有聚类
  • 训练集
  • 验证集 validation set —— 根据在验证集的性能进行调参
  • 测试集
  • 归纳学习 inductive learning —— 从特殊到一般
  • 归纳偏好 inductive bias ——不论多么模棱两可的例子,模型都能产生确定的结果。
    奥卡姆剃刀 Occam’s razo —— 若有多个假设与观察一致,则选最简单的那个。
第二章 模型评估与选择
  • 训练误差 training error = 经验误差 empirical error
  • 测试误差 testing error ~= 泛化误差 generalization error
  • 过拟合 overfitting
  • 欠拟合 underfitting
  • 留出法 hold out ——将数据集分为互斥的训练集和测试集
  • 分层采样 stratified sampling —— 保留类别比例的采样方式
  • p次k折交叉验证 —— 随机地将数据集分为k组,依次选第i组作为测试集,剩下为训练集。重复p次
  • 自助法 bootstrapping —— 给定包含 m 个样本的数据集中有放回地抽m个数据作为训练集。这样约有1e\frac{1}{e}e1的数据不在训练集中,可作为测试集。
  • 真正例 TP 假正例 FP 真反例 TN 假反例 FN
  • 查准率 precision —— TPTP+FP\frac{TP}{TP+FP}TP+FPTP
  • 查全率 recall —— TPTP+FN\frac{TP}{TP+FN}TP+FNTP
  • PR曲线 —— 查准率查全率曲线 单调递减
  • 真正例率 TPR —— TPTP+FN\frac{TP}{TP+FN}TP+FNTP
  • 假正例率 FPR—— FPTN+FP\frac{FP}{TN+FP}TN+FPFP
  • ROC曲线 —— TPR 为纵轴, FPR为横轴 单调递增
  • AUC Area Under Curve
  • 代价敏感
  • 假设检验。测试误差和泛化误差毕竟是不同的,我们需要从测试误差ϵ^\hat{\epsilon}ϵ^推测出泛化误差ϵ\epsilonϵ的分布。
  • 偏差-方差分解 —— 设在数据x,标记标签yDy_DyD,真实标签y,在训练集D上学到模型f。则泛化误差有如下公式
    ED[(f(x;D)−yD)2]=ED[(f(x;D)−fˉ(x))2]+(fˉ(x)−y)2+ED[(yD−y)2]E_D[(f(x;D)-y_D)^2] = E_D[(f(x;D)-\bar{f}(x))^2]+(\bar{f}(x)-y)^2+E_D[(y_D-y)^2]ED[(f(x;D)yD)2]=ED[(f(x;D)fˉ(x))2]+(fˉ(x)y)2+ED[(yDy)2]
    即 泛化误差为偏差、方差、噪声之和。
  • 误差-分歧分解 error-ambiguity decomposition:E=Eˉ−AˉE=\bar{E}-\bar{A}E=EˉAˉ,其中 E表示集成学习器的泛化误差,Eˉ\bar{E}Eˉ表示个体学习器泛化误差的加权平均,Aˉ\bar{A}Aˉ表示个体学习器的加权分歧值(可以理解成方差)。式子表明个体学习器准确性越高,多样性越大,则集成越好。
  • 多样性度量 diversity measure —— 度量个体分类器的多样性。
第三章 线性模型
  • 线性回归 linear regression —— 目标 min∥y−Xω∣22min \|y-X\omega|_2^2minyXω22 , 令导数为0,得 ω=(XTX)−1XTy\omega = (X^TX)^{-1}X^Tyω=(XTX)1XTy
  • 广义线性模型 generalized linear model —— y=g−1(ωTx+b)y=g^{-1}(\omega^Tx+b)y=g1(ωTx+b)
  • 线性判别分析 Linear Discriminant Analysis —— 思想:设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
  • OvO、OvR、MvM —— 二分类模型用于多分类的三种方法
  • 纠错输出码 Error Correcting Output Codes
  • 类别不平衡 class imbalance
  • 阈值移动 threshold-moving
  • 欠采样 undersampling = 下采样 downsampling —— 扔掉部分偏多的样本
  • 过采样 oversampling = 上采样 upsampling —— 增加偏少的样本,通常用插值的方法
  • 多标记学习 multi-label learning
第四章 决策树
  • 信息熵 —— Ent(D)=−∑pklog2pkEnt(D)=-\sum p_klog_2p_kEnt(D)=pklog2pk,其中pkp_kpk表示集合DDD中第kkk类样本所占的比例。信息熵越小则DDD纯度越高。
  • 信息增益 —— 假设按离散属性aaa划分出VVV个分支节点,第vvv个节点的样本集为DvD^vDv,则信息增益Gain(D,a)Gain(D,a)Gain(D,a)定义为:
    Gain(D,a)=Ent(D)−∑∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum\frac{|D^v|}{|D|}Ent(D^v)Gain(D,a)=Ent(D)DDvEnt(Dv)
  • 增益率 —— 信息增益在可取值数目较多的属性较大。为了减少这种影响,引入增益率:
    Gain.ratio(D,a)=Gain(D,a)IV(a)Gain.ratio(D,a) = \frac{Gain(D,a)}{IV(a)}Gain.ratio(D,a)=IV(a)Gain(D,a)
    其中IV(a)=Ent(DV)=−∑∣Dv∣∣D∣log2∣Dv∣∣D∣IV(a)=Ent(DV)=-\sum\frac{|D^v|}{|D|}log_2{\frac{|D^v|}{|D|}}IV(a)=Ent(DV)=DDvlog2DDv表示DDD若按属性aaa来分类的信息熵。
  • 基尼指数 —— 同样表示DDD的纯度,基尼值定义为:
    Gini(D)=1−∑pk2Gini(D) = 1- \sum p_k^2Gini(D)=1pk2
    反映了从DDD随机抽取两个样本,其类别标记不一致的概率。
  • 预剪枝 —— 在决策树生成过程中,对每个节点划分前先进行估计,若当前节点的划分不能带来泛化性能提升(用验证集测试),则停止划分。
  • 后剪枝 —— 从一颗完整的决策树自底向上对非叶节点考察,若能替换成带来泛化性能提升的叶节点则替换。
  • 二分法 bi-partition ——对于连续值,确定一点ttt使信息增益最大,从而使原数据集DDD分为两类. 与离散值不同,连续值的属性还可以作为后代节点的划分属性。
  • 多变量决策树 multivariate decision tree —— 对于连续值属性来讲,传荣的二分类决策树的决策边界平行于特征轴。这显然难以近似真实的分类边界。可将每个非叶节点换成形如∑ωiai\sum \omega_i a_iωiai的线性分类器。
第五章 神经网络
  • M-P神经元模型 —— 单个神经元,形如
    y=f(∑ωixi−θ)y=f(\sum \omega_i x_i - \theta)y=f(ωixiθ)
  • 感知机 perceptron —— 单层神经网络。关于神经网络的层数,统计方法不一,有的仅不算输入层,有的既不算输入层也不算输出层。为了统一,这里神经网络的层数算上隐含层、输出层。
  • 多层前馈神经网络 multi-layer feedforward neural networks —— 普通的多层全连接网络。
  • 误差逆传播 error backpropagation —— 简称BP,主要利用求导的链式法则。
  • 早停 early stopping —— 为了防止过拟合,训练时若训练集误差降低但验证集误差升高,则停止训练。
  • 正则化 regularization —— 在误差目标函数中增加一个用于描述网络复杂度的部分。
  • 径向基函数网络 Radial Basis Function network —— 简称RBF网络,是一种单隐藏层前馈神经网络。可表示为:
    ψ(x)=∑ωiρ(x,ci)\psi(\mathbf{x})=\sum \omega_i \rho(\mathbf{x},\mathbf{c_i})ψ(x)=ωiρ(x,ci)
    其中 ρ(x,ci)=e−βi∥x−ci∥2\rho(\mathbf{x},\mathbf{c_i})=e^{-\beta_i\|\mathbf{x}-\mathbf{c_i}\|^2}ρ(x,ci)=eβixci2, ci\mathbf{c_i}ciwiw_iwi为第i个隐藏层神经元对应的中心和权重。
  • 自适应谐振理论网络 Adaptive Resonance Theory network —— 简称ART网络。
  • 自组织硬核网络 Self-Organizing Map network —— 简称SOM网络。
  • 级联相关网络 —— 其是结构自适应网络的代表,将网络结构也当作学习的目标之一。
  • 递归神经网络 —— 允许网络中出现环形结构,从而可让一些神经元的输出反馈回来作为下一时刻的输入信号。
  • Elman 网络 —— 最常用的递归神经网络之一。
  • 玻尔兹曼机 Boltzmann mechine —— 为网络定义一个能量函数,最小化时网络达到理想状态。
第六章 支持向量机
  • 支持向量 support vector —— 离划分超平面最近的向量
  • 间隔 margin —— 异类支持向量的距离
  • 核函数 —— 由于映射后的特征空间维数很高甚至无穷,定义k(x,y)=ϕ(x)Tϕ(y)k(x,y)=\phi(x)^T\phi(y)k(x,y)=ϕ(x)Tϕ(y)为核函数,表示特征空间向量的内积。
  • 软间隔 soft margin —— 在最大化间隔的同时,允许某些样本不满足约束。
  • 核方法 kernel methods —— 基于核函数的方法。
第七章 贝叶斯分类器
  • 条件风险 conditional risk—— 定义条件风险R(ci∣x)=∑jλijP(cj∣x)R(c_i|x)=\sum_{j}\lambda_{ij}P(c_j|x)Rcix=jλijP(cjx),其中λij\lambda_{ij}λij表示将真实标记为cjc_jcj错分为cic_ici的损失。
  • 贝叶斯最优分类器 Bayes optimal classifier —— h∗(x)=argmincR(c∣x)h^*(x)=argmin_c \; R(c|x)h(x)=argmincR(cx)
  • 贝叶斯风险 Bayes risk —— mincR(c∣x)min_c R(c|x)mincR(cx), 1−mincR(c∣x)1-min_c R(c|x)1mincR(cx)表示了机器学习所能产生模型精度的理论上限。
  • 判别式模型 discriminative model —— 给定x,直接建模P(c|x)
  • 生成式模型 generative model —— 给定x, 先建模P(x,c),再得到P(c|x)
  • 频率主义学派 Frequentist —— 认为参数虽然位置,但却是客观存在的固定值。
  • 贝叶斯学派 Bayesian —— 参数本身也有分布
  • 极大似然估计 Maximum Likelihood Estimation —— max∏x∈DcP(x∣θc)max \prod_{x\in D_c}P(x|\theta_c)maxxDcP(xθc)
  • 朴素贝叶斯分类器 naice Bayes classifier —— 假设所有属性相互独立。
  • 半朴素贝叶斯分类器 semi-naive Bayes classfier —— 适当考虑一部分属性间的依赖关系
  • 独依赖估计 One-Dependent Estimator —— 假设每个属性在类别之外最多仅依赖于一个其他属性
  • 贝叶斯网 Bayesian network/信念网 belief network —— 用有向无环图描述属性之间的依赖关系。
  • 最小描述长度 minimal description length —— 为了找到贝叶斯网络的最优结构,定义了最小描述长度
    S(B∣D)=f(θ)∣B∣−LL(B∣D)S(B|D)=f(\theta)|B|-LL(B|D)S(BD)=f(θ)BLL(BD)
    其中∣B∣|B|B表示贝叶斯网络的参数,f(θ)f(\theta)f(θ)表示每个参数所需字节数,−LL(B∣D)=∑logPB(xi)-LL(B|D)=\sum logP_B(x_i)LL(BD)=logPB(xi)为对数似然,也表示概率分布PBP_BPB需要多少字节来描述D。
  • 隐变量 latent variaable —— 未观测的变量
  • 期望最大化算法 Expectation-Maximization —— 简称EM。常用的估计隐变量的方法,包括两步:1,利用当前参数值来计算隐变量分布,进而计算对数似然期望。 2,重新确定参数使对数似然期望最大化。不断迭代直至收敛。
第八章 集成学习
  • 集成学习 ensemble learning —— 构建并结合多个学习器完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等
  • 同质 homogeneous —— 集成中只包含同种类型的个体学习器
  • 基学习器 base learner —— 同质集成中的个体学习器
  • 异质 heterogenous —— 集成中包含不同类型的个体学习器
  • 组件学习器 componet learner —— 异质集成中的个体学习器
  • 弱学习器 weak learner —— 泛化性能略优于随机猜测的学习器
  • Boosting —— 先从初始训练集训练初一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前做错的训练样本受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此直到学习器数目达到指定值,最终将所有学习器进行加权结合。
  • Bagging —— 通过自助采样得到T个含m个样本的采样集,基于每个采样集训练出一个基学习器再结合。
  • 包外估计 Out-of-Bag Estimate —— 对每个个体学习器hth_{t}ht而言,有36.8%的样本没有用来训练,称为该学习器的包外估计样本.对每个样本xxx选择xxx属于包外估计样本的那些基学习器做预测。
  • 随机森林 Random Forest —— 简称RF。RF在以决策树位基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。在RF中,对基决策树的每个节点,先从该节点的属性集合中随机选择一个包含k个属性的子集,再从这个子集中选择一个最优属性用于划分。
  • 元学习器 meta-learner —— 用于结合各个体学习器结果的学习器
第九章 聚类
  • 簇 cluster —— 聚类产生的子集。
  • 簇标记 cluster label —— 每个样本聚类的结果。
  • 外部指标 external index —— 将聚类结果与某个参考模型进行比较
  • 内部指标 internal index —— 直接考察聚类结果
  • 闵可夫斯基距离 Minkowski distance —— distmk(xi,xj)=(∑u=1∣xiu−xju∣p)1pdist_{mk}(x_i,x_j)=(\sum_{u=1}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}distmk(xi,xj)=(u=1xiuxjup)p1
  • 有序属性 ordinal attribute —— 可以计算距离的属性
  • k均值 k-means —— min∑i∑x∈Ci∥x−μi∥22min \sum_{i}\sum_{x\in C_i}\|x-\mu_i\|_2^2minixCixμi22
  • 学习向量量化 learning vector quantization —— 假设样本带标记。要学得一组原型向量能表示全部样本,实现有损压缩。先初始化原型向量,然后每轮迭代中随机选取一个有标记的训练样本,找出与其距离最近的原型向量,如果两者标记相同则更新原型向量减小距离,反之增大距离。
  • 高斯混合聚类 —— 假设模型的采样服从高斯混合分布:
    PM(x)=∑iαi⋅p(x∣μi,Θ)P_M(x)=\sum_i\alpha_i\cdot p(x|\mu_i,\Theta)PM(x)=iαip(xμi,Θ)
    利用EM算法求参数αi\alpha_iαi 均值μi\mu_iμi,协方差矩阵Θi\Theta_iΘi
  • 密度聚类 —— 从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断拓展簇。
  • 层次聚类 —— 在不同层次对数据集进行划分,从而形成树形的聚类结构。比如先将每个样本看成一个簇,然后再每一步中找出距离最近的两个簇合并,不断迭代直到达到预设的聚类簇个数。
第十章 降维与度量学习
  • k近邻 k-Nearest Neighbor —— 简称 kNN。给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,基于这k个邻居预测。
  • 懒惰学习 lazy learning —— 训练阶段仅把样本保存起来,训练开销为零
  • 急切学习eager learning —— 在训练阶段就对样本进行学习处理
  • 密采样 dense sample
  • 维数灾难 curse of dimensionality —— 高维情形下出现的问题,如数据样本稀疏、距离计算等。
  • 子空间 subspace
  • 多维缩放 Multiple Dimensional Scaling —— 简称 MDS ,要求原始空间中样本之间的距离在低维空间中得以保持。
  • 线性降维 —— 满足Z=WTXZ=W^TXZ=WTX,其中W一般为正交矩阵
  • 超平面 —— n维线性空间中维度为n-1的子空间。它可以把线性空间分割成不相交的两部分
  • 主成分分析 Principal Component Analysis —— 简称PCA。可分别从最小化重构误差(欧式距离)和最大化投影后方差推导
  • 本真低维空间 intrinsic space —— 真实的低维空间
  • 核主成分分析 kernelized PCA —— 简称KPCA。
  • 流行学习 manifold learning —— 前提假设某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。流行在全局上不是欧式空间,但局部上可看成欧式空间。
  • 等度量映射 Isometric Mapping —— 核心思想是保持近邻样本之间的距离。 先用 Dijkstra 算法或Floyd算法计算训练样本中任意两点的最短距离(为了保持局部欧式空间的性质,假设k近邻在图上有连接,剩下的在图上无连接),通过MDS获得训练样本的低维坐标。对于测试数据,训练一个回归学习器获得其低维坐标。
  • 局部线性嵌入 Locally Linear Embedding —— 核心思想是保持邻域样本之间的线性关系。
  • 度量学习 metric learning —— 在原数据空间直接学习一个距离度量。
  • 马氏距离 Mahalanobis distance —— distmah2(xi,xj)=(xi−xj)TM(xi−xj)=∥PTxi−PTxj∥22dist_{mah}^2(x_i,x_j)=(x_i - x_j)^TM(x_i - x_j)=\|P^Tx_i-P^Tx_j \|^2_2distmah2(xi,xj)=(xixj)TM(xixj)=PTxiPTxj22,其中M=PTPM=P^TPM=PTP是个半正定对称矩阵。
  • 近邻成分分析 Neighbourhood Component Analysis —— 简称NCA。在这个近邻分类器中以距离的远近衡量同一类的概率。NCA的优化目标为:
    min⁡P1−∑i∑j∈Ωiexp(−distmah(xi,xj))∑l∈Φiexp(−distmah(xi,xl))\min_{P}\quad 1-\sum_{i}\sum_{j\in\Omega_i}\frac{exp(-dist_{mah}(x_i,x_j))}{\sum_{l\in\Phi_i}exp(-dist_{mah}(x_i,x_l))}Pmin1ijΩilΦiexp(distmah(xi,xl))exp(distmah(xi,xj))
    其中Φi\Phi_iΦi表示与xix_ixi的k近邻样本集合,Ωi\Omega_iΩi表示与xix_ixi的k近邻且属于同一类的样本集合。
    另一种优化目标希望同类样本距离尽可能近,异类样本距离尽可能远:
    min⁡M∑(xi,xj)∈Adistmah(xi,xj)\min_{M}\quad \sum_{(x_i,x_j)\in\Alpha} dist_{mah}(x_i,x_j)Mmin(xi,xj)Adistmah(xi,xj)
    s.t.∑(xi,xk)∈Bdistmah(xi,xk)≥1s.t. \sum_{(x_i,x_k)\in\Beta} dist_{mah}(x_i,x_k)\ge1s.t.(xi,xk)Bdistmah(xi,xk)1
    MishalfPositiveDefiniteM\;is \;half \;Positive\;DefiniteMishalfPositiveDefinite
第十一章 特征选择与稀疏学习
  • 子集搜索 subset search —— 给定特征集合,从仅含一个元素的子集开始,确定最优子集,下一轮在前一轮的最优子集上增加一个集合。
  • 子集评价 subset evaluation —— 对于离散属性子集A,根据其信息增益来判断A的重要性。
  • Relief 过滤式特征选择 —— 对特征的第j个分量计算其重要性:
    σj=∑i(−diff(xij,xi,nhj)+∑l≠k(pl×diff(xij,xi,l,nmj)))\sigma^j=\sum_{i}(-diff(x_i^j,x_{i,nh}^j)+\sum_{l\neq k}(p_l\times diff(x_i^j,x_{i,l,nm}^j)))σj=i(diff(xij,xi,nhj)+l=k(pl×diff(xij,xi,l,nmj)))
    其中xix_ixi表示第iii个训练样本,xi,nhx_{i,nh}xi,nh表示离xix_ixi同属第kkk类且最近的样本,xi,l,mhx_{i,l,mh}xi,l,mh表示属于第lll类且离xix_ixi最近的样本,plp_lpl表示第lll类样本的占比。
  • LVW 包裹式特征选择 —— 随机产生特征子集,交叉验证,选择错误率最小的特征子集。
  • 嵌入式特征选择 —— 对特征向量应用稀疏表示
  • 字典学习 dictionary learning —— 最简单的形式为
    min⁡B,αi∑i∥xi−Bαi∥22+λ∑i∥αi∥1\min_{\Beta,\alpha_i}\quad \sum_{i}\|x_i-\Beta\alpha_i\|^2_2+\lambda \sum_{i}\|\alpha_i\|_1B,αiminixiBαi22+λiαi1
    可交叉求解
  • 奈奎斯特采样定理 —— 采样频率达到模拟信号最高频率的两倍,则采样后的数字信号保留了模拟信号的全部信息
第十二章 计算学习理论
  • 不合 disagreement —— 用来度量两个映射之间的差别:
    d(h1,h2)=Px∼D(h1(x)≠h2(x))d(h_1,h_2)=P_{x\sim D}(h_1(x)\neq h_2(x))d(h1,h2)=PxD(h1(x)=h2(x))
  • Jensen 不等式 —— 对于任意凸函数,有:
    f(E(x))≤E(f(x))f(E(x))\le E(f(x))f(E(x))E(f(x))
  • Hoeffding 不等式 —— 若x1,x2,⋯,xmx_1,x_2,\cdots,x_mx1,x2,,xm为m个独立随机变量且满足0≤xi≤10\le x_i \le 10xi1,则∀ϵ≥0\forall \epsilon \ge 0ϵ0,有:
    P(1m∑xi−1m∑E(xi)≥ϵ)≤exp(−2mϵ2)P(\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\ge \epsilon) \le exp(-2m\epsilon^2)P(m1xim1E(xi)ϵ)exp(2mϵ2)
    P(∥1m∑xi−1m∑E(xi)∥≥ϵ)≤2exp(−2mϵ2)P(\|\frac{1}{m}\sum x_i -\frac{1}{m}\sum E(x_i)\|\ge \epsilon) \le 2exp(-2m\epsilon^2)P(m1xim1E(xi)ϵ)2exp(2mϵ2)
  • McDiarmid 不等式 —— 若x1,x2,⋯,xmx_1,x_2,\cdots,x_mx1,x2,,xm为m个独立随机变量, 且函数f满足:
    sup⁡∣f(x1,x2,⋯,xm)−f(x1,⋯,xi−1,xi,,xi+1,⋯,xm)∣≤ci\sup |f(x_1,x_2,\cdots,x_m)-f(x_1,\cdots,x_{i-1},x_i^,,x_{i+1},\cdots,x_m)|\le c_isupf(x1,x2,,xm)f(x1,,xi1,xi,,xi+1,,xm)ci
    则:
    P(f(x1,x2,⋯,xm)−E(f(x1,x2,⋯,xm))≥ϵ)≤exp(−2ϵ2∑ci2)P(f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))\ge \epsilon)\le exp(\frac{-2\epsilon^2}{\sum c_i^2})P(f(x1,x2,,xm)E(f(x1,x2,,xm))ϵ)exp(ci22ϵ2)
    P(∣f(x1,x2,⋯,xm)−E(f(x1,x2,⋯,xm))∣≥ϵ)≤2exp(−2ϵ2∑ci2)P(|f(x_1,x_2,\cdots,x_m)-E(f(x_1,x_2,\cdots,x_m))|\ge \epsilon)\le 2exp(\frac{-2\epsilon^2}{\sum c_i^2})P(f(x1,x2,,xm)E(f(x1,x2,,xm))ϵ)2exp(ci22ϵ2)
  • 概念类 concept class —— 输入到输出的目标映射的集合
  • 假设空间 hypothesis space —— 算法自认为可能的目标概念的集合。
  • 可分 separable/一致 consistent —— 假设空间中存在目标概念。
  • 概率近似正确 Probably Approximately Correct —— 简称PAC。希望算法学得的假设尽可能接近目标概念。因为机器学习过程受很多因素制约,学习结果有偶然性。所以希望以较大的概率学得误差满足预设上限的模型。
  • PAC辨识(PAC Identify)—— 对0<ϵ,σ<10<\epsilon,\sigma<10<ϵ,σ<1,满足
    P(E(h)≤ϵ)≥1−σP(E(h)\le\epsilon)\ge 1-\sigmaP(E(h)ϵ)1σ
    则称算法能以至少(1−σ1-\sigma1σ)的概率学得与目标概念误差不超过ϵ\epsilonϵ的近似。
  • 增长函数 growth function —— 表示假设空间对m个实例所能赋予标记的最大可能结果数,描述了假设空间的表示能力。

\TODO

第十三章 半监督学习
第十四章 概率图模型
第十五章 规则学习
第十六章 强化学习

【机器学习】西瓜书一些关键词相关推荐

  1. 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归

    本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...

  2. 小白学机器学习西瓜书-第三章对数几率回归

    小白学机器学习西瓜书-第三章对数几率回归 3.3 对数几率回归 3.3.1 对数几率函数 3.3.1 估计参数 上一部分我们介绍了线性回归,包括简单的二元回归和多元回归,这两个主要解决的是拟合预测的问 ...

  3. 机器学习西瓜书(周志华)第七章 贝叶斯分类器

    第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...

  4. 机器学习西瓜书-1-2章

    学习目标: 概览机器学习西瓜书 1.2章 学习内容: 第一章 绪论 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程 第二章 模型评估与选择 2.1 经验误差与过拟合 2.2 评 ...

  5. 机器学习西瓜书南瓜书 神经网络

    机器学习西瓜书&南瓜书 神经网络 1. 神经元模型 神经网络:由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实事件物体所做出的交互反应. 神经网络最基本的成分 ...

  6. 机器学习-西瓜书、南瓜书第三章

    线性模型 基本形式 一.线性回归 回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**"欧氏距离",最小二乘法就是基于均方误差进行模型求解的. 求 ...

  7. 机器学习-西瓜书第一、二章

    第一章:绪论 基本概念 数据集:所有数据的集合 训练集:训练样本的集合 属性(特征):某事物或对象在某方面表现的性质 属性值:属性的取值 属性空间/样本空间/输入空间:属性张成的空间 泛化能力:学得模 ...

  8. 【吃瓜教程】周志华机器学习西瓜书第三章答案

    线性模型结构梳理 3.1 试析在什么情形下式3.2中不必考虑偏置项b 答案一: 偏置项b在数值上代表了自变量取0时,因变量的取值: 1.当讨论变量x对结果y的影响,不用考虑b: 2.可以用变量归一化( ...

  9. 机器学习西瓜书学习——绪论

    在我们日常生活中,我们有时候会根据自己的生活经验,对即将发生的事进行预估.当我们有了足够多的经验,我们就可以对一些情况做出有效的决策.比如说"朝霞不出门 晚霞行千里",就是根据我们 ...

  10. [机器学习]西瓜书南瓜书学习(更新中)

    B站网课学习视频 南瓜书datawhale开源内容 南瓜书github开源内容 什么是机器学习 概念介绍 人工智能:让机器变得像人一样拥有智能的学科 机器学习:让计算机像人一样能从数据中学习出规律的一 ...

最新文章

  1. 网站载入太慢直接影响用户访问体验,该如何优化?
  2. python计算3j系数_python数值基础知识浅析
  3. UNIX再学习 -- 静态库与共享库
  4. 基于NEO的私链(Private Blockchain)
  5. Spring Cloud原理
  6. WinCE的开发流程
  7. 985硕士面试20场全被拒,被竞争困住的数据分析人,太难了
  8. rust笔记2 OwnerShip基础概念
  9. 【mybatis】mybatis使用java实体中定义的常量,或静态方法
  10. PHP在微博优化中的“大显身手”
  11. 打不开gitHub的解决方法
  12. Python vs Cpython
  13. .xyz文件_Orca.xyz:除了银行系统瑞士还有同样安全的数字保险箱
  14. 基于BERT的ASR纠错
  15. VS建立Web网站 20141201
  16. 6.docker images
  17. CMPP3.0-超长短信
  18. cad卸载不干净_Adobe系列软件总是卸载不干净?试试这个Adobe卸载工具
  19. java取万位的值,Excel中表格数值进行取万位整数的操作方法
  20. html邮件 自定义变量,CSS3中的自定义变量样式用法

热门文章

  1. iOS 最完整小说阅读器Demo
  2. linux搭建ssh服务器,并用xshell远程连接
  3. 设备指纹之安全性详解
  4. ARouter 源码解析(零) 基本使用
  5. 前端能获取用户网速吗_js实现的非常简单的网速测试方法
  6. 验证哥德巴赫猜想:任何一个大于等于6的偶数均可表示为两个素数的和。如6=3+3,8=3+5,,18=5+13。试编写程序,要求将输入的一个偶数表示成两个素数之和。 输入输出样例如下:
  7. 金蝶EAS DEP脚本(1)—— 基本概念
  8. 买了服务器,自己怎么搭建网站?操作步骤
  9. php实现的几种基本算法
  10. 华为云桌面,数字化时代便捷、安全的办公选择