样本选择

选择最少量的训练集S⊂\sub⊂完整训练集T,模型效果不会变差。

优势:

  • 缩减模型计算时间
  • 相关性太低的数据对解决问题没有帮助,直接剔除
  • 去除噪声

数据去噪

噪声数据

  1. 特征值不对(缺失、超出值域范围),可能提升模型健壮性
  2. 标注不对,降低数据质量。

处理方法

基于融合或者投票的思想

  1. 集成过滤法Ensemble Filter
  2. 交叉验证委员会过滤法Cross-Validated Committees Filter
  3. 迭代分割过滤法Iterative-Partitioning Filter

基于业务本身

  1. 清洗爬虫数据
  2. 过滤掉无效曝光
  3. 过滤掉最后一次点击之后的展示(用户可能没看到)

采样

优点

  • 克服高维特征以及大量数据导致的问题,缩短时间
  • 在不平衡分类问题中帮助平衡样本比例

计算样本大小

P(∣e−e0∣≥ϵ)≤δP(|e-e_0|\geq\epsilon) \leq \deltaP(∣e−e0​∣≥ϵ)≤δ

e代表样本的估计,通常是样本大小n的函数。

e0e_0e0​代表真实样本,一般未知

采样方法

目标:无偏性Unbiasedness + 小样本方差 Sampling Variance

  1. 无放回简单随机抽样
  2. 有放回简单随机抽样
  3. 平衡采样
  4. 整群采样
  5. 分层采样

原型选择和悬链及选择

原型选择

在样本选择过程中不需要训练模型,只选取相似度指标来找到分类精度和数据量最佳的训练集,多采用KNN算法。

训练集

构建预测模型来进行样本选择的方法,比如决策树和SVM等算法。

验证

留出法

概念:

随机划分成两份互斥的数据集。

优点:

  • 时间序列数据可用早一些的数据做训练集,晚一些的做测试集

缺点:

  • 不能充分利用数据训练模型
  • 划分结果严重影响最终结果

解决方案:

  • 多次留出,将多次得到的实验结论进行平均

K折交叉验证

概念:

平均分成K份,每次用一份数据测试,其余数据训练。K=N时,就是留一法Leave One Out (LOO)。还有一种变体是分层K折,适用于不均衡分类问题。

优点:

  • 数据利用率高

缺点:

  • 稳定性和K取值有关。太小则稳定性偏低,太大则实验成本搞。

自助法 Bootstrapping

概念:

自主采样,有放回的重复采样,构建n条样本的训练集。一些样本在训练集重复出现,另一些没有出现的作为测试集。适用于数据量比较小。

每条样本没被采到的概率P0=1−1nP_0 = 1 - \frac{1}{n}P0​=1−n1​,经过n次采样还没有采到的概率是limn−>+∞(1−1n)n=e−1=0.368lim_{n->+\infty}(1-\frac{1}{n})^n = e^{-1} = 0.368limn−>+∞​(1−n1​)n=e−1=0.368

优点:

  • 解决了其他采样得到的模型会因为训练集大小不一致产生一定偏差的问题

缺点:

  • 改变了初始数据集分布,引入估计偏差

Reference

  • 《美团机器学习实践》by美团算法团队,第一章
  • 《机器学习》by周志华,第二章

机器学习基础专题:样本选择相关推荐

  1. 机器学习基础专题:特征工程

    特征工程 特征提取 将原始数据转化为实向量之后,为了让模型更好地学习规律,对特征做进一步的变换.首先,要理解业务数据和业务逻辑. 其次,要理解模型和算法,清楚模型需要什么样的输入才能有精确的结果. 探 ...

  2. 机器学习基础专题:线性回归

    线性回归 原理 输入 训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M,y_M)}D=(x1​,y1​)...(xM​,yM​),xi∈X⊆Rpx_i \ ...

  3. 机器学习基础专题:逻辑回归

    逻辑回归 广义线性模型. 原理 输入 训练集数据T=(x1,y1)...(xM,yM)T = {(x_1,y_1) ... (x_M,y_M)}T=(x1​,y1​)...(xM​,yM​),xi∈X ...

  4. 机器学习基础专题:感知机

    感知机 原理 思想是错误驱动.一开始赋予w一个初始值,通过计算被错误分类的样本不断移动分类边界. 输入 训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M, ...

  5. 机器学习基础专题:分类

    线性分类 分类方式 硬分类 使用的是非概率模型,分类结果是决策函数的决策结果. 代表:线性判别分析.感知机 软分类 分类结果是属于不同类别的概率. 生成式 通过贝叶斯定理,使用MAP比较P(Y=0∣X ...

  6. 机器学习基础专题:评估指标

    评估指标 线下使用机器学习评估指标,线上使用的是业务指标.需要进行多轮模型迭代使两个指标变化趋势相同. 分类指标 精确率和召回率 用于二分类问题,结合混淆矩阵. 精确率 P = TPTP+FP\fra ...

  7. 机器学习基础专题:高斯混合模型和最大期望EM算法以及代码实现

    高斯混合模型 混合模型是潜变量模型的一种,是最常见的形式之一.而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种.zzz代表该数据点是由某一个高斯分布产 ...

  8. 机器学习基础专题:随机变量

    术语 样本空间(sample space):Ω\OmegaΩ,包含了所有可能出现的结果的集合.比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示. 事件集(event space): FF ...

  9. 机器学习基础专题:主成分分析技术PCA

    主成分分析技术 全称是Principal component analysis (PCA).将原始数据从p个特征维度降低到d个维度. 原理 对原始特征空间进行重构.需要最大投影方差,尽可能保留数据在原 ...

最新文章

  1. js计算两个时间之间天数差的实例代码
  2. Part7 继承与派生 7.4派生类的构造和析构
  3. 客户端如何连接oracle数据库,ORACLE的客户端如何连接到数据库(三)
  4. 使用 Boost 的 IPC 和 MPI 库进行并发编程
  5. DisplayUtils
  6. oracle里面的double,oracle建表语句double
  7. FastDFS原理系列文章
  8. 三菱f800变频器 频率设定_三菱F800变频器调试参数总结
  9. html+上下标+遇乘号无效,html中的特殊符号
  10. flash对联广告代码: 两边显示 不移动 可关闭
  11. 使用JavaScript创建模块化的双人对战象棋程序
  12. 用html计算长方形的面积公式,长方形面积公式是什么
  13. 顶级机构抄底科技股 中概股喜提大佬认可 投资者如何抄作业?
  14. 动手学深度学习笔记3.1+3.2+3.3
  15. python 爬取王者荣耀高清壁纸
  16. windows中如何给程序添加管理权限和添加数据保护(dep)
  17. MATLAB利用遗传算法求取最优解
  18. Radis 使用详细教程
  19. android沉浸式的实现
  20. java 手电筒_《SystemUI》限制低电量打开手电筒

热门文章

  1. [JS]计算字符串中出现最多的字符和其出现次数
  2. 远程桌面连接由于网络错误而丢失
  3. 实现DataGridView和DevExpress.GridControl表头全选功能
  4. 做专才能做强做大——从OA、协同之争说起
  5. 数据结构基础-Hash Table详解
  6. 二极管参数中英文对照表
  7. C# 删除文件错误 access denied
  8. 批处理命令学习笔记——Start命令
  9. WPF 浏览PDF 文件
  10. 循序渐进 OSPF的详细剖析(三)