样本选择

选择最少量的训练集S⊂\sub⊂完整训练集T，模型效果不会变差。

优势：

缩减模型计算时间
相关性太低的数据对解决问题没有帮助，直接剔除
去除噪声

数据去噪

噪声数据

特征值不对（缺失、超出值域范围），可能提升模型健壮性
标注不对，降低数据质量。

处理方法

基于融合或者投票的思想

集成过滤法Ensemble Filter
交叉验证委员会过滤法Cross-Validated Committees Filter
迭代分割过滤法Iterative-Partitioning Filter

基于业务本身

清洗爬虫数据
过滤掉无效曝光
过滤掉最后一次点击之后的展示（用户可能没看到）

采样

优点

克服高维特征以及大量数据导致的问题，缩短时间
在不平衡分类问题中帮助平衡样本比例

计算样本大小

P(∣e−e0∣≥ϵ)≤δP(|e-e_0|\geq\epsilon) \leq \deltaP(∣e−e0∣≥ϵ)≤δ

e代表样本的估计，通常是样本大小n的函数。

e0e_0e0代表真实样本，一般未知

采样方法

目标：无偏性Unbiasedness + 小样本方差 Sampling Variance

无放回简单随机抽样
有放回简单随机抽样
平衡采样
整群采样
分层采样

原型选择和悬链及选择

原型选择

在样本选择过程中不需要训练模型，只选取相似度指标来找到分类精度和数据量最佳的训练集，多采用KNN算法。

训练集

构建预测模型来进行样本选择的方法，比如决策树和SVM等算法。

验证

留出法

概念：

随机划分成两份互斥的数据集。

优点：

时间序列数据可用早一些的数据做训练集，晚一些的做测试集

缺点：

不能充分利用数据训练模型
划分结果严重影响最终结果

解决方案：

多次留出，将多次得到的实验结论进行平均

K折交叉验证

概念：

平均分成K份，每次用一份数据测试，其余数据训练。K=N时，就是留一法Leave One Out (LOO)。还有一种变体是分层K折，适用于不均衡分类问题。

优点：

数据利用率高

缺点：

稳定性和K取值有关。太小则稳定性偏低，太大则实验成本搞。

自助法 Bootstrapping

概念：

自主采样，有放回的重复采样，构建n条样本的训练集。一些样本在训练集重复出现，另一些没有出现的作为测试集。适用于数据量比较小。

每条样本没被采到的概率P0=1−1nP_0 = 1 - \frac{1}{n}P0=1−n1，经过n次采样还没有采到的概率是limn−>+∞(1−1n)n=e−1=0.368lim_{n->+\infty}(1-\frac{1}{n})^n = e^{-1} = 0.368limn−>+∞(1−n1)n=e−1=0.368

优点：

解决了其他采样得到的模型会因为训练集大小不一致产生一定偏差的问题

缺点：

改变了初始数据集分布，引入估计偏差

Reference

《美团机器学习实践》by美团算法团队，第一章
《机器学习》by周志华，第二章

机器学习基础专题：样本选择相关推荐

机器学习基础专题：特征工程
特征工程特征提取将原始数据转化为实向量之后,为了让模型更好地学习规律,对特征做进一步的变换.首先,要理解业务数据和业务逻辑. 其次,要理解模型和算法,清楚模型需要什么样的输入才能有精确的结果. 探 ...
机器学习基础专题：线性回归
线性回归原理输入训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M,y_M)}D=(x1,y1)...(xM,yM),xi∈X⊆Rpx_i \ ...
机器学习基础专题：逻辑回归
逻辑回归广义线性模型. 原理输入训练集数据T=(x1,y1)...(xM,yM)T = {(x_1,y_1) ... (x_M,y_M)}T=(x1,y1)...(xM,yM),xi∈X ...
机器学习基础专题：感知机
感知机原理思想是错误驱动.一开始赋予w一个初始值,通过计算被错误分类的样本不断移动分类边界. 输入训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M, ...
机器学习基础专题：分类
线性分类分类方式硬分类使用的是非概率模型,分类结果是决策函数的决策结果. 代表:线性判别分析.感知机软分类分类结果是属于不同类别的概率. 生成式通过贝叶斯定理,使用MAP比较P(Y=0∣X ...
机器学习基础专题：评估指标
评估指标线下使用机器学习评估指标,线上使用的是业务指标.需要进行多轮模型迭代使两个指标变化趋势相同. 分类指标精确率和召回率用于二分类问题,结合混淆矩阵. 精确率 P = TPTP+FP\fra ...
机器学习基础专题：高斯混合模型和最大期望EM算法以及代码实现
高斯混合模型混合模型是潜变量模型的一种,是最常见的形式之一.而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种.zzz代表该数据点是由某一个高斯分布产 ...
机器学习基础专题：随机变量
术语样本空间(sample space):Ω\OmegaΩ,包含了所有可能出现的结果的集合.比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示. 事件集(event space): FF ...
机器学习基础专题：主成分分析技术PCA
主成分分析技术全称是Principal component analysis (PCA).将原始数据从p个特征维度降低到d个维度. 原理对原始特征空间进行重构.需要最大投影方差,尽可能保留数据在原 ...

机器学习基础专题：样本选择