特征工程

特征工程就是一个从原始数据提取特征的过程，这些特征可以很好地描述这些数据，并且利用它们建立的模型在未知数据上的性能可以达到最优，最大限度减少“垃圾进，垃圾出”。特征提取得越有效，意味着构建的模型性能越出色。

特征工程主要包括特征构造（Feature construction）、 特征选择（Feature Selection）、 特征提取（ Feature Extraction）

特征构造

特征构建指的是从原始数据中构建新的特征，在实际应用中需要手工构建。首先研究真实的数据样本，思考问题的形式和数据结构，如何更好地应用到预测模型中。

特征构建需要很强的洞察力和分析能力，要求能够从原始数据中找出一些具有物理意义的特征。如果原始数据是表格数据，一般使用混合属性或者组合属性来创建新的特征，或是分解、切分原有的特征来创建新的特征。

特征生成前的原始数据可以分单列变量、多列变量、多行样本（时间序列）等三种情况。

特征选择

特征选择的目的是从特征集合中挑选一组最具统计意义的特征子集，从而达到降维的效果。在实际应用中，常用的方法是用一些评价指标单独地计算出单个特征跟类别变量之间的关系。如Pearson相关系数、基尼指数（Gini-index）、信息增益（Information Gain）等。

特征子集选择的方法属于筛选器（iter）方法，它主要例重于单个特征跟目标变量的相关性。优点是计算时间上较商效，对于过拟合问题也具有较高的鲁棒性。缺点就是倾向于选择冗余的特征，因为他们不当虑特征之间的相关性有可能某个特征的分类能力很差，但是它和某些其它特征组合起来会得到不错的效果。

特征子集选取的方法还有封装器（wrapper）和集成方法（Embeded）。

封装器方法实质上是一个分类器，封装器用选取的特征子集对样本集进行分类，分类的精度作为衡量特征子集好坏的标准，经过比较选出最好的特征子集。常用的有逐步回归（Stepwise regression）、向前选择（Forward selection）和向后选择（Backward selection）。它的优点是考虑了特征与特征之间的关联性，缺点是当观测数据较少时容易过拟合，当特征数量较多时，计算时间会较长。

对于集成方法，它是学习器自身自主选择特征，如使用Regularization 做特征选择，或者使用决策树思想，例如应用随机森林和Gradient boosting做特征选择，本质上都是基于决策树的特征选择，只是细节上有些区别。

特征提取

特征提取目的是自动地构建新的特征，将原始数据转换为一组具有明显统计意义的核心特征。例如通过变换特征取值来减少原始数据中某个特征的取值个数等，或者减少特征的数量，只选择关键特征。对于表格数据，可以在特征矩阵上使用主成分分析来进行特征提取。

常用的特征提取方法有
主成分分析（PCA）
独立成分分析（Independent component analysis， ICA）
线性判别分析（LDS）

模拟训练

模型训练常见术语
A/B测试（AB testing）
基准（baseline）
批次（batch）
批次规模（batch size）是训练过程中一个批次中的样本的数量
周期（epoch）
检查点（checkpoint）
收敛（convergence）
凸函数（convex function）
决策边界（decision boundary）
泛化（generalization）
梯度下降（gradient descent）

训练数据收集方法

从专业数据公司购买
免费的公开数据
系统生成、人工标注和交换

机器学习——特征工程相关推荐

机器学习特征工程之连续变量离散化：聚类法进行分箱
机器学习特征工程之连续变量离散化:聚类法进行分箱离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...
机器学习特征工程之连续变量离散化：等频分箱
机器学习特征工程之连续变量离散化:等频分箱离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
机器学习特征工程之连续变量离散化：连续变量二值化（Binarizer）
机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...
机器学习特征工程之连续变量离散化：等宽分箱
机器学习特征工程之连续变量离散化:等宽分箱离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
机器学习特征工程之特征缩放+无量纲化：数据标准化（StandardScaler）
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
机器学习特征工程之特征缩放+无量纲化：最小最大缩放（MinMaxScaler）
机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...
机器学习特征工程之特征缩放+无量纲化：最大绝对值缩放（MaxAbsScaler）
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
双样本T检验——机器学习特征工程相关性分析实战
最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...
机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
机器学习-特征工程中的特征选择
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

机器学习——特征工程