2020 华为杯数模 B题数据挖掘

B题是一道数据挖掘题目
主要难点是：题目样本较小，但是样本的维度又很大，需要分析的目标与数据之间的关系不明显

解决这个题目应该注重以下几方面
1、审题，对题目的要求一定要看清楚，特别是对提供的数据一定要仔细查看，最好用一些常规方法检验以下数据的分布情况
2、降维之前要把数据处理做好，数据处理很重要
3、建模之前要把降维做好，降维做得对，模型才好用
4、所以从难度上来说数据处理小于数据降维小于模型调整，但是从重要性上来水数据处理大于数据降维大于模型调整，一般人很难做出新的模型去针对这个问题，所以在模型层面大家都一样，但是在降维方面由于大家选择的方法不一样，可能效果就不一样，数据处理更是看每个人的仔细程度和经验积累了。

接下来总价以下数据挖掘流程中，每个步骤的方法

数据预处理

缺失值：
空值，超过取值范围的值

缺失值的处理：
当缺失值占比过高，可以直接删除此类值
当缺失值占比较低，可以考虑用均值填充，或者临近值填充

离群值：
简单统计分析：根据箱线图、各分位点判断是否存在异常，例如pandas的describe函数可以快速发现异常值
3西格玛原则
基于密度：离群点的局部密度显著低于大部分近邻点，适用于非均匀的数据集
基于聚类：利用聚类算法，丢弃远离其他簇的小簇
基于距离：通过定义对象之间的临近性度量，根据距离判断异常对象是否远离其他对象，缺点是计算复杂度较高，不适用于大数据集和存在不同密度区域的数据集

离群值处理：
根据异常点的数量和影响，考虑是否将该条记录删除，信息损失多
若对数据做了log-scale 对数变换后消除了异常值，则此方法生效，且不损失信息
平均值或中位数替代异常点，简单高效，信息的损失较少
在训练树模型时，树模型对离群点的鲁棒性较高，无信息损失，不影响模型训练效果

噪声：
噪声是变量的随机误差和方差，是观测点和真实点之间的误差。
噪声处理：
分箱操作，就是将数据分成很多小组，用每个小组数据的均值或者中值之类的值取代小组内所有值
回归法：先建立一个拟合方程，然后重新预测这些数据，可以把噪声去掉，前提是这一类数据很容易被拟合。

数据归一化

数据归一化的目标：
让数据无量纲化，这样数据就可以比较。
提高一些算法精度，特别是当算法中使用到“距离”这个概念
提高计算机运算精度

数据归一化方法：
极值归一化：
让数据落在 0 -1 范围内。
但是极值归一化的问题在于当出现新的数据，极值可能会改变。
对于离群值比较敏感。
数据被比例放缩。

Zscore方法：

当数据符合正态分布时比较合适，不受离群值影响，对于新数据也不敏感。

数据降维

PCA方法

对数据做协方差计算，获得协方差矩阵，再对协方差矩阵进行SVD分解，取SVD分解中比较大的特征值对应的特征向量组成转换矩阵，这个转化矩阵与原来的高维矩阵相乘可以获得一个低维的矩阵，也就实现了降维。这个方法的优点在于可以通过选择特征向量的数目来保留不同程度的信息量，而且一般降维程度比较大。降维之后的数据也容易恢复成原来的数据，这个方法的本质是矩阵论里面的svd分解。但是这个方法不适用于特征选取，因为特征已经被融合了。这方法还可以从空间基的角度来理解。
协方差计算公式：

这个方法还有很多变种解决各种问题，比如IPCA增益用来处理超级高维数据的加速计算（本质上是分块并行计算），核PCA处理非线性关系值得好好研究

LDA方法

有监督学习，将数据降维到低维之后尽量可分，原理再说。。。
在分类问题中应该尝试使用LDA

逐步线性回归方法

有前向因子选择和后向因子选择，本质就是先用二元函数拟合然后计算统计量F，根据查表如果F显著，则保留该因子
基于自变量与因变量是线性关系的假设

互信息方法

互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。

随机森林方法

很强

建模

回归模型

SVM模型

BP模型

线性模型

分类模型

SVM模型

树模型

logistic模型

智能优化算法