B题是一道数据挖掘题目
主要难点是 :题目样本较小,但是样本的维度又很大,需要分析的目标与数据之间的关系不明显

解决这个题目应该注重以下几方面
1、审题,对题目的要求一定要看清楚,特别是对提供的数据一定要仔细查看,最好用一些常规方法检验以下数据的分布情况
2、降维之前要把数据处理做好,数据处理很重要
3、建模之前要把降维做好,降维做得对,模型才好用
4、所以从难度上来说数据处理小于数据降维小于模型调整,但是从重要性上来水数据处理大于数据降维大于模型调整,一般人很难做出新的模型去针对这个问题,所以在模型层面大家都一样,但是在降维方面由于大家选择的方法不一样,可能效果就不一样,数据处理更是看每个人的仔细程度和经验积累了。

接下来总价以下数据挖掘流程中,每个步骤的方法

数据预处理

缺失值:
空值,超过取值范围的值

缺失值的处理:
当缺失值占比过高,可以直接删除此类值
当缺失值占比较低,可以考虑用均值填充,或者临近值填充

离群值:
简单统计分析:根据箱线图、各分位点判断是否存在异常,例如pandas的describe函数可以快速发现异常值
3西格玛原则
基于密度:离群点的局部密度显著低于大部分近邻点,适用于非均匀的数据集
基于聚类:利用聚类算法,丢弃远离其他簇的小簇
基于距离:通过定义对象之间的临近性度量,根据距离判断异常对象是否远离其他对象,缺点是计算复杂度较高,不适用于大数据集和存在不同密度区域的数据集

离群值处理:
根据异常点的数量和影响,考虑是否将该条记录删除,信息损失多
若对数据做了log-scale 对数变换后消除了异常值,则此方法生效,且不损失信息
平均值或中位数替代异常点,简单高效,信息的损失较少
在训练树模型时,树模型对离群点的鲁棒性较高,无信息损失,不影响模型训练效果

噪声:
噪声是变量的随机误差和方差,是观测点和真实点之间的误差。
噪声处理:
分箱操作,就是将数据分成很多小组,用每个小组数据的均值或者中值之类的值取代小组内所有值
回归法:先建立一个拟合方程,然后重新预测这些数据,可以把噪声去掉,前提是这一类数据很容易被拟合。

数据归一化

数据归一化的目标:
让数据无量纲化,这样数据就可以比较。
提高一些算法精度,特别是当算法中使用到“距离”这个概念
提高计算机运算精度

数据归一化方法:
极值归一化:
让数据落在 0 -1 范围内。
但是极值归一化的问题在于当出现新的数据,极值可能会改变。
对于离群值比较敏感。
数据被比例放缩。

Zscore方法:

当数据符合正态分布时比较合适,不受离群值影响,对于新数据也不敏感。

数据降维

PCA方法

对数据做协方差计算,获得协方差矩阵,再对协方差矩阵进行SVD分解,取SVD分解中比较大的特征值对应的特征向量组成转换矩阵,这个转化矩阵与原来的高维矩阵相乘可以获得一个低维的矩阵,也就实现了降维。这个方法的优点在于可以通过选择特征向量的数目来保留不同程度的信息量,而且一般降维程度比较大。降维之后的数据也容易恢复成原来的数据,这个方法的本质是矩阵论里面的svd分解。但是这个方法不适用于特征选取,因为特征已经被融合了。这方法还可以从空间基的角度来理解。
协方差计算公式:

这个方法还有很多变种解决各种问题,比如IPCA增益 用来处理超级高维数据的加速计算(本质上是分块并行计算),核PCA处理非线性关系 值得好好研究

LDA方法

有监督学习,将数据降维到低维之后尽量可分,原理再说。。。
在分类问题中应该尝试使用LDA

逐步线性回归方法

有前向因子选择和后向因子选择,本质就是先用二元函数拟合然后计算统计量F,根据查表如果F显著,则保留该因子
基于自变量与因变量是线性关系的假设

互信息方法

互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。

随机森林方法

很强

建模

回归模型

SVM模型
BP模型
线性模型

分类模型

SVM模型
树模型
logistic模型

智能优化算法

2020 华为杯 数模 B题 数据挖掘相关推荐

  1. 2020第十七届华为杯数模C题——P300脑电信号数据预处理算法

    脑电信号数据预处理   这两天的数学建模选的C题,目标是要处理脑电P300信号的数据并进行相关预测任务.该题重点是数据预处理,因此根据最后实验的结果,分享相关的预处理方法以及源代码.长话短说,给出任务 ...

  2. 2021年华为杯数模赛D题总结

    2021年华为杯数模赛D题总结 题目: 题目太长(网上能找到完整题目),背景信息略过,这里把题目抽象一下: 已有条件: 给出了1974个训练样本和50个测试样本,每个样本有729个特征 每个训练样本有 ...

  3. 第十八届“华为杯”数模LaTeX模板送你!附官方优秀论文下载

    [写在最前面] LaTeX模板, 旨在让大家专注于论文的内容写作, 而不用花费过多精力在格式的定制和调整上.将格式用代码的形式固定,用户只需要填充内容即可.模板提供了一 些基本常用的环境和命令,方便用 ...

  4. 2020华为杯数学建模D题交流2群

    2020华为杯数学建模D题交流2群

  5. 2019.9.19年华为杯数模

    六月份,同老乡聊天聊到数模,抱着比赛加分的心态想要尝试一下,两人以前都没有任何数模经验,我连对应比较常用的软件都不清楚,只知道要用到matlab,巧了的是,自己也不会:可以说是真的数模零基础.第二步, ...

  6. 2019 高教社杯数模竞赛A题 高压油管的压力控制 题解

    2019 高教社杯数模竞赛A题 高压油管的压力控制 题解 问题一题解 分析 求解 求解微分方程 求解管内燃油密度变化 问题二题解 分析 求解 燃油的进入 燃油的喷出 模型的求解 问题三题解 分析 求解 ...

  7. 2020华为杯E题——基于灰色预测的大雾能见度预测模型(附代码)

    2020华为杯E题--基于灰色预测的大雾能见度预测模型(附代码) 一.E题赛题 二.赛题分析 三.基于灰色预测的大雾能见度预测模型 3.1灰色预测模型的定义 3.2 灰色预测模型的目的 GM(1,1) ...

  8. 2020华为杯数学建模比赛总结

    2020华为杯数学建模比赛总结 这次比赛我准备了一个月的时间,看了<神经网络43例>还有<matlab数据挖掘>这两本书,比赛想要速成的话,最好通过跑自己的数据集应用,最后结果 ...

  9. 2021华为杯数学建模B题“空气质量预报二次建模” 预处理思路+Python代码

    简介 前阵子和小伙伴做了2021年华为杯研赛的B题"空气质量预报二次建模",发现数据预处理一块挺有意思的,涵盖了常规的缺失值(随机缺失.指标缺失/列缺失.条目缺失/行缺失).异常值 ...

最新文章

  1. 文献记录(part36)--A survey on heterogeneous network representation learning
  2. 『操作系统』 进程的描述与控制 Part3 管程
  3. 存储知识:U盘的实际容量要比标注容量小,你知道原因吗?
  4. hadoop的序列化与java的序列化区别
  5. php 图片 byte数组,php – 将图像存储在PostgreSQL数据库的bytea字段中
  6. 信息学奥赛一本通(2030:【例4.16】找素数)
  7. ubuntu下安装、卸载软件命令
  8. linux在多个目录跳转,如何做到在多个目录直接游刃有余的进行切换 -- linux 下的目录切换...
  9. java mysql 输入数据库_如何用JAVA录入数据到SQL数据库
  10. PostgreSQL 在Ubuntu下如何修改postgres默认密码
  11. MapReduce Example
  12. 论文笔记_S2D.03-2012-BMVC-目标类别分割和稠密立体重建的联合优化
  13. arcpy_intersectmerge
  14. SIM900A模块发送AT指令“ AT+CPIN? “返回“ PH-NET PIN ”的解决方法
  15. 分布式部署OpenDevOps报502错问题解决全过程
  16. 又一次淡淡的感动——《鸡排英雄》观后感
  17. Excel:表格中重复项的处理
  18. 微软的winget包管理器
  19. 电商项目商品详情页架构设计
  20. jenkins简介及自动发包

热门文章

  1. 关于业务用例抽象问题对网友的回复
  2. 模块化封装 --- 双ToKen 实现免登录步骤详解
  3. php目的,php umask(0)的目的是什么
  4. antd中表格的字段设置成掩码
  5. 解决413 Request Entity Too Large
  6. 分享一个关于Java调用百度、高德API、ArcGIS地图获取逆地理的代码
  7. Reducing the Dimensionality of Data with Neural Networks:神经网络用于降维
  8. 最优化方法系列:Adam+SGD-AMSGrad
  9. UVA 12108 Extraordinarily Tired Students
  10. spring加载配置文件