前言:我看有人的博客学习资料本就是基础知识然后还整个付费专栏博客,那我就直接打破这一垄断,直接上干货免费资料供大家学习。

国赛高教杯数据处理全过程总结

数据存在的问题

  ⚫ 数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。
  ⚫ 现实世界中数据常常是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。

原始数据存在的问题

  −数据的不一致:各系统间的数据存在较大的不一致性
如属性重量的单位:
  A数据库重量单位kg
  B数据库重量单位g
  −噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。
  收集数据的时候难以得到精确的数据,主要原因:
  收集数据的设备可能出现故障;
  数据输入时可能出现错误;
  数据传输过程中可能出现错误;
  存储介质有可能出现损坏等。
  − 缺失值:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
  − 原因可能有:
  ⚫ 有些属性的内容有时没有(家庭收入,参与销售事务数据中的顾客信息);
  ⚫ 有些数据当时被认为是不必要的;
  ⚫ 由于误解或检测设备失灵导致相关数据没有记录下来;
  ⚫ 与其它记录内容不一致而被删除;
  ⚫ 忽略了历史数据或对数据的修改。
  数据质量要求
  ⚫ 准确性:数据记录的信息是否存在异常或错误。
  ⚫ 完整性:数据信息是否存在缺失。
  ⚫ 一致性:指数据是否遵循了统一的规范,数据集合是否  保持了统一的格式
  ⚫ 时效性:某些数据是否能及时更新
  ⚫ 可信性:用户信赖的数据的数量
  ⚫ 可解释性:指数据自身是否易于人们理解
  数据预处理的主要任务
  ⚫ 数据清理(清洗):去掉数据中的噪声,纠正不一致。
  ⚫ 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
  ⚫ 数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
  ⚫ 数据变换(转换):将一种格式的数据转换为另一格式的数据(如规范化)。

数据清理

  数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。
  • 缺失值的处理;
  • 噪声数据;
  • 不一致数据。
  空缺值的处理
  – 引起空缺值的原因
  • 设备异常
  • 与其他已有数据不一致而被删除
  • 因为误解而没有被输入的数据
  • 在输入时,有些数据因为得不到重视而没有被输入
  • 对数据的改变没有进行日志记载
  – 空缺值要经过推断而补上
  如何处理空缺值?
  1)忽略元组:
  • 若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外
  • 但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差
  2)忽略属性列:
  • 若某个属性的缺失值太多,则在整个数据集中可以忽略该属性
  3)人工填写空缺值:
  • 工作量大,可行性低
  4)使用属性的中心度量值填充空缺值:
  • 如果数据的分布是正常的,就可以使用均值来填充缺失值
  • 如果数据的分布是倾斜的,可以使用中位数来填充缺失值。

  5)使用一个全局变量填充空缺值:
  • 对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或∞)。
  6)使用可能的特征值来替换空缺值(最常用):
  • 生成一个预测模型,来预测每个丢失值
  • 如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值

噪声的处理

  –噪声(noise) :被测量的变量产生的随机错误或误差
  • 数据收集工具的问题
  • 数据输入错误
  • 数据传输错误
  • 技术限制
  • 命名规则的不一致
  如何检测噪声数据?
  1)基于统计的技术
  • 使用距离度量值(如马氏距离)来实现。
  • 给定p维数据集中的n个观察值

国赛高教杯使用python/matlab必会基础数学建模-数据处理模块(课程4)相关推荐

  1. 2019年国赛高教杯数学建模E题薄利多销分析解题全过程文档及程序

    2019年国赛高教杯数学建模 E题 薄利多销分析 原题再现   "薄利多销"是通过降低单位商品的利润来增加销售数量,从而使商家获得更多盈利的一种扩大销售的策略.对于需求富有弹性的商 ...

  2. 2022国赛高教杯数学建模A题B题(预测)

    2022国赛高教杯A题:   如何正确看待外企商品   随着经济和科技的发展,科技与生活融为一体,越来越多的智能科技化商品涌现在国内市场,有些商品例如手机已经成为当代人出门必用的付款.出行证明的媒介, ...

  3. 2021年国赛高教杯数学建模B题乙醇偶合制备C4烯烃解题全过程文档及程序

    2021年国赛高教杯数学建模 B题 乙醇偶合制备C4烯烃 原题再现   C4 烯烃广泛应用于化工产品及医药的生产,乙醇是生产制备 C4 烯烃的原料.在制备过程中,催化剂组合(即:Co 负载量.Co/S ...

  4. 2021年国赛高教杯数学建模D题连铸切割的在线优化解题全过程文档及程序

    2021年国赛高教杯数学建模 D题 连铸切割的在线优化 原题再现   连铸是将钢水变成钢坯的生产过程,具体流程如下(图 1):   钢水连续地从中间包浇入结晶器,并按一定的速度从结晶器向下拉出,进入二 ...

  5. 2019年国赛高教杯数学建模C题机场的出租车问题解题全过程文档及程序

    2019年国赛高教杯数学建模 C题 机场的出租车问题 原题再现   大多数乘客下飞机后要去市区(或周边)的目的地,出租车是主要的交通工具之一.国内多数机场都是将送客(出发)与接客(到达)通道分开的.送 ...

  6. 2021年国赛高教杯数学建模A题FAST主动反射面的形状调节解题全过程文档及程序

    2021年国赛高教杯数学建模 A题 FAST主动反射面的形状调节 原题再现   中国天眼--500 米口径球面射电望远镜(Five-hundred-meter Aperture Spherical r ...

  7. 2018年国赛高教杯数学建模A题高温作业专用服装设计解题全过程文档及程序

    2018年国赛高教杯数学建模 A题 高温作业专用服装设计 原题再现   在高温环境下工作时,人们需要穿着专用服装以避免灼伤.专用服装通常由三层织物材料构成,记为I.II.III层,其中I层与外界环境接 ...

  8. 第十二届_国赛蓝桥杯个人模板_基础篇

    第十二届_国赛蓝桥杯个人模板_网格图_DFS/BFS篇 第十二届_国赛蓝桥杯个人模板_全排列_DFS/BFS篇 第十二届_国赛蓝桥杯个人模板_DP篇 第十二届_国赛蓝桥杯个人模板_数论篇 第十二届_国 ...

  9. 第十二届蓝桥杯国赛真题+题解 Python

    文章目录 写在前面 试题A:带宽 试题 B: 纯质数 试题C: 完全日期 试题D: 最小权值 试题 E: 大写 试题 F: 123 试题 G: 冰山 试题 H: 和与乘积 试题 I: 二进制问题 试题 ...

最新文章

  1. mongodb教程二
  2. mySQL(关系型数据库管理系统)编辑
  3. Nginx入门之两种handler函数的挂载方式
  4. oracle对象权限 函数,oracle的系统和对象权限
  5. 打印1-400以内 能同时被5和9 整数的数将这些数放入一个列表中,再输出这个列表
  6. Spring MVC验证器:Validator接口和ValidationUtils类
  7. 如何在树莓派上安装Fedora 25
  8. 【新手可看懂】ubuntu配置appium环境
  9. Sharepoint 浅谈 [转]
  10. javascript遍历对象属性和方法
  11. JAVA之旅(三十)——打印流PrintWriter,合并流,切割文件并且合并,对象的序列化Serializable,管道流,RandomAccessFile,IO其他类,字符编码
  12. 采访了 10 位身价过亿的 CEO,我终于看懂了有钱人的“奋斗”
  13. Centos7安装Mysql、九条命令搞定
  14. shell脚本-md5码
  15. 鬼谷八荒逆天改命词条通过C++代码制作
  16. Windows系统中的睡眠时间和关闭屏幕时间的设置
  17. 计算机读不出来u盘装系统,细说电脑重装系统u盘读不出怎么办
  18. 这12张数据治理内涵图,你看懂了吗
  19. Latex中表格过长如何实现跨页表格——跨页表格宏包longtable的使用?
  20. python 可视化 皮肤_为什么我不建议你轻易入Python的“坑”?

热门文章

  1. 金仓数据库 KingbaseES PL/SQL 过程语言参考手册(12. 异常处理)
  2. Leetcode刷题笔记 714. 买卖股票的最佳时机含手续费
  3. 陀螺研究院 | 产业区块链发展周报(12.19—12.25)
  4. matlab程序运行完后响铃,matlab基本
  5. 2017第17届CBME中国孕婴童展、童装展会刊(参展商名录)
  6. 以太坊性能优化:分片技术、雷电网络、Casper-下一代以太坊共识协议
  7. Java--定位问题工具
  8. 本科课程【java程序设计】实验2 - 类与对象编程练习
  9. Leetcode 1217. Minimum Cost to Move Chips to The Same Position [Python]
  10. 国企面试-260题-单选题 下列哪组成语反映了同一种人际关系: A 琴瑟和鸣 破镜重圆 B 负荆请罪 载舟覆舟 C 结草衔环 青梅竹马 D 相濡以沫 舐犊情深