国赛高教杯使用python/matlab必会基础数学建模-数据处理模块(课程4)
前言:我看有人的博客学习资料本就是基础知识然后还整个付费专栏博客,那我就直接打破这一垄断,直接上干货免费资料供大家学习。
国赛高教杯数据处理全过程总结
数据存在的问题
⚫ 数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。
⚫ 现实世界中数据常常是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。
原始数据存在的问题
−数据的不一致:各系统间的数据存在较大的不一致性
如属性重量的单位:
A数据库重量单位kg
B数据库重量单位g
−噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。
收集数据的时候难以得到精确的数据,主要原因:
收集数据的设备可能出现故障;
数据输入时可能出现错误;
数据传输过程中可能出现错误;
存储介质有可能出现损坏等。
− 缺失值:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。
− 原因可能有:
⚫ 有些属性的内容有时没有(家庭收入,参与销售事务数据中的顾客信息);
⚫ 有些数据当时被认为是不必要的;
⚫ 由于误解或检测设备失灵导致相关数据没有记录下来;
⚫ 与其它记录内容不一致而被删除;
⚫ 忽略了历史数据或对数据的修改。
数据质量要求
⚫ 准确性:数据记录的信息是否存在异常或错误。
⚫ 完整性:数据信息是否存在缺失。
⚫ 一致性:指数据是否遵循了统一的规范,数据集合是否 保持了统一的格式
⚫ 时效性:某些数据是否能及时更新
⚫ 可信性:用户信赖的数据的数量
⚫ 可解释性:指数据自身是否易于人们理解
数据预处理的主要任务
⚫ 数据清理(清洗):去掉数据中的噪声,纠正不一致。
⚫ 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
⚫ 数据归约(消减):通过聚集、删除冗余属性或聚类等方法来压缩数据。
⚫ 数据变换(转换):将一种格式的数据转换为另一格式的数据(如规范化)。
数据清理
数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。
• 缺失值的处理;
• 噪声数据;
• 不一致数据。
空缺值的处理
– 引起空缺值的原因
• 设备异常
• 与其他已有数据不一致而被删除
• 因为误解而没有被输入的数据
• 在输入时,有些数据因为得不到重视而没有被输入
• 对数据的改变没有进行日志记载
– 空缺值要经过推断而补上
如何处理空缺值?
1)忽略元组:
• 若一条记录中有属性值被遗漏了,则将该记录排除在数据挖掘之外
• 但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差
2)忽略属性列:
• 若某个属性的缺失值太多,则在整个数据集中可以忽略该属性
3)人工填写空缺值:
• 工作量大,可行性低
4)使用属性的中心度量值填充空缺值:
• 如果数据的分布是正常的,就可以使用均值来填充缺失值
• 如果数据的分布是倾斜的,可以使用中位数来填充缺失值。
5)使用一个全局变量填充空缺值:
• 对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或∞)。
6)使用可能的特征值来替换空缺值(最常用):
• 生成一个预测模型,来预测每个丢失值
• 如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值
噪声的处理
–噪声(noise) :被测量的变量产生的随机错误或误差
• 数据收集工具的问题
• 数据输入错误
• 数据传输错误
• 技术限制
• 命名规则的不一致
如何检测噪声数据?
1)基于统计的技术
• 使用距离度量值(如马氏距离)来实现。
• 给定p维数据集中的n个观察值
国赛高教杯使用python/matlab必会基础数学建模-数据处理模块(课程4)相关推荐
- 2019年国赛高教杯数学建模E题薄利多销分析解题全过程文档及程序
2019年国赛高教杯数学建模 E题 薄利多销分析 原题再现 "薄利多销"是通过降低单位商品的利润来增加销售数量,从而使商家获得更多盈利的一种扩大销售的策略.对于需求富有弹性的商 ...
- 2022国赛高教杯数学建模A题B题(预测)
2022国赛高教杯A题: 如何正确看待外企商品 随着经济和科技的发展,科技与生活融为一体,越来越多的智能科技化商品涌现在国内市场,有些商品例如手机已经成为当代人出门必用的付款.出行证明的媒介, ...
- 2021年国赛高教杯数学建模B题乙醇偶合制备C4烯烃解题全过程文档及程序
2021年国赛高教杯数学建模 B题 乙醇偶合制备C4烯烃 原题再现 C4 烯烃广泛应用于化工产品及医药的生产,乙醇是生产制备 C4 烯烃的原料.在制备过程中,催化剂组合(即:Co 负载量.Co/S ...
- 2021年国赛高教杯数学建模D题连铸切割的在线优化解题全过程文档及程序
2021年国赛高教杯数学建模 D题 连铸切割的在线优化 原题再现 连铸是将钢水变成钢坯的生产过程,具体流程如下(图 1): 钢水连续地从中间包浇入结晶器,并按一定的速度从结晶器向下拉出,进入二 ...
- 2019年国赛高教杯数学建模C题机场的出租车问题解题全过程文档及程序
2019年国赛高教杯数学建模 C题 机场的出租车问题 原题再现 大多数乘客下飞机后要去市区(或周边)的目的地,出租车是主要的交通工具之一.国内多数机场都是将送客(出发)与接客(到达)通道分开的.送 ...
- 2021年国赛高教杯数学建模A题FAST主动反射面的形状调节解题全过程文档及程序
2021年国赛高教杯数学建模 A题 FAST主动反射面的形状调节 原题再现 中国天眼--500 米口径球面射电望远镜(Five-hundred-meter Aperture Spherical r ...
- 2018年国赛高教杯数学建模A题高温作业专用服装设计解题全过程文档及程序
2018年国赛高教杯数学建模 A题 高温作业专用服装设计 原题再现 在高温环境下工作时,人们需要穿着专用服装以避免灼伤.专用服装通常由三层织物材料构成,记为I.II.III层,其中I层与外界环境接 ...
- 第十二届_国赛蓝桥杯个人模板_基础篇
第十二届_国赛蓝桥杯个人模板_网格图_DFS/BFS篇 第十二届_国赛蓝桥杯个人模板_全排列_DFS/BFS篇 第十二届_国赛蓝桥杯个人模板_DP篇 第十二届_国赛蓝桥杯个人模板_数论篇 第十二届_国 ...
- 第十二届蓝桥杯国赛真题+题解 Python
文章目录 写在前面 试题A:带宽 试题 B: 纯质数 试题C: 完全日期 试题D: 最小权值 试题 E: 大写 试题 F: 123 试题 G: 冰山 试题 H: 和与乘积 试题 I: 二进制问题 试题 ...
最新文章
- mongodb教程二
- mySQL(关系型数据库管理系统)编辑
- Nginx入门之两种handler函数的挂载方式
- oracle对象权限 函数,oracle的系统和对象权限
- 打印1-400以内 能同时被5和9 整数的数将这些数放入一个列表中,再输出这个列表
- Spring MVC验证器:Validator接口和ValidationUtils类
- 如何在树莓派上安装Fedora 25
- 【新手可看懂】ubuntu配置appium环境
- Sharepoint 浅谈 [转]
- javascript遍历对象属性和方法
- JAVA之旅(三十)——打印流PrintWriter,合并流,切割文件并且合并,对象的序列化Serializable,管道流,RandomAccessFile,IO其他类,字符编码
- 采访了 10 位身价过亿的 CEO,我终于看懂了有钱人的“奋斗”
- Centos7安装Mysql、九条命令搞定
- shell脚本-md5码
- 鬼谷八荒逆天改命词条通过C++代码制作
- Windows系统中的睡眠时间和关闭屏幕时间的设置
- 计算机读不出来u盘装系统,细说电脑重装系统u盘读不出怎么办
- 这12张数据治理内涵图,你看懂了吗
- Latex中表格过长如何实现跨页表格——跨页表格宏包longtable的使用?
- python 可视化 皮肤_为什么我不建议你轻易入Python的“坑”?
热门文章
- 金仓数据库 KingbaseES PL/SQL 过程语言参考手册(12. 异常处理)
- Leetcode刷题笔记 714. 买卖股票的最佳时机含手续费
- 陀螺研究院 | 产业区块链发展周报(12.19—12.25)
- matlab程序运行完后响铃,matlab基本
- 2017第17届CBME中国孕婴童展、童装展会刊(参展商名录)
- 以太坊性能优化:分片技术、雷电网络、Casper-下一代以太坊共识协议
- Java--定位问题工具
- 本科课程【java程序设计】实验2 - 类与对象编程练习
- Leetcode 1217. Minimum Cost to Move Chips to The Same Position [Python]
- 国企面试-260题-单选题 下列哪组成语反映了同一种人际关系: A 琴瑟和鸣 破镜重圆 B 负荆请罪 载舟覆舟 C 结草衔环 青梅竹马 D 相濡以沫 舐犊情深