数据决定模型的上限,好的数据或数据处理,对模型的影响是非常大的,同样,对于数据的处理,不同的数据,处理情况也不一样,具体情况如下所示:

  • 缺省值处理
  • 异常值处理
  • 样本的数量
  • 特征的数量:特征筛选
  • 特征的类型(连续,整形,类别)

缺省值处理

对于缺省值,这个需要根据不同的情况,不同类型的数据来进行不同的处理。

  1. 删除法:如果缺失值样本较少的话,直接删除,或删除缺省值较大的

  2. 零近值填补:对每一列的缺失值,采用临近位置的数据进行填充。

  3. 平均值填充:一般针对数值型变量,采用平均值填写

  4. 众数填充:一般针对类别型变量,采用众数来填充

  5. 中位数填充:一般针对整数型变量,却中位数进行填充

  6. KNN填充:寻找与之最相近的k个数据,取平均值填充

  7. 回归:基于完整的数据建立回归方程,来对空值进行回归,得到的最后的结果。

异常值处理

1.简单统计分析:通过简单的观察,以及最大最小值来判断数据的合理性

2.3σ原则:处在3σ范围之内是正常数据

3.箱线图:超过上下须的值可以作为异常值处理

处理方法

样本的数量

如果样本数量较少的话,可以采用增多数据集

  • 人工增加,这个在比赛的时候肯定是用不了的

  • 图片数据,可以尝试旋转,翻转,裁剪,增加噪音等操作

  • GAN网络生成更多的样本数据

  • 建议使用简单的模型,例如多项式回归,岭回归等可以列出表达式,便于模型可解释性

特征的数量

如果特征数量过多,超过500多个,但是最后需要的特征数量只要求30个,那么我们需要着重处理的就是特征筛选,这里我们可以使用的方法如下:

  1. 相关性分析:去除特征的冗余问题
  2. 重要程度分析:通过模型进行训练,然后对特征重要程度进行排序
  3. 特征降维:将m维特征降维成n维特征,其中m≥n。(如果题目要求原有特征下的筛选,就不能使用降维)
  4. 缺省值分析:删除缺省值过大的
  5. 唯一属性分析:删除唯一属性

同样的,如果特征数量较少,可能需要用到特征构造

  1. 特征组合:对不同类型的特征进行笛卡尔积,加减乘除等操作
  2. 数学变换:通过基础数学公式进行变换,如对数变换,指数变换,Box-Cox变换
  3. 特征拆解:对于体积,时间戳等特征进行拆解
  4. 统计量构造:四分位数,中位数,平均值,标准差,偏差,偏度,偏锋等。

特征的类型

  • 类别变量:例如老年,中年,青年,这样的类别
  • 整型变量:例如年纪,多少岁
  • 浮点型变量:例如微信上的钱包,0.2元,

总结

以上就是我总结的大数据清洗的内容,具体详情,可以点开标题链接。

python大数据之数据清洗相关推荐

  1. Python+大数据-数据处理与分析(三)-数据清洗

    Python+大数据-数据处理与分析(三)-数据清洗 1. 数据组合 1.1 数据聚合简介 在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是: 每个观测值成一行 每个变量成一列 ...

  2. Python+大数据-数据分析与处理(六)-综合案例

    Python+大数据-数据分析与处理(六)-综合案例 案例一:Appstore数据分析 学习目标 掌握描述性数据分析流程 能够使用pandas.seaborn进行数据分析和可视化 1.案例介绍 案例背 ...

  3. Python + 大数据 - 数仓实战之智能电商分析平台

    Python + 大数据 - 数仓实战之智能电商分析平台 1. 项目架构 2. 数据仓库维度模型设计-事实表 事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一 ...

  4. 视频教程-Python大数据可视化-Python

    Python大数据可视化 7年软件开发架构经验,12年IT培训经验,曾就职于拜特科技,金蝶软件,软酷网络等多家互联网公司.擅长Java EE,前端,iOS及大数据等技术方向的开发及教学.策划并撰稿大数 ...

  5. Python+大数据-知行教育(七)-学生出勤主题看板

    Python+大数据-知行教育(七)-学生出勤主题看板 2. 学生出勤主题看板 2.1 需求分析 回顾: 涉及维度, 指标, 涉及表, 字段, 以及需要清洗的内容, 需要转换的内容, 如果有多个表, ...

  6. 财务大数据比赛有python吗-Python大数据与机器学习之NumPy初体验

    本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用 ...

  7. Python大数据:jieba分词,词频统计

    实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解Jupyter Notebook 概念 中文分词 在自然语言处理过程中,为了能更好地处理 ...

  8. zwpython_零起点Python大数据与量化交易

    零起点Python大数据与量化交易 所属分类:数值算法/人工智能 开发工具:Python 文件大小:17263KB 下载次数:21 上传日期:2018-05-15 17:24:02 上 传 者:bla ...

  9. [转载] Python大数据文本分析及应用

    参考链接: 使用Python的SQL 3(处理大数据) 实践课题报告: 大数据文本分析与应用 学 校:xxx 学 院:大数据与智能工程学院 专 业:信息工程(数据科学与大数据技术) 年 级:2017级 ...

最新文章

  1. {} 与 function() { } , 选用空对象{}来存放keyValue
  2. 总结八个好用的Python爬虫技巧
  3. 反垃圾邮件网关市场分析
  4. 【渝粤教育】国家开放大学2019年春季 7407药物治疗学(本) 参考试题
  5. 芝加哥大学计算机专业硕士,芝加哥大学计算机硕士录取条件有哪些?_托普仕留学...
  6. 蓝宝石rx470d原版bios_小白福利教程:关于显卡BIOS的一些信息的讲解
  7. Windows Server 2008 R2 官方原版下载大全
  8. RT-Thread的STM32系列外设驱动添加 ---- 以PWM外设为例
  9. banner 生成利器 http://patorjk.com/software/taag
  10. 基于深度学习的显著性目标检测方法综述
  11. 如何下载网页中使用的JS及CSS文件
  12. 谈谈javascript中的多线程
  13. 直播源代码图片验证码
  14. 获取当前所在地的天气
  15. linux中感叹号的作用,Linux - 感叹号
  16. 服务器和工作站有什么区别?
  17. 娱乐万岁,躺平无罪!聊点有技术含量的
  18. 【Android】GPS定位基本原理浅析
  19. HR给应届生的黄金面试技巧
  20. 物业管理系统源码java,物业管理系统Java版源码附设计论文

热门文章

  1. 基于C#+SQLServer开发的餐饮管理系统源码
  2. 了解数据串联五步骤,解锁数据孤岛难题
  3. oppo锁频段_给大家科普下现在的OPPO Reno3支持哪几个5G频段
  4. 浙江理工大学计算机考研难度,浙江理工大学考研难度(浙江理工大学是211吗)...
  5. centos服务器操作命令
  6. ad设置塞孔_干货丨PCB线路板过孔堵上,到底是什么学问?
  7. 字符串有长度限制吗?是多少?
  8. python roc计算_ROC评价指标最全攻略及Python实现
  9. Html的块状元素和内联元素
  10. 05 计算机是如何处理我们写的代码的?