python大数据之数据清洗
数据决定模型的上限,好的数据或数据处理,对模型的影响是非常大的,同样,对于数据的处理,不同的数据,处理情况也不一样,具体情况如下所示:
- 缺省值处理
- 异常值处理
- 样本的数量
- 特征的数量:特征筛选
- 特征的类型(连续,整形,类别)
缺省值处理
对于缺省值,这个需要根据不同的情况,不同类型的数据来进行不同的处理。
删除法:如果缺失值样本较少的话,直接删除,或删除缺省值较大的
零近值填补:对每一列的缺失值,采用临近位置的数据进行填充。
平均值填充:一般针对数值型变量,采用平均值填写
众数填充:一般针对类别型变量,采用众数来填充
中位数填充:一般针对整数型变量,却中位数进行填充
KNN填充:寻找与之最相近的k个数据,取平均值填充
回归:基于完整的数据建立回归方程,来对空值进行回归,得到的最后的结果。
异常值处理
1.简单统计分析:通过简单的观察,以及最大最小值来判断数据的合理性
- 删除:直接删除异常值
- 缺失值:视为缺失值
- 平均值修正:修改为平均值
- 盖帽法:通过99%和1%的点来对其进行处理。
- 分箱法:分箱法通过考察数据的“近邻”来光滑有序数据的值。有序值分布到一些桶或箱中。包括等深分箱:每个分箱中的样本量一致;等宽分箱:每个分箱中的取值范围一致。
- 不处理:根据该异常值的性质特点,使用更加稳健模型来修饰,然后直接在该数据集上进行数据挖掘。
样本的数量
如果样本数量较少的话,可以采用增多数据集
人工增加,这个在比赛的时候肯定是用不了的
图片数据,可以尝试旋转,翻转,裁剪,增加噪音等操作
GAN网络生成更多的样本数据
建议使用简单的模型,例如多项式回归,岭回归等可以列出表达式,便于模型可解释性
特征的数量
如果特征数量过多,超过500多个,但是最后需要的特征数量只要求30个,那么我们需要着重处理的就是特征筛选,这里我们可以使用的方法如下:
- 相关性分析:去除特征的冗余问题
- 重要程度分析:通过模型进行训练,然后对特征重要程度进行排序
- 特征降维:将m维特征降维成n维特征,其中m≥n。(如果题目要求原有特征下的筛选,就不能使用降维)
- 缺省值分析:删除缺省值过大的
- 唯一属性分析:删除唯一属性
同样的,如果特征数量较少,可能需要用到特征构造
- 特征组合:对不同类型的特征进行笛卡尔积,加减乘除等操作
- 数学变换:通过基础数学公式进行变换,如对数变换,指数变换,Box-Cox变换
- 特征拆解:对于体积,时间戳等特征进行拆解
- 统计量构造:四分位数,中位数,平均值,标准差,偏差,偏度,偏锋等。
特征的类型
- 类别变量:例如老年,中年,青年,这样的类别
- 整型变量:例如年纪,多少岁
- 浮点型变量:例如微信上的钱包,0.2元,
总结
以上就是我总结的大数据清洗的内容,具体详情,可以点开标题链接。
python大数据之数据清洗相关推荐
- Python+大数据-数据处理与分析(三)-数据清洗
Python+大数据-数据处理与分析(三)-数据清洗 1. 数据组合 1.1 数据聚合简介 在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是: 每个观测值成一行 每个变量成一列 ...
- Python+大数据-数据分析与处理(六)-综合案例
Python+大数据-数据分析与处理(六)-综合案例 案例一:Appstore数据分析 学习目标 掌握描述性数据分析流程 能够使用pandas.seaborn进行数据分析和可视化 1.案例介绍 案例背 ...
- Python + 大数据 - 数仓实战之智能电商分析平台
Python + 大数据 - 数仓实战之智能电商分析平台 1. 项目架构 2. 数据仓库维度模型设计-事实表 事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一 ...
- 视频教程-Python大数据可视化-Python
Python大数据可视化 7年软件开发架构经验,12年IT培训经验,曾就职于拜特科技,金蝶软件,软酷网络等多家互联网公司.擅长Java EE,前端,iOS及大数据等技术方向的开发及教学.策划并撰稿大数 ...
- Python+大数据-知行教育(七)-学生出勤主题看板
Python+大数据-知行教育(七)-学生出勤主题看板 2. 学生出勤主题看板 2.1 需求分析 回顾: 涉及维度, 指标, 涉及表, 字段, 以及需要清洗的内容, 需要转换的内容, 如果有多个表, ...
- 财务大数据比赛有python吗-Python大数据与机器学习之NumPy初体验
本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用 ...
- Python大数据:jieba分词,词频统计
实验目的 学习如何读取一个文件 学习如何使用DataFrame 学习jieba中文分词组件及停用词处理原理 了解Jupyter Notebook 概念 中文分词 在自然语言处理过程中,为了能更好地处理 ...
- zwpython_零起点Python大数据与量化交易
零起点Python大数据与量化交易 所属分类:数值算法/人工智能 开发工具:Python 文件大小:17263KB 下载次数:21 上传日期:2018-05-15 17:24:02 上 传 者:bla ...
- [转载] Python大数据文本分析及应用
参考链接: 使用Python的SQL 3(处理大数据) 实践课题报告: 大数据文本分析与应用 学 校:xxx 学 院:大数据与智能工程学院 专 业:信息工程(数据科学与大数据技术) 年 级:2017级 ...
最新文章
- {} 与 function() { } , 选用空对象{}来存放keyValue
- 总结八个好用的Python爬虫技巧
- 反垃圾邮件网关市场分析
- 【渝粤教育】国家开放大学2019年春季 7407药物治疗学(本) 参考试题
- 芝加哥大学计算机专业硕士,芝加哥大学计算机硕士录取条件有哪些?_托普仕留学...
- 蓝宝石rx470d原版bios_小白福利教程:关于显卡BIOS的一些信息的讲解
- Windows Server 2008 R2 官方原版下载大全
- RT-Thread的STM32系列外设驱动添加 ---- 以PWM外设为例
- banner 生成利器 http://patorjk.com/software/taag
- 基于深度学习的显著性目标检测方法综述
- 如何下载网页中使用的JS及CSS文件
- 谈谈javascript中的多线程
- 直播源代码图片验证码
- 获取当前所在地的天气
- linux中感叹号的作用,Linux - 感叹号
- 服务器和工作站有什么区别?
- 娱乐万岁,躺平无罪!聊点有技术含量的
- 【Android】GPS定位基本原理浅析
- HR给应届生的黄金面试技巧
- 物业管理系统源码java,物业管理系统Java版源码附设计论文
热门文章
- 基于C#+SQLServer开发的餐饮管理系统源码
- 了解数据串联五步骤,解锁数据孤岛难题
- oppo锁频段_给大家科普下现在的OPPO Reno3支持哪几个5G频段
- 浙江理工大学计算机考研难度,浙江理工大学考研难度(浙江理工大学是211吗)...
- centos服务器操作命令
- ad设置塞孔_干货丨PCB线路板过孔堵上,到底是什么学问?
- 字符串有长度限制吗?是多少?
- python roc计算_ROC评价指标最全攻略及Python实现
- Html的块状元素和内联元素
- 05 计算机是如何处理我们写的代码的?