数据预处理

  • 数据分类
    • 定量数据
    • 定性数据
  • 数据质量
  • 数据清洗
  • 特征工程
    • 特征选择
    • 特征构建
    • 特征提取

数据分类

定量数据

  • 离散变量
  • 连续变量

定性数据

  • 定序变量
  • 名义变量
  1. 集中趋势
    主要测度是均值,中位数,和众数

  2. 离散程度
    考虑变量的离散程度,主要考虑变量各个取值之间的差异,常见的测量有极差,方差和标准差

  3. 相关性测量

    • 数据可视化,将要分析的变量绘制成折线图或者散点图,做图表分析,可以对数据进行初步观察和分析
    • 计算变量间的协方差 协方差可以确定相关关系的正负,但没有关于关系的强度信息
    • 计算变量间的相关系数 相关系数是一个不受测量单位影响的相关关系统计量,理论上限是+1(或-1)表示完全线性相关
    • 进行元回归或多元线性回归分析
  4. 数据缺失
    数据集中不含缺失变量称为为完全变量,含有缺失值的变量称为不完全变量

  5. 噪声
    噪声是指被观测的变量的随机误差或方差
    噪声 = 观测值 - 真实数据

  6. 离群点
    数据集中包含这样一些数据对象,他们与数据的一般行为和模型不一致,这样的对象被称为离群点,离群点属于观测变量

数据质量

  1. 完整性
    数据信息是否存在缺失情况
  2. 一致性
    数据是否符合规范,数据集中的数据是否保持统一格式
  3. 准确性
    数据记录的信息是否存在异常或错误
  4. 及时性
    及时性是指数据从产生到可以查看的时间间隔

数据清洗

  1. 缺失值的处理
    常见的方法有,忽略有缺失值的数据,如果一个属性缺失的数据过多,则删除该属性
    对缺失值进行填补,可以填补固定值,平均值,和最有可能值, 最有可能值会利用到决策树,回归分析

  2. 噪声数据的处理
    分箱技术 通过考察相邻数据来确定最终值,可以实现异常或者噪声数据的平滑处理
    聚类技术
    聚类技术是将数据集分组为类似数据组成的多个簇,聚类技术主要用于找出并清除哪些落在簇之外的数据(孤立点)这些数据被视为噪点,不是适合用于平滑数据,聚类分析也可以用作数据分析

    回归技术
    回归技术是通过发现两个相关变量之间的数据关系并寻找合适的两个变量之江的映射关系来平滑数据,即通过数学模型来预测下一个数据,包括线性回归和非线性回归

  3. 不一致数据的处理
    使用相关资料进行修复数据,违反给定规则的数据根据实际情况可以运用知识工具进行修改,对于多个数据源集成处理时,不同数据源对某些含义相同的字段的编码规则可能存在差异此时需要对不同数据源的数据进行数据转化

  4. 异常数据的处理

特征工程

特征选择

考虑方面:特征是否发散、特征是否冗余、特征是否与分析结果相关
选择方法 过滤法、包装法、集成法

特征构建

特征构建是指从原始数据中人工构建新的特征

特征提取

特征提取是在原有的特征的基础上,自动构建新的特征,将原始特征转换成一组具有物理意义。统计意义。或者核的特征

  • 主成分分析法
    PCA是通过坐标轴转换,寻求数据分布的最优子空间,从而达到降维,去除数据间相关性的目的,
  • 独立成分分析法
  • 线性判别分析法
    LDA的原理是将有标签的数据通过投影的方法,投影到更低的空间,使得投影后的点按类分配,相同类别的点投影以后更接近,不同类别的点投影以后距离较远

数据分析--数据预处理相关推荐

  1. python数据预处理_Python数据分析——数据预处理的方法

    前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...

  2. Python数据分析数据预处理特征值独热编码

    [小白从小学Python.C.Java] [Python-计算机等级考试二级] [Python-数据分析] Python数据分析 数据预处理 特征值独热编码 独热编码,是一种将分类变量转换为若干二进制 ...

  3. 数据分析 数据预处理

    一.概述 1.数据可能存在的问题: 正式进行分析前,需要先进行数据质量分析.可能存在以下问题: "数据缺失"(Incomplete):数据值为空,如Occupancy=" ...

  4. Python数据分析-数据预处理

    数据预处理 文章目录 数据预处理 1.前言 2.数据探索 2.1缺失值分析 2.2 异常值分析 2.2.1 简单统计量分析 2.2.2 3$\sigma$原则 2.2.3 箱线图分析 2.3 一致性分 ...

  5. 数据分析——数据预处理

    内容来源:课程<智能信息处理技术>.周志华<机器学习> 数据预处理 点击 数据预处理各步骤梳理 查看全图 什么是数据预处理 现实世界中数据大体上都是不完整,不一致的脏数据,无法 ...

  6. 数据分析-数据预处理-数据数量统计和柱状图绘制(Excel版处理)

    一:解决的问题: 问题描述1:原始数据在Excel里面,且每行都只有一个单元格存放该行的所有数据:我们需要做的事情是统计该Excel表每行数据的个数. 问题描述2: 1)原始数据集 2)先把每行放在一 ...

  7. 近红外光谱数据分析--数据预处理(多元散射校正 MSC)

    多元散射校正(multiplicative scatter correction,MSC ) 多元散射校正可用来消除样本间的基线平移和漂移现象,增强光谱特异性. 多元散射校正算法步骤: 首先需要一个标 ...

  8. pandas神器操作excel表格大全(数据分析数据预处理)

    使用pandas库操作excel,csv表格操作大全 [点我下载本文PDF电子版] 关注公众号"轻松学编程"了解更多,文末有公众号二维码,可以扫码关注哦. 前言 准备三份csv表格 ...

  9. 数据预处理常用技巧 | 数据分析中如何处理缺失值?(文末福利)

    无论是数据分析.数据挖掘,还是机器学习,都离不开数据预处理这一重要步骤.没有高质量的数据,就没有高质量的分析结果.而数据不完整,也就是数据中包含缺失值,正是数据分析工作者最常见的问题之一.本文我们就来 ...

  10. 数据分析与挖掘理论-数据预处理

    数据预处理 一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题. 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域, 分为数据清洗.数据集成.数据变换和 ...

最新文章

  1. STM32串口9位数据,无奇偶校验
  2. Java HashMap的put操作(Java1.8)
  3. 分布式事务——消息最终一致性方案
  4. 监听网络流量命令——tcpdump
  5. 伦茨8400变频器面板按键说明_lenze变频器 8400 protec
  6. 使用Excel导入数据到SAP Cloud for Customer系统
  7. golang实现聊天室(三)
  8. vue传值到后端_Vue.js快速入门就从这儿开始特别是后端程序员
  9. [转]理解ThreadLocal
  10. ahp层次分析法软件
  11. Android基础入门教程——7.3.3 Android 文件下载(2)
  12. java基础案例教程第二版pdf,Java系列学习进阶视频
  13. 抖音小程序开发教程之 01 构建开发环境(教程含源码)
  14. 铭soft理解图5.0
  15. 《如何搭建小微企业风控模型》第三节 风控模型概览
  16. 小试ESP8266(一) 一只电阻, 几条语句, 摆脱深度睡眠反复重启的困扰
  17. Keil_uvision 基本使用教程
  18. 计算机组成原理超详解
  19. 读书笔记:《反脆弱》
  20. python修改允许京东下单_京东Python开发(二)

热门文章

  1. java dvr_java – 如何设置与DVR的连接并解码数据?
  2. AI面试官来临,教你三招搞定他
  3. 上传叶绿体基因组序列至NCBI
  4. 吴翰清​(道哥)眼中的机器智能:计算机的再发展
  5. 目前流行的9大前端框架
  6. key位置 win10生成的ssh_Win10系统中生成SSH密钥的方法
  7. 写c++好的软件_族谱家谱制作怎么写?专业的家谱族谱编辑制作软件哪个好
  8. 青果教务管理系统存储型XSS 一枚
  9. C4D中阿诺德默认材质-万能材质-stander surface
  10. Numpy的终极备忘录