(一) 数据清理

a) 缺失值填充

i. 忽略元组

ii. 手工填写

iii. 自动填充

  1. 使用属性均值
  2. 推理出最可能的值,如贝叶斯公式或决策树

b) 去除离群点

i. 聚类

ii. LOF

iii. 回归函数拟合数据

c) 噪音(包括错误和离群)处理

i. 分箱光滑

d) 纠正不一致数据

(二) 数据集成

a) 模式集成

b) 冲突数据值的检测和解决

c) 冗余数据处理

(三) 相关分析

a) 皮尔逊相关系数

b) 协方差

c) 卡方值

(四) 数据变换

a) 规范化

i. 最小-最大规范化

ii. z-score规范化

iii. 小数定标规范化

b) 聚集:汇总,数据立方体构造

(五) 数据归约

a) 数据立方体聚集(常用工具OLAP)

b) 数据压缩

c) 维度规约

i. 特征选择(e.g.属性子集选择)

  1. 启发式方法
  2. 决策树

ii. PCA(降维)

d) 数值规约

i. 参数方法

  1. 线性回归
  2. 对数线性模型

ii. 非参数方法

  1. 不假定模型
  2. 抽样
  3. 聚类

PS:不足之处恳请不啬赐教

数据预处理知识点汇总相关推荐

  1. 机器学习数据预处理代码汇总(最新更新20年3月1日)

    这篇博客用一个pandas的DataFrame类型的数据为例,字段名为了不与任何第三方库混淆,我们叫他 dataframe 这篇博客没有长篇大论,就是希望能够让大家直接复制代码,然后把datafram ...

  2. 史上最全系列 | 大数据框架知识点汇总(资源分享、还不快拿去)

    前言 大家好,我是土哥 写文章整整 五个月 了,在这期间写了很多篇高质量文章,每一篇都在 1000+ 阅读以上,为了让各位小伙伴更好的学习和面试,我将自己 发表的文章 以及 未发表的文章 全部汇总成一 ...

  3. 几种数据预处理方法汇总(标准/中心化、归一化、正则化)+Python代码

    1. 数据的标准化(规范化/归一化) 数据标准化是将样本的属性缩放到某个指定的范围. 数据标准化的原因: 某些算法要求样本具有零均值和单位方差: 需要消除样本不同属性具有不同量级时的影响:①数量级的差 ...

  4. 数据可视化知识点汇总

    数据可视化 canvas svg 项目矢量图svg Canvas与SVG的主要区别 d3 zrender three Antv Antv--g2 g6 L7 Highcharts Echart 系列 ...

  5. 数据科学必备Pandas数据预处理方法汇总

    Pandas DataFrame 是一个包含二维数据及其对应索引的结构.DataFrame 广泛用于数据科学.机器学习.科学计算和许多其他数据密集型领域. DataFrame 类似于SQL 表或在 E ...

  6. 文本挖掘 包含中英文数据预处理以及分析

    Text Mining文本挖掘 包含中英文数据预处理以及分析 中文 数据展示 展示数据 数据预处理 移除数字和字母 加载jieba分词(好用!!) 加载停用词列表 加载标点符号列表 数据预处理方法汇总 ...

  7. 关于数据预处理的7个重要知识点,全在这儿了!

    导读:今天这篇文章是「大数据」内容合伙人周萝卜关于<Python数据分析与数据化运营>的一篇读书笔记.在大数据公众号后台对话框回复合伙人,免费读书.与50万「大数据」同行分享你的洞见. 作 ...

  8. 大数据平台应用 17 个知识点汇总

    一.大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto.Mpp架构的数据库主要用于即席 ...

  9. 数据挖掘概念汇总及数据预处理

    数据挖掘简介 数据挖掘,顾名思义,就是在大量的数据中发现有用的信息,随着信息技术发展,每天都会产生大量的数据,可以说我们正处于一个大数据的时代.面对如此多的数据,传统的分析方法不再适用,这就需要我们用 ...

最新文章

  1. jetson nano 用 tensorrt 运行 nanodet(kitti数据集)
  2. 1.2 线性回归与梯度下降-机器学习笔记-斯坦福吴恩达教授
  3. [备忘]macOS和Windows下很赞的软件
  4. 没想到你是这样的直播研发骚年
  5. C++安全方向(二):2.5 Base58_比特币钱包地址_算法分析
  6. 【Java NIO的深入研究5】字符集Charset
  7. python类方法_Python类方法
  8. 算法面试题(python)——如何找出数组中出现一次的数
  9. 帆软round函数不生效_第一卷深入了解Python内置函数,讲解内置函数都有什么作用...
  10. 发那科机器人示教器键盘_不限 发那科机器人示教器触摸屏急停按键失效维修...
  11. Springboot 下 ModelAndView 的简单使用
  12. 3.3V系统和5V系统电平转换
  13. 手机怎么模拟125k卡_【个性nubia之路】无卡开门禁:教你用手机NFC模拟门禁卡
  14. Redis:集合SADD、SISMEMBER、SPOP、SRANDMEMBER、SREM、SMOVE、SCARD、SMEMBERS、SSCAN命令介绍
  15. 场景拆解六步设计法,手把手教你细化场景
  16. 使用Python 对ENVI SPECTRAL LIBRARY(.sli)进行读取
  17. Windows下Armadillo配置及测试
  18. 一起来看流星雨剧情简介/剧情介绍/剧情分集介绍第十四集
  19. 理解S.M.A.R.T.格式及从中获取硬盘状态信息
  20. AI入门到进阶到放弃

热门文章

  1. Integer 和 int 比较的特殊之处
  2. Go进阶:反射3定律
  3. SVN提交错误:working copy is not up-to-date解决方法
  4. LLVM官方文档翻译---- LLVM原子指令与并发指引
  5. npm-debug.log文件出现原因
  6. LoadRunner监控Linux
  7. MySQL 用户与授权管理详解
  8. 停电后,JavaScript定时器居然变慢了~
  9. STL 队列queue
  10. 今天看到两个题 写出来思考一下