今天接着前一篇文章讲,主要分享基于显性特征工程的一些最基本的处理方法。关于显性特征是什么,大家可以去看系列文章一。关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每周都会做。我们从菜市场买的菜,不经过处理是不能下锅的,因为需要清洗、摘取烂的叶子、切段等操作后才可以下锅。如果把机器学习整个流程比做炒一盘青菜的话,今天要介绍这些方式就有点像菜的前期处理过程。那我们就分类别介绍下,对于一份数据,需要针对特征做哪些处理。

1.    数据清洗

主要包括两方面,一方面是填充缺失值,因为在机器学习算法的计算过程中会对数据进行各种运算符的计算,需要把一些空值填充,通常会被填充为0或者是对应特征列的均值。第二方面是乱码问题,如果是文本数据,经常会出现编码问题,需要把数据的类型全部处理好,最好是double型的。

2.    去量纲

因为数据的量纲会影响到某些算法的计算,比如有两个字段数据分别是一个人吃饭用了多少秒、吃了多少斤饭,那一个是时间数据,另一个是重量数据,算法是无法感知这些量纲的影响的,所以需要一些数学手段规避。去量纲常用的方法是归一化和标准化。

标准化就是每个特征值减去均值再除以方差,表现的是数据的一个分布情况。

归一化是把数据的分布强制性的限制到0和1之间,使得向量单位化。

个人认为标准化对于刻画数据的特征效果更好。

3.    数据平滑

大家可能平时会接触到一些分布极不均匀的数据,比如一个数据区间是[0,256],但是百分之九十以上的数据分布在[0,10]和[200,256]这两个区间中。对于这样的数据可以通过取对数的方式来处理,让数据的分布更加平滑。或者干脆数据分桶,去一个中间阈值,小于128的标记为0,大于128的标记为1。

4.    数据去噪

很多时候数据因为采集方式可能出现各别事故,比如有的数据是靠调查问卷采集上来的,但是就有一个人不认真写,瞎写,造成了噪声数据。这种跟事实偏差极大的数据,可以通过正态分布的原理去除,因为可以设想数据的分布大部分是比较平均的,符合正态分布,那与均值偏差极大的部分就很有可能是噪声,需要去除。

5.    降维

降维的方式很多啦,如果要讲的话需要非常大的篇幅,之前在写书的时候已经写了一遍了~有点懒,在这里简单题下。其实除了PCA、LDA这两种降维方式以外,逻辑回归中的正则L1也可以理解为一种降维处理。

[特征工程系列二]显性特征的基本处理方法相关推荐

  1. [特征工程系列三]显性特征的衍生

    前一文讲的是一些特征的基础处理方式,包括怎么降维.怎么处理脏数据等等.其实特征工程真正的难点是如何结合业务需求衍生出新的特征.结合业务需求讲的是利用专家经验来提取出数据里对结果影响更大的特征,往往是原 ...

  2. [特征工程系列一] 论特征的重要性

    满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...

  3. 特征工程系列:自动化特征构造

    特征工程系列:自动化特征构造 原创: JunLiang 木东居士  今天 0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的 ...

  4. 数据挖掘#特征工程(二)特征重要性及可解释性总结

    在打比赛的时候一直贯穿的思考,大概就是判别各个特征的重要性. 在建立模型之前,特征重要性能够帮助训练模型,防止过拟合,提升模型的RUC效果. 建立模型之后,特征重要性能够增强模型(集成模型 非深度学习 ...

  5. 特征工程系列:数据清洗

    文章系列: 特征工程系列:数据清洗 特征工程系列:特征筛选的原理与实现 特征工程系列:特征预处理 特征工程系列:特征构造 特征工程系列:时间特征构造以及时间序列特征构造 前言 数据和特征决定了机器学习 ...

  6. 特征工程系列:特征筛选的原理与实现(下)

    0x00 前言 我们在<特征工程系列:特征筛选的原理与实现(上)>中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现.本篇继续介绍封装式和嵌入式特征筛选的原理与实现. 0x01 ...

  7. ​特征工程系列:特征预处理(上)

    特征工程系列:特征预处理(上) 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机器学习的上限,而模 ...

  8. 特征工程系列:特征预处理(下)

    特征工程系列:特征预处理(下) 本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0 ...

  9. 特征工程系列:特征筛选的原理与实现(上)

    本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机 ...

最新文章

  1. Eclipse中输入系统变量和运行参数
  2. 捡到银行卡套取密码取现1万多元,犯了信用卡诈骗罪被判7个月
  3. Autofac框架初识与应用
  4. 流水线调度(51Nod-1205)
  5. OpenShift 4 概念 - OpenShift是如何通过ImageStream访问Image的
  6. cogs 2620. [HEOI2012]朋友圈
  7. 点击文本框内容消失,移开内容自动显示(两种方法)(原创)
  8. TURBOMAIL邮件服务器—挽救错误邮件
  9. log4cpp乱码_log4cxx配置使用(一)
  10. vs2017python配置opencv cv2_VS2017中配置opencv教程
  11. imindmap思维导图免费下载
  12. php 根据时间算年龄,PHP根据出生日期计算年龄的方法
  13. 人工智能笔记之专业选修课4.1.5 - 博弈论 7.极大极小策略,相关均衡
  14. 微信邮箱怎么弄怎么写?手机可以移动办公吗?
  15. numpy中的统计函数
  16. HDUOJ 2059 龟兔赛跑——
  17. 云计算概念及Linux系统详解
  18. Redhat Enterprise Linux 6.5下安装Oracle11g R2
  19. 了解RESTful接口设计风格
  20. 一杯1CUP:区块链科技与投证生态加持的福鼎一杯与Chain++

热门文章

  1. 考研数学一历年真题小题(选择填空)整理
  2. html中函数的意义,理解函数式 CSS
  3. 运动会管理系统php,运动会管理系统源代码.doc
  4. linux 系统网络服务器组建,配置和管理实训教程 pdf,Linux网络服务器配置管理项目实训教程2...
  5. php中address,address.php
  6. 公务员要过英语六级吗计算机,报考2020年国家公务员考试,必须要过英语四六级吗?...
  7. 网页爬虫python代码_Python 爬虫web网页版程序代码
  8. php连接plc,PLC 几种常见的连接口和通讯协议
  9. android gridview显示本地图片大小,在Android上的GridView中调整图像大小
  10. change事件判断ajax,jquery中change事件里面if语句失效