一、离散化原因

数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:

1、算法需要

比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。

2、离散化的特征相对于连续型特征更易理解,更接近知识层面的表达

比如工资收入,月薪2000和月薪20000,从连续型特征来看高低薪的差异还要通过数值层面才能理解,但将其转换为离散型数据(底薪、高薪),则可以更加直观的表达出了我们心中所想的高薪和底薪。

3、可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定

二、离散化的优势

在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:

  1. 离散特征的增加和减少都很容易,易于模型的快速迭代;

  2. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;

  3. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;

  4. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;

  5. 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;

  6. 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;

  7. 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

三、离散化的方法

1、无监督学习方法

等宽法

等宽法即是将属性值分为具有相同宽度的区间,区间的个数k根据实际情况来决定。比如属性值在[0,60]之间,最小值为0,最大值为60,我们要将其分为3等分,则区间被划分为[0,20] 、[21,40] 、[41,60],每个属性值对应属于它的那个区间

等频法

等宽法即是将属性值分为具有相同宽度的区间,区间的个数k根据实际情况来决定。比如有60个样本,我们要将其分为k=3部分,则每部分的长度为20个样本。

基于聚类的方法

基于聚类的方法分为两个步骤,即:

选定聚类算法将其进行聚类

将在同一个簇内的属性值做为统一标记。

注:基于聚类的方法,簇的个数要根据聚类算法的实际情况来决定,比如对于k-means算法,簇的个数可以自己决定,但对于DBSCAN,则是算法找寻簇的个数。

2、有监督学习方法:

1R方法

基于信息熵的方法

基于卡方的方法

四、总结

模型是使用离散特征还是连续特征,其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型,也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说,前者容易,而且可以n个人一起并行做,有成功经验;后者目前看很赞,能走多远还须拭目以待。

查看原文

机器学习处理数据为什么把连续性特征离散化、离散值、无监督、有监督用处相关推荐

  1. 两个特征是独立好还是正相关好_长文之详解机器学习的数据特征选择问题

    在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论. 但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能: ...

  2. 【机器学习】对于特征离散化,特征交叉,连续特征离散化非常经典的解释

    一.互联网广告特征工程 博文<互联网广告综述之点击率系统>论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种 ...

  3. ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略

    ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析.特征工程.科学预测等)的简介.流程.案例应用执行详细攻略 目录 数据科学的任务(数据分析.特征工程.科学 ...

  4. 按某列获取几行_机器学习获取数据难?别忘记特征工程

    现实世界中的数据可能十分混乱复杂,不论它是相关的SQL数据库.Excel文件或是其它任何数据源.尽管这些数据通常都是表格的结构,即每一行(样本)相对于每一列(特征)都有其对应的值,但是这些数据可能很难 ...

  5. 负数如何归一化处理_机器学习之数据预处理

    第一节:前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的地位. 特征工程:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能 ...

  6. cut out数据增强_被多种离散化场景困扰?8种python技巧!让数据处理更简单

    前言 python数据处理与分析学习过程中,需要有这样的一种意识,即元"为什么选择了python而不是其他?"既然选择了python,那么在实际应用中,它到底哪里不一样?大家说的方 ...

  7. 机器学习系列--数据预处理

    预处理 现实世界数据源极易受噪声.缺失值和不一致数据的侵扰.低质量的数据将导致低质量的挖掘结果. 属性是一个数据字段,表示数据对象的一个特征. 标称属性:一些符号或者事物的名称,比如:职业,学历 二元 ...

  8. 特征挖掘(二):连续特征离散化方法

    1定义: 首先from wiki给出一个标准的连续特征离散化的定义: 在统计和机器学习中,离散化是指将连续属性,特征或变量转换或划分为离散或标称属性/特征/变量/间隔的过程.这在创建概率质量函数时非常 ...

  9. 特征工程--特征离散化的意义

    连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的.为什么一定要用离散特征呢?这样做的好处在哪里? A: 在工业 ...

最新文章

  1. 稀疏自编码器及TensorFlow实现
  2. android 版本控制
  3. hdu 5093 二分匹配
  4. 【Linux病毒】腾讯云 cron、sshd 进程CPU占用超95%(亡命徒 Outlaw 僵尸网络攻击)问题排查及处理步骤
  5. html body 边框,html – 如何在表的tbody / thead部分创建边框?
  6. [转] 能ping通,但不能上网.
  7. NET问答: 重写了 Equals,还有必要重写 GetHashCode 吗?
  8. ASP.NET Core MVC 与 Visual Studio 入门
  9. 【JEECG技术博文】online自定义模板的使用
  10. 使用基于列表的表单控件
  11. 大学生在校期间可以考哪些证书?
  12. 通信系统仿真中的几个能量归一化问题
  13. VMware Workstation Pro下载密钥
  14. DP动态规划思想讲解
  15. 看图识物_‎App Store 上的“认识动物-看图识物大全、学英语”
  16. 微软云服务Azure所有产品简介
  17. idea插件开发--组件--编程久坐提醒
  18. Linux过时了- 塔能鲍姆-托瓦兹辩论(Tanenbaum–Torvalds debate)
  19. 零基础写java网络爬虫
  20. Boost Log : Trivial logging

热门文章

  1. 灾害预警实时监控中心(大数据平台系列)
  2. sql存储过程语法详解
  3. 《大学物理:电磁学》练习题答案(含题目)
  4. 推荐一款USB维护系统:杏雨梨云USB维护系统
  5. 基于chromium浏览器加载ActiveX实践四扩展
  6. php实现基站定位,基站定位和WIFI定位完美结合项目源码
  7. 小孩子多动症有哪些表现?
  8. tf.distribute 分布式训练
  9. 云计算机房建设方案,云服务器 机房建设方案
  10. 【XMPP 协议介绍】