想必各位用过数据挖掘算法的朋友都会遇到一个问题,就是如何对分类变量进行量化,这个在回归建模或求距离的时候经常遇见。

在此,我把这个问题分解成三个子问题,如下:

(1)对有序分类变量的量化。

(2)对逻辑变量的量化。

(3)对无序分类变量的量化。

首先,对有序分类变量的量化,这个比较简单,常用顺序编号代替具体的分类来量化。比如一次比赛有三个名次。小明得了第一名,小强得了第三名,小方得了第二名。对于这种情况,小明、小强、小方的名次可以用一个向量来表示A=(第一名,第三名,第二名)。为A编号得到向量B=(1,3,2)。在进行分析时,我们直接使用B就可以了。这是针对有序分类变量量化的一种处理思路。

其次,对于逻辑变量的量化,我们直接将逻辑值分别用0或1表示即可。但是需要注意到具体属性的业务含义,以免弄错。比如,属性‘是否男生’,对于值(男,女,男)这样的值,可以得到量化后的值(1,0,1)。同样的序列,如果针对属性‘是否女生’,则它的量化结果为(0,1,0)。这两个量化结果是完全不一样的。马上就会有人提出这样的问题,”如果属性不是逻辑判断,而是<性别>,那该怎么量化呢“,这其实是接着下面要讨论的量化方法。

最后,这里简单介绍一种针对无序分类变量的量化方法。就拿上一段落的一个问题来说,男和女表示性别,然后对这样的一个序列(男,女,男,男)该如何量化呢?我们可以这样考虑:这里性别为男的出现3次,性别为女的出现1次,男女出现次数之比为3:1。也就是说对性别这个属性而言,男的权重比女的权重要大。我们可以尝试将(男,女,男,男)序列,量化为(3,1,3,3),而通过求秩变为(2,1,2,2),等等。

至于效果这里不作验证,但我觉得既然是开放性的思考,思考自然也可以海阔天空,也希望各位有识之士多提意见~

关于无序分类变量量化的处理思考相关推荐

  1. 分类型变量预测连续型变量_SPSS中的Variable数据变量类型介绍,一次性弄清无序分类变量、有序分类变量、 离散型数值变量、连续型数值变量的区别!...

    变量的概念:变量也就是就是一种可以进行测量的数据条目(data item),对于定义变量在统计里非常重要,特别是在进行SPSS分析的时候,需要明确定义一个变量的性质.打开SPSS软件时,数据录入界面上 ...

  2. 有序/无序分类变量的统计推断

    有序/无序分类变量的统计推断 1 有序分类变量的统计推断--非参数检验 1.1 非参数检验概述 1.2 两个配对样本的非参数检验 1.3 两个独立样本的非参数检验 1.4 多个独立样本的非参数检验 1 ...

  3. python特征工程有序变量处理_R与Python手牵手:特征工程(分类变量)

    作者:黄天元,复旦大学博士在读,热爱数据科学与R,热衷推广R在业界的应用.邮箱:huang.tian-yuan@qq.com.欢迎交流! 这次给大家分享的是对分类变量进行特征工程.很多时候我们会遇到一 ...

  4. Python超实用小技巧:分类变量转化为哑变量(附哑变量详解)

    代码示例 features = ["Pclass", "Sex", "SibSp", "Parch"]# 筛选出分类变量 ...

  5. R语言分类变量进行回归时的编码方案

    本文首发于公众号:医学和生信笔记,完美观看体验请至公众号查看本文. 文章目录 演示数据 Dummy Coding simple coding Deviation coding Orthogonal P ...

  6. python分类变量相关性分析_Python数据科学:相关分析

    目前手上有两本书,一本<利用Python进行数据分析>,一本<Python数据科学>.app 对于学习什么东西,都有它的「道」和「术」.「道」即原理,「术」即技巧.dom 经过 ...

  7. R语言使用factor函数处理名义变量(nominal、无序/标称分类变量)、使用ordered函数处理序数变量(ordinal、有序分类/标称变量)

    R语言使用factor函数处理名义变量(nominal.无序/标称分类变量).使用ordered函数处理序数变量(ordinal.有序分类/标称变量) 目录

  8. one-hot encoding不是万能的,这些分类变量编码方法你值得拥有

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Andre Ye,来源:机器之心.NewBeeNLP one-ho ...

  9. one-hot encoding 并非分类变量编码的唯一选择

    本文转载自机器之心. 选自towardsdatascience 机器之心编译 作者:Andre Ye 编辑:小舟.张倩 one-hot encoding 是一种被广泛使用的编码方法,但也会造成维度过高 ...

最新文章

  1. java jetty eclipse_用Eclipse+Maven+Jetty构建Java Web开发环境(详细笔记)
  2. cytoscape使用方法_信号通路分析工具教程——Cytoscape及OmniPath插件
  3. 正则表达式 之 回溯引用:前后一致匹配
  4. Android 黑色样式menu
  5. @Html.DisplayFor 和 @mode.Display
  6. bzoj 2212 Tree Rotations
  7. sqlSessionc操作数据库增删改无效问题
  8. 大数据之路阿里巴巴实践
  9. 【毕业设计】基于树莓派的指纹识别与RFID考勤系统 - 嵌入式 单片机 物联网
  10. caffe+报错︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
  11. 【pytorch】微调技术
  12. 使用 pandoc 进行文档转换(markdown转pdf)
  13. 如何理解移动数据和移动计算
  14. ISO/IEC 9126 软件质量模型
  15. 外贸数字化发展,进出口新业态新空间丨汇信
  16. 【精品推荐】程序员必定会爱上的十款软件:不用就太浪费了@^@
  17. 性能:到底什么是性能测试
  18. Java函数式接口--抽象方法接口
  19. 打开网页报错:net::ERR_CONTENT_LENGTH_MISMATCH,网页打开时显示不全,需要刷新几次才行
  20. 自动化测试Selenium java学习

热门文章

  1. Android对话框的高级设置《一》设置对话框按钮的图像和在内容文本中插入图像
  2. 在变量前面加个叹号什么意思_a little表示很少,quite a little什么意思?形容数量多少的用法...
  3. V4L2Gstreamer媒体控制工具(五)
  4. Android增量更新——bsdiffbspatch
  5. Audio bringup I2C调试(三十一)
  6. webgis之相关工具
  7. 3ds Max Graphic Device Error 怎么解决(设置问题)
  8. wireshark-抓包极简使用教程
  9. 进不去系统,解决办法
  10. java 容易犯错_写Java程序最容易犯错误有哪些呢?