关于无序分类变量量化的处理思考
想必各位用过数据挖掘算法的朋友都会遇到一个问题,就是如何对分类变量进行量化,这个在回归建模或求距离的时候经常遇见。
在此,我把这个问题分解成三个子问题,如下:
(1)对有序分类变量的量化。
(2)对逻辑变量的量化。
(3)对无序分类变量的量化。
首先,对有序分类变量的量化,这个比较简单,常用顺序编号代替具体的分类来量化。比如一次比赛有三个名次。小明得了第一名,小强得了第三名,小方得了第二名。对于这种情况,小明、小强、小方的名次可以用一个向量来表示A=(第一名,第三名,第二名)。为A编号得到向量B=(1,3,2)。在进行分析时,我们直接使用B就可以了。这是针对有序分类变量量化的一种处理思路。
其次,对于逻辑变量的量化,我们直接将逻辑值分别用0或1表示即可。但是需要注意到具体属性的业务含义,以免弄错。比如,属性‘是否男生’,对于值(男,女,男)这样的值,可以得到量化后的值(1,0,1)。同样的序列,如果针对属性‘是否女生’,则它的量化结果为(0,1,0)。这两个量化结果是完全不一样的。马上就会有人提出这样的问题,”如果属性不是逻辑判断,而是<性别>,那该怎么量化呢“,这其实是接着下面要讨论的量化方法。
最后,这里简单介绍一种针对无序分类变量的量化方法。就拿上一段落的一个问题来说,男和女表示性别,然后对这样的一个序列(男,女,男,男)该如何量化呢?我们可以这样考虑:这里性别为男的出现3次,性别为女的出现1次,男女出现次数之比为3:1。也就是说对性别这个属性而言,男的权重比女的权重要大。我们可以尝试将(男,女,男,男)序列,量化为(3,1,3,3),而通过求秩变为(2,1,2,2),等等。
至于效果这里不作验证,但我觉得既然是开放性的思考,思考自然也可以海阔天空,也希望各位有识之士多提意见~
关于无序分类变量量化的处理思考相关推荐
- 分类型变量预测连续型变量_SPSS中的Variable数据变量类型介绍,一次性弄清无序分类变量、有序分类变量、 离散型数值变量、连续型数值变量的区别!...
变量的概念:变量也就是就是一种可以进行测量的数据条目(data item),对于定义变量在统计里非常重要,特别是在进行SPSS分析的时候,需要明确定义一个变量的性质.打开SPSS软件时,数据录入界面上 ...
- 有序/无序分类变量的统计推断
有序/无序分类变量的统计推断 1 有序分类变量的统计推断--非参数检验 1.1 非参数检验概述 1.2 两个配对样本的非参数检验 1.3 两个独立样本的非参数检验 1.4 多个独立样本的非参数检验 1 ...
- python特征工程有序变量处理_R与Python手牵手:特征工程(分类变量)
作者:黄天元,复旦大学博士在读,热爱数据科学与R,热衷推广R在业界的应用.邮箱:huang.tian-yuan@qq.com.欢迎交流! 这次给大家分享的是对分类变量进行特征工程.很多时候我们会遇到一 ...
- Python超实用小技巧:分类变量转化为哑变量(附哑变量详解)
代码示例 features = ["Pclass", "Sex", "SibSp", "Parch"]# 筛选出分类变量 ...
- R语言分类变量进行回归时的编码方案
本文首发于公众号:医学和生信笔记,完美观看体验请至公众号查看本文. 文章目录 演示数据 Dummy Coding simple coding Deviation coding Orthogonal P ...
- python分类变量相关性分析_Python数据科学:相关分析
目前手上有两本书,一本<利用Python进行数据分析>,一本<Python数据科学>.app 对于学习什么东西,都有它的「道」和「术」.「道」即原理,「术」即技巧.dom 经过 ...
- R语言使用factor函数处理名义变量(nominal、无序/标称分类变量)、使用ordered函数处理序数变量(ordinal、有序分类/标称变量)
R语言使用factor函数处理名义变量(nominal.无序/标称分类变量).使用ordered函数处理序数变量(ordinal.有序分类/标称变量) 目录
- one-hot encoding不是万能的,这些分类变量编码方法你值得拥有
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:Andre Ye,来源:机器之心.NewBeeNLP one-ho ...
- one-hot encoding 并非分类变量编码的唯一选择
本文转载自机器之心. 选自towardsdatascience 机器之心编译 作者:Andre Ye 编辑:小舟.张倩 one-hot encoding 是一种被广泛使用的编码方法,但也会造成维度过高 ...
最新文章
- java jetty eclipse_用Eclipse+Maven+Jetty构建Java Web开发环境(详细笔记)
- cytoscape使用方法_信号通路分析工具教程——Cytoscape及OmniPath插件
- 正则表达式 之 回溯引用:前后一致匹配
- Android 黑色样式menu
- @Html.DisplayFor 和 @mode.Display
- bzoj 2212 Tree Rotations
- sqlSessionc操作数据库增删改无效问题
- 大数据之路阿里巴巴实践
- 【毕业设计】基于树莓派的指纹识别与RFID考勤系统 - 嵌入式 单片机 物联网
- caffe+报错︱深度学习参数调优杂记+caffe训练时的问题+dropout/batch Normalization
- 【pytorch】微调技术
- 使用 pandoc 进行文档转换(markdown转pdf)
- 如何理解移动数据和移动计算
- ISO/IEC 9126 软件质量模型
- 外贸数字化发展,进出口新业态新空间丨汇信
- 【精品推荐】程序员必定会爱上的十款软件:不用就太浪费了@^@
- 性能:到底什么是性能测试
- Java函数式接口--抽象方法接口
- 打开网页报错:net::ERR_CONTENT_LENGTH_MISMATCH,网页打开时显示不全,需要刷新几次才行
- 自动化测试Selenium java学习
热门文章
- Android对话框的高级设置《一》设置对话框按钮的图像和在内容文本中插入图像
- 在变量前面加个叹号什么意思_a little表示很少,quite a little什么意思?形容数量多少的用法...
- V4L2Gstreamer媒体控制工具(五)
- Android增量更新——bsdiffbspatch
- Audio bringup I2C调试(三十一)
- webgis之相关工具
- 3ds Max Graphic Device Error 怎么解决(设置问题)
- wireshark-抓包极简使用教程
- 进不去系统,解决办法
- java 容易犯错_写Java程序最容易犯错误有哪些呢?