数据处理之one-hot
分类方法,通常需要把数据的各个属性转换为一个向量表示,这样每条数据的特征就是一个向量,向量上的每个维度就表示了一个特征属性。
但是如果要转换的数据包含了3种属性,比如身高,体重,年龄。A是女,168cm,70kg,30岁;B是男,180cm,90kg,20岁,那么直接用数值做向量就变成了,0,168,70,30;1,180,90,20。而168和70或者30是不同的属性,更明显的是0或1表示的性别和其他维度差距更大。
有一种是对每个维度的数值进行无量纲的归一化,也就是说每个维度的数值都归一化处理到0-1或者-0.5-+0.5之间。
但是这样依然不好,比如表示性别的0,1与其他维度依然关联不大,所以有一种叫one-hot的编码方式,就是表示一项属性的特征编码,同一时间只有一个激活点(不为0)。这样A的性别变为【1,0】,B的性别编码为【0,1】。年龄,体重,身高等可以用更多数量的enum表示(数量不是一定要满足所有枚举,而是满足实际数据出现的类别就可以了,比如只有三种身高,那么身边表示的只需要[0,0,1]就可以)
然后将各个属性,串联起来,构建了一个非常稀疏的特征向量,比如性别和身高串联为【0,1,0,0,1】,保证了各种数据的离散性。
相关参考:
http://blog.csdn.net/google19890102/article/details/44039761
数据处理之one-hot相关推荐
- 数据结构(03)— 数据处理基本操作(数据的查找、新增、删除、修改)
我们先来看一个关于查找的例子.查找,就是从复杂的数据结构中,找到满足某个条件的元素.通常可从以下两个方面来对数据进行查找操作: 根据元素的位置或索引来查找: 根据元素的数值特征来查找. 针对上述两种 ...
- 大规模数据处理Apache Spark开发
大规模数据处理Apache Spark开发 Spark是用于大规模数据处理的统一分析引擎.它提供了Scala.Java.Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎.它 ...
- 2021年大数据Spark(二十六):SparkSQL数据处理分析
目录 SparkSQL数据处理分析 基于DSL分析 基于SQL分析 第一步.注册为临时视图 第二步.编写SQL,执行分析 SparkSQL数据处理分析 在SparkSQL模块中,将结构化 ...
- 电子表单系列谈之表单数据处理
袁永福( http://www.xdesigner.cn ) 2007-8-16 点击下载其表单工具概念版本 一般的电子表单工具都要求能自动显示和保存关系型数据库中的数据,比如可以使用SQL语句查询数 ...
- python怎么做彩票概率_用Python一次性把论文作图与数据处理全部搞定!
一入科研深似海-- 年底将近,"防脱发用生姜还是黑芝麻?",研究僧们又开始为自己所剩无几的头发发愁了. 文献看到头秃,前沿课题总是无缘 置顶了一页实验组微信群.QQ群,想追踪前沿文 ...
- 【radar】毫米波雷达动态障碍物检测相关论文汇总(聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理)(4)
[radar]毫米波雷达动态障碍物检测相关论文汇总(聚类.分类.稀疏2D点.4D点.雷达成像.原始数据处理)(4) Detection of Dynamic Objects Clustering 20 ...
- Javascript中二进制数据处理方法
Javascript中二进制数据处理方法 转载于:https://www.cnblogs.com/motadou/archive/2012/02/19/2358514.html
- nodejs操作sqlserver数据_pyspark操作MySQL、SQLServer数据库进行数据处理操作
欢迎访问本人的CSDN博客[Together_CZ],我是沂水寒城. https://yishuihancheng.blog.csdn.net 在大数据处理领域里面,Hadoop和spark可以说是最 ...
- python中符号计算输出数学_Python科学计算与数据处理—符号运算库.doc
Python 科学计算与数据处理 - 符号运算库 符号运算库目录从示例开始欧拉恒等式球体体积数学表达 式符号数值运算符和函数符号运算表达式转换和简化方程目录微分 方程积分其他函数符号运算库. 它的目标 ...
- jpanel不使用jframe保存的图片为空_使用DataBinding还在为数据处理头疼?这篇文章帮你解决问题
前言 在前几年兴起了MVVM架构设计模式,最具有代表的框架就是DataBinding,虽然这种设计架构非常新颖,但是在使用中仍然还有很多痛点,所以我当时觉得短时间这个设计架构可能不会太流行. 最近接手 ...
最新文章
- MyBatis-22MyBatis缓存配置【一级缓存】
- 俞敏洪:如果创业者缺乏这8种能力,失败可能性很大
- Log4j 第三次发布漏洞补丁,漏洞或将长存
- python多变量拟合_Python曲线将多个参数拟合到多个数据集
- 如何全面认识大数据分析的基础知识
- 网络战争阴影临近,伊朗核设施受攻击
- 使用 github + jekyll 搭建个人博客
- 五金件常见问题01——2.普通螺纹与管螺纹
- iap如何初始化_STM32F4-IAP学习笔记(一)
- 最全的关于硬件测试的解读
- centos配置虚拟主机(站点)
- 前端des加密,后端des解密
- java后端处理Apple Pay流程
- hls视频流_HLS视频流:它是什么,以及何时使用它
- mysql中高阶玩法系列(六)
- oracle ebs form查询,Oracle EBS FORM 更改记录状态
- Keil无法跳转到(go to definition)函数定义的地方,而是出现Browser
- 星起航:跨境电商迎来黄金时代,未来或将持续释放红利
- 【L2-036 网红点打卡攻略】
- 天翼物联推出行业应用开发套件,七大能力降低产品开发门槛