数据类型有很多,在机器学习中,这些类型基本特征大致分为两类:

  1. 一是如浮点数组成的连续特征
  2. 二是通常并不是数值的分类特征,或者叫做离散特征

通常无论你的数据包含那种类型的特征,数据表示方式都会对机器学习模型的性能产生巨大影响,这就要求我们要对数据进行处理,如数据放缩、特征扩充等等。

对于某个特定应用来说,如何找到最佳数据表示,这个问题被称为特征工程(feature engineering)
它是数据科学家和机器学习从业者在尝试解决现实世界问题时的主要任务之一。用正确的方式表示数据,对监督模型性能的影响比所选择的精确参数还要大。

1. 分类变量


如图,这是美国成年人收入的数据图。
最后的输出的income是一个分类任务(>50和<=50),当然很多时候会让你预测具体收入值,这就更困难了。
这个数据集中,age(年龄)和 hours-per-week(每周工作时长)是连续特征。但 workclass(工作类型)、education(教育程度)、gender(性别)、occupation(职业)都是分类特征。它们都来自一系列固定的可能取值(而不是一个范围),表示的是定性属性(而不是数量)。
若都是数值我们可以用Logistic回归来做

但现在不是数值,用这个就没有意义了,所以我们要将其数字化。

1.1 One-Hot编码(虚拟变量)

one-Hot编码也称为N取一编码,也叫虚拟变量
虚拟变量背后的思想是将一个分类变量替换为一个或多个新特征,新特征取值为 0 和 1。
如有workclass有三个特征“State-gov”,“Self-emp-not-inc”,“Private“。“State-gov”可以取为[1,0,0],“Self-emp-not-inc”可以为[0,1,0],“Private“可以是[0,0,1]。
这个表可能更直观一些

剩下还有很多内容,md格式实在不太方便,还望移步到我的GitHub
https://github.com/lizheng-1/cnn1/blob/master/Untitled.ipynb

github慢的话码云也可以
https://gitee.com/lizheng0219/cnn1/blob/master/Untitled.ipynb

写给小白的机器学习之数据表示与特征工程详解(附实战代码)相关推荐

  1. 机器学习中的特征工程详解

    转载请注明出处:http://blog.csdn.net/linxdcn/article/details/80866745 最近看完一本写特征工程的书,概念清晰,内容全面,所以总结如下读书笔记,书名: ...

  2. 【小白学PyTorch】10.pytorch常见运算详解

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 <<小白学PyTorch>> 参考目录: ...

  3. 使用pickle保存机器学习模型详解及实战(pickle、joblib)

    使用pickle保存机器学习模型详解及实战 pickle模块实现了用于序列化和反序列化Python对象结构的二进制协议. "Pickling"是将Python对象层次结构转换为字节 ...

  4. 【小白入门】超详细的OCRnet详解(含代码分析)

    [小白入门]超详细的OCRnet详解(含代码分析) OCRnet 简介 网络结构 具体实现(含代码分析) 实验结果 本文仅梳理总结自己在学习过程中的一些理解和思路,不保证绝对正确,请酌情参考.如果各位 ...

  5. 机器学习最易懂之EM算法详解与python实现

    文章目录 0.前言 1.EM算法引入 2.具体的EM算法 3.EM算法推导 3.1 Jensen不等式 3.2 EM推导 3.3 EM算法的收敛性 4.EM算法在高斯混合模型中的应用 4.1 高斯混合 ...

  6. 机器学习丨AI产品经理应该懂哪些技术(附实战代码)

    前言 本期目的:回顾之前敲代码的日常,利用生活场景帮助小白认识机器学习及学习过程中算法原理和评价指标. 适用读者:AI/数据产品经理. 阅读重点:品,细品,结合班级故事再品. 最近看了很多关于机器学习 ...

  7. 【机器学习入门】(10) 特征工程:特征抽取,字典特征抽取、文本特征抽取,附完整python代码

    各位同学好,今天和大家介绍一下python机器学习中的特征工程.在将数据放入模型之前,需要对数据的一些特征进行特征抽取,方法有: (1) 字典特征抽取 DictVectorizer(),(2) 文本特 ...

  8. 【机器学习】集成学习及算法详解

    集成学习及算法详解 前言 一.随机森林算法原理 二.随机森林的优势与特征重要性指标 1.随机森林的优势 2.特征重要性指标 三.提升算法概述 四.堆叠模型简述 五.硬投票和软投票 1.概念介绍 2.硬 ...

  9. 机器学习系列(5)_特征工程02特征提取

    文章目录 一.Filter过滤法 1.方差过滤 (1)使用KNN进行考察 (2)使用随机森林(RFC)进行考察 2.相关性过滤 (1)卡方过滤 (2) 用随机森林进行比较特征选择 (3)选取超参数 ( ...

最新文章

  1. mysql 资源占用过高分析和解决方法
  2. 全球及中国一次性造口袋行业发展前景预测及投资价值分析报告2021-2027年版
  3. php函数get和set,php中外部类调用_get函数和_set函数的方法
  4. AVS264_FAQ集锦
  5. c语言循环数组赋值,for循环里边给数组赋值的难题
  6. 前后端分离 常用工具汇总
  7. kafka消费者脚本无法启动问题
  8. pytorch 实现Gradient Flipping 各种坑
  9. 谈一谈python中的魔法变量*args和**kwargs
  10. 爬取世界各国历年的GDP数据
  11. Hive 3.1.2 国内镜像下载地址
  12. C语言航空订票系统课程设计
  13. JavaScript上传图片方式
  14. linux压缩包解压
  15. 快手 (kuaishou.net) 2.8 发布
  16. 重装系统后需要做什么?
  17. layui 表格加载动画_巴州动画
  18. 画廊效果的ViewPager实现(附带无限自动轮播)
  19. 通达信VCP形态选股公式,憋了好几天才写出来
  20. uiautomator测试中scrollForward方法使用失灵

热门文章

  1. 前大灯是近光灯还是远光灯_大快人心!仙游交警启动监控抓拍滥用远光灯车辆!...
  2. 鸿蒙系统开发者如何加入,鸿蒙开发实战系列之五:鸿蒙系统原生数据库
  3. aes加密 java_Android逆向中记算法识别(aes、tea、md5)
  4. 对“善于提问,主动解决问题”的程序员的吐槽
  5. Win10 取消桌面快捷键图标
  6. spring boot: 支持jsp,支持freemarker
  7. 自动化测试---Assert
  8. SQL基础:数据表的创建
  9. IntelliJ IDEA 配置chrome插件调试js代码
  10. Maven常用的命令