难点
技术复杂、资料混乱、没有现成第三方库

特征衍生方法

单变量特征衍生——一个变量放进去衍生多个特征
双变量特征衍生——二组合生多
关键特征衍生——文本/时序
多变量特征衍生——三个及以上特征进行组合

单变量特征衍生

数据冲编码特征衍生

原特征与衍生特征都可以带入特征工程

连续变量:
标准化
离散化

离散变量:
自然数编码/字典编码(非数值变数值)
duress编码/哑变量变换

高阶多项式特征衍生

求二次方、三次方等

特征衍生准则

  1. 分类变量优先独热编码 | 连续变量优先数据归一化
  2. 连续变量较多时考虑聚类分箱;数据量大考虑minibatch
  3. 不建议对单变量使用多项式衍生,带有交叉项的多项式衍生往往效果更好

双变量特征衍生

方法:

  1. 四则运算
  2. 交叉组合
  3. 分组统计
  4. 多项式

四则预算

选两列进行加减乘除

运用场景:
创建业务补充字段
数据信息补充
多次衍生的到特殊字段

多项式特征衍生

效果好,不复杂,含交叉项x1*x2等

注意事项
优先两个连续型变量
选取重要的特征进行多项式衍生,强化重要特征的表现形式
往往衍生3阶左右,配合归一化处理雄安出数值绝对值爆炸或衰减所造成的影响

PolynomialFeatures:
interaction_only默认为false,true表示只创建交叉项
include_bias默认为true即考虑零次方

第一个特征项数依次递减,第二个特征一次递增

交叉组合

不同分类变量不同取值的组合
仅适用于取值较少的分类变量之间进行

分组统计

对特征a根据特征b不同的特征进行分组统计,求统计量

注意事项:
特征a可以时离散也可以是连续,特征b必须是离散且最好取值较多的离散(或取值固定的连续)
统计方法不一定锁死,可以交叉使用,连续性统计众数离散型统计均值

特征工程——特征衍生相关推荐

  1. 数据挖掘:特征工程——特征处理与特征生成

    数据挖掘:特征工程--特征处理与特征构建 这里贴一张网上特征工程的流程,供大家学习. 一.什么是特征工程 特征工程:其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用..就是 ...

  2. K-近邻算法之特征工程-特征预处理

    K-近邻算法之特征工程-特征预处理 1 什么是特征预处理 1.1 特征预处理定义 scikit-learn的解释 provides several common utility functions a ...

  3. 机器学习之特征工程--特征预处理(上)

    机器学习特征工程--特征预处理(上) 最近又重新看了下常用的特征预处理方法,主要来源是sklearn官方文档,一些关键信息记录下,留存用,有些乱和杂,抽时间再整理. 此为上篇,主要包括:线性转化,非线 ...

  4. 特征工程--特征离散化的意义

    连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的.为什么一定要用离散特征呢?这样做的好处在哪里? A: 在工业 ...

  5. 特征工程——特征构造

    特征工程概述 一.特征工程概述 特征工程 = 数据准备(for 数据挖掘) 数据清洗.转换 1.1 特征工程主要内容 1.2 特征工程重要性 好数据>多数据>好算法数据和特征决定了模型预测 ...

  6. 特征工程特征预处理归一化与标准化、鸢尾花种类预测代码实现

    一.特征预处理 特征工程目的:把数据转换成机器更容易识别的数据 scikit-learn:提供几个常见的实用程序函数和转换器类,以将原始特征向量更改为更适合下游估计器的表示形式.即通过一些转换函数将特 ...

  7. 特征工程+特征组合+特征交叉+特征变换+生成特征

    特征组合+特征交叉(交叉特征,组合特征,特征组合)+特征变换+生成特征+特征提取+ 特征缩放+特征选择+特征分箱+时间特征+特征关联+文本特征+特征采样 特征关联---->corr() 特征分箱 ...

  8. 特征工程——特征转换

    一.连续型变量 1.1 连续变量无量纲化 1.2 连续变量数据变换 1.3 连续变量离散化 二.类别变量编码 三.时间型.日期型变量转换 四. 缺失值处理 五. 特征组合 一.连续型变量 1.1 连续 ...

  9. 特征工程 - 特征筛选

    https://www.cnblogs.com/iupoint/p/11289650.html

最新文章

  1. oracle结果集过大,多重子查询/大结果集查询问题
  2. 互联网日报 | 新东方二次上市通过港交所聆讯;陌陌宣布任命新CEO;广汽蔚来发致歉声明...
  3. Exchange Server 2016管理系列课件46.DAG管理之Powershell创建DAG
  4. 图嵌入知识表征の初体验
  5. 【通信】基于matlab GUI循环码编译码器【含Matlab源码 692期】
  6. Moto XT1085 国行 解锁BL
  7. KaTeX|LaTeX数学公式编辑手册
  8. stap中的entry函数
  9. CC2530 实现无线串口
  10. 基于SSM班级网站建设
  11. 提取windows安装盘install.wim文件修复mstsc
  12. Hololens环境搭建
  13. 【数据结构(25)】5.7 哈夫曼树及其应用
  14. 深度学习需要的电脑配置
  15. Google+ 登录
  16. Java格式化输出(表格样式)
  17. 大数据项目之电商数据仓库系统回顾
  18. 【链表】判断链表是否有环-快慢指针
  19. 03 编程猫之早早早,我要去学校(顺序结构)
  20. 开发一个简单的APP到底需要多少钱

热门文章

  1. windows文本绘制 TextOut、DrawText、CreateFont、SetTextColor、SetBkColor、SetBkMode
  2. GAPSAND ISLANDS
  3. qrcode生成带logo二维码
  4. IT运维和信息安全网络安全相关的认证培训有哪些 ?
  5. linux低功耗服务器,低功耗版Linux:WattOS
  6. 基于J2EE的JSH框架和百度语音识别接口实现的语音记账APP
  7. Robots.txt泄露敏感信息
  8. 深入并发线程、进程、纤程、协程、管程与死锁、活锁、锁饥饿详解
  9. docker run 挂载卷_使用Windows主机时如何挂载Docker卷?
  10. 【课程学习】(中国大学MOOC)武汉理工大学高级人工智能原理与技术课后习题笔记(6-9章)