前言

  特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。

  特征工程的目的是筛选出更好的特征,获取更好的训练数据。因为好的特征具有更强的灵活性,可以用简单的模型做训练,更可以得到优秀的结果。“工欲善其事,必先利其器”,特征工程可以理解为利其器的过程。互联网公司里大部分复杂的模型都是极少数的数据科学家在做,大多数工程师们做的事情基本是在数据仓库里搬砖,不断地数据清洗,再一个是分析业务不断地找特征。 例如,某广告部门的数据挖掘工程师,2周内可以完成一次特征迭代,一个月左右可以完成模型的小优化,来提升auc。


1. 数据采集 / 清洗 / 采样

数据采集:数据采集前需要明确采集哪些数据,一般的思路为:哪些数据对最后的结果预测有帮助?数据我们能够采集到吗?线上实时计算的时候获取是否快捷?

  举例1:我现在要预测用户对商品的下单情况,或者我要给用户做商品推荐,那我需要采集什么信息呢?

  -店家:店铺的评分、店铺类别……

  -商品:商品评分、购买人数、颜色、材质、领子形状……

  -用户:历史信息(购买商品的最低价最高价)、消费能力、商品停留时间……

数据清洗: 数据清洗也是很重要的一步,机器学习算法大多数时候就是一个加工机器,至于最后的产品如何,取决于原材料的好坏。数据清洗就是要去除脏数据,比如某些商品的刷单数据。

  那么如何判定脏数据呢?

  1) 简单属性判定:一个人身高3米+的人;一个人一个月买了10w的发卡。

  2) 组合或统计属性判定:号称在米国却ip一直都是大陆的新闻阅读用户?你要判定一个人是否会买篮球鞋,样本中女性用户85%?

  3) 补齐可对应的缺省值:不可信的样本丢掉,缺省值极多的字段考虑不用。

数据采样:采集、清洗过数据以后,正负样本是不均衡的,要进行数据采样。采样的方法有随机采样和分层抽样。但是随机采样会有隐患,因为可能某次随机采样得到的数据很不均匀,更多的是根据特征采用分层抽样。  

正负样本不平衡处理办法:

  正样本 >> 负样本,且量都挺大 => downsampling

  正样本 >> 负样本,量不大 =>

    1)采集更多的数据

    2)上采样/oversampling(比如图像识别中的镜像和旋转)

    3)修改损失函数/loss function (设置样本权重)


2. 特征处理

2.1 数值型

  1.  幅度调整/归一化:python中会有一些函数比如preprocessing.MinMaxScaler()将幅度调整到 [0,1] 区间。

  2.统计值:包括max, min, mean, std等。python中用pandas库序列化数据后,可以得到数据的统计值。 

  3.离散化:把连续值转成非线性数据。例如电商会有各种连续的价格表,从0.03到100元,假如以一元钱的间距分割成99个区间,用99维的向量代表每一个价格所处的区间,1.2元和1.6元的向量都是 [0,1,0,…,0]。pd.cut() 可以直接把数据分成若干段。

  4.柱状分布:离散化后统计每个区间的个数做柱状图。

2.2 类别型

  类别型一般是文本信息,比如颜色是红色、黄色还是蓝色,我们存储数据的时候就需要先处理数据。处理方法有:

  1. one-hot编码,编码后得到哑变量。统计这个特征上有多少类,就设置几维的向量,pd.get_dummies()可以进行one-hot编码。

  2. Hash编码成词向量: 
   

  3. Histogram映射:把每一列的特征拿出来,根据target内容做统计,把target中的每个内容对应的百分比填到对应的向量的位置。优点是把两个特征联系起来。

   

  上表中,我们来统计“性别与爱好的关系”,性别有“男”、“女”,爱好有三种,表示成向量 [散步、足球、看电视剧],分别计算男性和女性中每个爱好的比例得到:男[1/3, 2/3, 0],女[0, 1/3, 2/3]。即反映了两个特征的关系。

2.3 时间型

  时间型特征的用处特别大,既可以看做连续值(持续时间、间隔时间),也可以看做离散值(星期几、几月份)。

  连续值

    a) 持续时间(单页浏览时长)

    b) 间隔时间(上次购买/点击离现在的时间)

  离散值

    a) 一天中哪个时间段(hour_0-23)

    b) 一周中星期几(week_monday...)

    c) 一年中哪个星期

    d) 一年中哪个季度

    e) 工作日/周末

  数据挖掘中经常会用时间作为重要特征,比如电商可以分析节假日和购物的关系,一天中用户喜好的购物时间等。

2.4 文本型

  1. 词袋:文本数据预处理后,去掉停用词,剩下的词组成的list,在词库中的映射稀疏向量。Python中用CountVectorizer处理词袋.

  2. 把词袋中的词扩充到n-gram:n-gram代表n个词的组合。比如“我喜欢你”、“你喜欢我”这两句话如果用词袋表示的话,分词后包含相同的三个词,组成一样的向量:“我 喜欢 你”。显然两句话不是同一个意思,用n-gram可以解决这个问题。如果用2-gram,那么“我喜欢你”的向量中会加上“我喜欢”和“喜欢你”,“你喜欢我”的向量中会加上“你喜欢”和“喜欢我”。这样就区分开来了。

  3. 使用TF-IDF特征:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF(t) = (词t在当前文中出现次数) / (t在全部文档中出现次数),IDF(t) = ln(总文档数/ 含t的文档数),TF-IDF权重 = TF(t) * IDF(t)。自然语言处理中经常会用到。

2.5 统计型

   加减平均:商品价格高于平均价格多少,用户在某个品类下消费超过平均用户多少,用户连续登录天数超过平均多少...

   分位线:商品属于售出商品价格的多少分位线处

   次序型:排在第几位

   比例类:电商中,好/中/差评比例,你已超过全国百分之…的同学

  

2.6 组合特征

  1. 拼接型:简单的组合特征。例如挖掘用户对某种类型的喜爱,对用户和类型做拼接。正负权重,代表喜欢或不喜欢某种类型。

  - user_id&&category: 10001&&女裙 10002&&男士牛仔

  - user_id&&style: 10001&&蕾丝 10002&&全棉 

  2. 模型特征组合:

  - 用GBDT产出特征组合路径

  - 组合特征和原始特征一起放进LR训练


3. 特征选择

  特征选择,就是从多个特征中,挑选出一些对结果预测最有用的特征。因为原始的特征中可能会有冗余和噪声。

  特征选择和降维有什么区别呢?前者只踢掉原本特征里和结果预测关系不大的, 后者做特征的计算组合构成新特征。

3.1 过滤型

   - 方法:  评估单个特征和结果值之间的相关程度, 排序留下Top相关的特征部分。

   - 评价方式:Pearson相关系数, 互信息, 距离相关度。

   - 缺点:只评估了单个特征对结果的影响,没有考虑到特征之间的关联作用, 可能把有用的关联特征误踢掉。因此工业界使用比较少。

   - python包:SelectKBest指定过滤个数、SelectPercentile指定过滤百分比。

3.2 包裹型

  - 方法:把特征选择看做一个特征子集搜索问题, 筛选各种特征子集, 用模型评估效果。

  - 典型算法:“递归特征删除算法”。

  - 应用在逻辑回归的过程:用全量特征跑一个模型;根据线性模型的系数(体现相关性),删掉5-10%的弱特征,观察准确率/auc的变化;逐步进行, 直至准确率/auc出现大的下滑停止。

  - python包:RFE 
  

3.3 嵌入型

   - 方法:根据模型来分析特征的重要性,最常见的方式为用正则化方式来做特征选择。

   - 举例:最早在电商用LR做CTR预估, 在3-5亿维的系数特征上用L1正则化的LR模型。上一篇介绍了L1正则化有截断作用,剩余2-3千万的feature, 意味着其他的feature重要度不够。

   - python包:feature_selection.SelectFromModel选出权重不为0的特征。

《注:以上总结来自于七月在线课程》

机器学习(一)特征工程基本流程相关推荐

  1. 机器学习之 特征工程

    之前相关文章目录: 机器学习 之线性回归 机器学习 之逻辑回归及python实现 机器学习项目实战 交易数据异常检测 机器学习之 决策树(Decision Tree) 机器学习之 决策树(Decisi ...

  2. 【AlgorithmStar机器学习】AS机器学习库特征工程使用说明文档

    目录 Algorithm Star介绍 概述 AS库的一般处理流程 数据采集与清洗 向量生成与特征提取选择 机器学习 后续处理 Algorithm Star使用 数据类型-操作数 浮点类型操作数 整数 ...

  3. 【CS224W】(task2)传统图机器学习和特征工程

    note 和CS224W课程对应,将图的基本表示写在task1笔记中了:传统图特征工程:将节点.边.图转为d维emb,将emb送入ML模型训练 Traditional ML Pipeline Hand ...

  4. 【机器学习】特征工程概述

    特征工程 "数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已." 1.概念 维基百科:特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过 ...

  5. 面向机器学习的特征工程翻译版

    前些日子推荐了一个仓库,是知名开源apachecn组织翻译的<面向机器学习的特征工程>英文版,可以说是特征工程的宝典,值得推荐. 仓库说明 知名开源apachecn组织翻译了<面向机 ...

  6. 面向机器学习的特征工程 六、降维:用 PCA 压缩数据集

    来源:ApacheCN<面向机器学习的特征工程>翻译项目 译者:@cn-Wziv 校对:@HeYun 通过自动数据收集和特征生成技术,可以快速获得大量特征,但并非所有这些都有用.在第 3 ...

  7. 面向机器学习的特征工程 三、文本数据: 展开、过滤和分块

    来源:ApacheCN<面向机器学习的特征工程>翻译项目 译者:@kkejili 校对:@HeYun 如果让你来设计一个算法来分析以下段落,你会怎么做? Emma knocked on t ...

  8. 面向机器学习的特征工程 一、引言

    来源:ApacheCN<面向机器学习的特征工程>翻译项目 译者:@ZhipengYe 校对:(虚位以待) 机器学习将数据拟合到数学模型中来获得结论或者做出预测.这些模型吸纳特征作为输入.特 ...

  9. 面向机器学习的特征工程 八、自动化特征提取器:图像特征提取和深度学习

    来源:ApacheCN<面向机器学习的特征工程>翻译项目 译者:friedhelm739 校对:(虚位以待) 视觉和声音是人类固有的感觉输入.我们的大脑是可以迅速进化我们的能力来处理视觉和 ...

  10. 面向机器学习的特征工程 七、非线性特征提取和模型堆叠

    七.非线性特征提取和模型堆叠 来源:ApacheCN<面向机器学习的特征工程>翻译项目 译者:friedhelm739 校对:(虚位以待) 当在数据一个线性子空间像扁平饼时 PCA 是非常 ...

最新文章

  1. 某团技术拷问:ArrayList 和 LinkedList 哪个更占空间?
  2. unity 实现文本选中_Unity中如何读取TXT文本内容
  3. Windows Defender还原误删文件
  4. Msys2 国内源(2017.3.30)
  5. Linux网站大杂烩《自己查阅》
  6. Mybaties配置一对多关系sql实例
  7. fasterrcnn论文_【每周CV论文推荐】 深度学习人脸检测入门必读文章
  8. PHP是迄今为止最好的web平台
  9. ImageJ Nikon_如何用ImageJ进行粒度分析
  10. BigDecimal 加减乘除计算
  11. 模电摸索日记之《模电基础》
  12. libcef-Vs2017-下载编译第一个libcef3项目
  13. 原 《老路用得上的商学课》76-80学习笔记
  14. 如何更改XP系统默认字体 讨论话题……
  15. 在线文字生成音频工具
  16. 【题解】食物链(并查集)
  17. 儿童使用显微镜有好处吗?
  18. C++程序员的发展前景,老程序员:早知道当初就学C++了!
  19. 神经网络调参-warmup and decay
  20. 【算法】重新排序数组中正数和负数

热门文章

  1. foxmail绑定公司邮箱服务器地址,企业邮箱如何绑定到Foxmail上?
  2. 安卓项目出现红色感叹号的解决方案
  3. 权限管理系统3—集成MyBatis框架
  4. 快速入门 | 篇十七:运动控制器多轴插补运动指令的使用
  5. 主机1向主机2发送数据过程分析
  6. sm2证书生成(单证书)
  7. 手把手教你用Python脚本调用 DeepL API Pro 进电子书的行进行中英文自动翻译
  8. 基于springboot+Vue的鲜花销售商城网站
  9. 开源SPL强化MangoDB计算
  10. 敏捷Scrum实施落地中的3大典型问题及解法