Auto ML自动特征工程
特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试。针对这样的场景,PAI推出智能特征交叉组件,基于该组件可以帮助您锁定哪些特征的交叉是有意义的。本文介绍智能特征交叉组件的使用方法。
流程图
智能特征交叉基于深度学习框架TensorFlow开发,底层有大量并行化计算的工作,需要使用GPU。目前只有北京和上海两个区域支持该功能。
总流程图:

说明 使用首页的模板列表创建项目时,需要修改智能特征交叉组件的模型输出路径为您自己账号的OSS地址。
1.开通GPU和OSS访问权限

  1. 登录PAI控制台。
  2. 单击左侧导航栏设置,在基本设置处开通GPU和OSS访问权限。

2.数据分桶
目前智能特征交叉组件只支持BIGINT型的数据交叉,考虑到平时业务中的原始数据通常是如下图所示的Double类型:

所以使用SQL组件或Onehot组件将字符型数据转为BIGINT型,另外需要使用特征离散组件进行特征分桶,将不同区间的特征按照分布的不同划分到不同的数据桶之中。数据经过分桶之后变为如下形态:

3.确定特征范围
特征交叉的基本原理是将特征先按照向量空间展开,然后做特征间的相互交叉验证,最终挑选出合理的特征组合方式。在计算之前需要知道每个特征的空间的最大值,如下面这组数据:
• thalach的特征最大值为4
• oldpeak的特征最大值为3
• ca的特征最大值为4

执行如下SQL语句获取最大值。
select max(feature) from table;
在本实验样例数据中,所有分桶完的特征的最大值均为4。

于是智能特征交叉的特征长度范围要写成如下图样式。其中5表示开区间[0,5),包含4。

4.生成训练和测试数据
本实验使用的训练数据和测试数据是相同的表,实际使用中也可以把测试数据替换成跟训练数据字段相同的不同表。
5.智能特征交叉
• 字段设置
输入桩左侧是训练数据,右侧是测试数据。

o 交叉特征字段选择:选择需要交叉验证的特征字段。
o 是否为稀疏数据:默认不选中。表示稠密数据。
o 目标列:选择目标列字段。
o 模型输出路径:生成的模型存于OSS中。
• 参数设置

o 遍历次数:迭代次数。
o 特征阶数:指特征交叉阶数。如3,表示结果最多计算出3个特征之间的交叉。
PAI命令:
PAI -name fives_ext -project algo_public
-DlabelColName=“ifhealth” //目标列
-Dmetric_file=“metric_log.log” //日志
-Dfeature_meta="[5,5,5,5,5,5,5,5,5,5,5,5,5]"
-DtrainTable=“odps://项目名/tables/表名”
-Dbuckets=“oss://{oss_bucket}/”
-Dthreshold=“0.5”
-Dk=“3”
-DossHost=“oss-cn-beijing-internal.aliyuncs.com” //区域
-Demb_dims=“16”
-DenableSparse=“0”
-Dtemp_anneal_steps=“30000”
-DfeatureColName=“sex,cp,fbs,restecg,exang,slop,thal,age,trestbps,chol,thalach,oldpeak,ca” //特征
-DtestTable=“odps://项目名/tables/表名”
-Darn=“acs

Auto ML自动特征工程相关推荐

  1. ML之FE:基于BigMartSales数据集利用Featuretools工具(1个dataframe表结构切为2个Entity表结构)实现自动特征工程之详细攻略

    ML之FE:基于BigMartSales数据集利用Featuretools工具(1个dataframe表结构切为2个Entity表结构)实现自动特征工程之详细攻略 目录 基于BigMartSales数 ...

  2. ML之FE:基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略daiding

    ML之FE:基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略daiding 目录 基于BigMartSales数据集利用Featuretools工具实现自动 ...

  3. 手把手教你用Python实现自动特征工程

    任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...

  4. Auto ML自动调参

    Auto ML自动调参 本文介绍Auto ML自动调参的算法介绍及操作流程. 操作步骤 登录PAI控制台. 单击左侧导航栏的实验并选择某个实验. 本文以雾霾天气预测实验为例. 在实验画布区,单击左上角 ...

  5. 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式

    作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...

  6. 基于Python的自动特征工程——教你如何自动创建机器学习特征

    作者 | William Koehrsen 译者 | 王天宇 编辑 | Jane 出品 | AI科技大本营 [导读]如今机器学习正在从人工设计模型更多地转移到自动优化工作流中,如 H20.TPOT 和 ...

  7. python特征工程插件_手把手教你用Python实现自动特征工程

    任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...

  8. 自动特征工程、NAS、超参调优和模型压缩,微软开源的NNI一库搞定!

    点击我爱计算机视觉标星,更快获取CVML新技术 2018年9月,微软亚洲研究院发布了第一版 NNI (Neural Network Intelligence) ,目前已在 GitHub 上获得 3.8 ...

  9. 自动特征工程在推荐系统中的研究

    在先荐推荐系统学院 | 第1期的分享中,第四范式资深研究员罗远飞针对推荐系统中的高维稀疏数据,介绍了如何在指数级搜索空间中,高效地自动生成特征和选择算法:以及如何结合大规模分布式机器学习系统,在显著降 ...

最新文章

  1. SDUTOJ 1293 乘积最大的分解(数论)
  2. uboot中添加hi35xx的GPIO设置
  3. excel表格最大行数
  4. Eclipse导入项目facet版本问题:Project facet Java version 1.8 is not supported
  5. python教程:函数参数中默认值及重要警告
  6. iOS进阶 - iOS如何监控崩溃
  7. Pycharm使用matplotlib绘图时无法显示中文问题
  8. pandas 数据处理进阶
  9. 中国移动停售华为5G手机?双方回应...
  10. BCD码和十六进制的区别【转】
  11. dbMigration .NET 数据同步迁移工具
  12. js判断时间两小时之内_JS 判断两个时间的大小(可自由选择精确度:天,小时,分钟,秒)...
  13. 早年的一篇关于80286保护模式的文章
  14. k8s查看token,discovery-token-ca-cert-hash
  15. Linux系统学习前的一些准备-Linux-学习笔记(二)
  16. linux curl证书错误,curl – SSL证书错误
  17. RPG Maker MV 做任务
  18. AI算法在云音乐搜索的应用
  19. 算法-寻找数组中的重复值,四种解法
  20. 使用Meterperter会话获取目标屏幕与键盘记录

热门文章

  1. redisson get()数据报错,missing type id property ‘@class’
  2. 2022-2028年中国共享住宿行业深度调研及投资前景预测报告
  3. 2022-2028年中国防臭袜行业投资分析及前景预测报告
  4. FastAI 2019课程学习笔记 lesson 2:自行获取数据并创建分类器
  5. 2021年华为与小康-北汽-长安
  6. 机器学习PAL基本概念
  7. Clang:LLVM的C语言家族前端
  8. 多尺度注意力机制的语义分割
  9. OpenCV读写视频文件解析
  10. 前后端分离nginx配置,同时解决跨域问题