Auto ML自动特征工程
Auto ML自动特征工程
特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试。针对这样的场景,PAI推出智能特征交叉组件,基于该组件可以帮助您锁定哪些特征的交叉是有意义的。本文介绍智能特征交叉组件的使用方法。
流程图
智能特征交叉基于深度学习框架TensorFlow开发,底层有大量并行化计算的工作,需要使用GPU。目前只有北京和上海两个区域支持该功能。
总流程图:
说明 使用首页的模板列表创建项目时,需要修改智能特征交叉组件的模型输出路径为您自己账号的OSS地址。
1.开通GPU和OSS访问权限
- 登录PAI控制台。
- 单击左侧导航栏设置,在基本设置处开通GPU和OSS访问权限。
2.数据分桶
目前智能特征交叉组件只支持BIGINT型的数据交叉,考虑到平时业务中的原始数据通常是如下图所示的Double类型:
所以使用SQL组件或Onehot组件将字符型数据转为BIGINT型,另外需要使用特征离散组件进行特征分桶,将不同区间的特征按照分布的不同划分到不同的数据桶之中。数据经过分桶之后变为如下形态:
3.确定特征范围
特征交叉的基本原理是将特征先按照向量空间展开,然后做特征间的相互交叉验证,最终挑选出合理的特征组合方式。在计算之前需要知道每个特征的空间的最大值,如下面这组数据:
• thalach的特征最大值为4
• oldpeak的特征最大值为3
• ca的特征最大值为4
执行如下SQL语句获取最大值。
select max(feature) from table;
在本实验样例数据中,所有分桶完的特征的最大值均为4。
于是智能特征交叉的特征长度范围要写成如下图样式。其中5表示开区间[0,5),包含4。
4.生成训练和测试数据
本实验使用的训练数据和测试数据是相同的表,实际使用中也可以把测试数据替换成跟训练数据字段相同的不同表。
5.智能特征交叉
• 字段设置
输入桩左侧是训练数据,右侧是测试数据。
o 交叉特征字段选择:选择需要交叉验证的特征字段。
o 是否为稀疏数据:默认不选中。表示稠密数据。
o 目标列:选择目标列字段。
o 模型输出路径:生成的模型存于OSS中。
• 参数设置
o 遍历次数:迭代次数。
o 特征阶数:指特征交叉阶数。如3,表示结果最多计算出3个特征之间的交叉。
PAI命令:
PAI -name fives_ext -project algo_public
-DlabelColName=“ifhealth” //目标列
-Dmetric_file=“metric_log.log” //日志
-Dfeature_meta="[5,5,5,5,5,5,5,5,5,5,5,5,5]"
-DtrainTable=“odps://项目名/tables/表名”
-Dbuckets=“oss://{oss_bucket}/”
-Dthreshold=“0.5”
-Dk=“3”
-DossHost=“oss-cn-beijing-internal.aliyuncs.com” //区域
-Demb_dims=“16”
-DenableSparse=“0”
-Dtemp_anneal_steps=“30000”
-DfeatureColName=“sex,cp,fbs,restecg,exang,slop,thal,age,trestbps,chol,thalach,oldpeak,ca” //特征
-DtestTable=“odps://项目名/tables/表名”
-Darn=“acs
Auto ML自动特征工程相关推荐
- ML之FE:基于BigMartSales数据集利用Featuretools工具(1个dataframe表结构切为2个Entity表结构)实现自动特征工程之详细攻略
ML之FE:基于BigMartSales数据集利用Featuretools工具(1个dataframe表结构切为2个Entity表结构)实现自动特征工程之详细攻略 目录 基于BigMartSales数 ...
- ML之FE:基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略daiding
ML之FE:基于BigMartSales数据集利用Featuretools工具实现自动特征工程之详细攻略daiding 目录 基于BigMartSales数据集利用Featuretools工具实现自动 ...
- 手把手教你用Python实现自动特征工程
任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...
- Auto ML自动调参
Auto ML自动调参 本文介绍Auto ML自动调参的算法介绍及操作流程. 操作步骤 登录PAI控制台. 单击左侧导航栏的实验并选择某个实验. 本文以雾霾天气预测实验为例. 在实验画布区,单击左上角 ...
- 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式
作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...
- 基于Python的自动特征工程——教你如何自动创建机器学习特征
作者 | William Koehrsen 译者 | 王天宇 编辑 | Jane 出品 | AI科技大本营 [导读]如今机器学习正在从人工设计模型更多地转移到自动优化工作流中,如 H20.TPOT 和 ...
- python特征工程插件_手把手教你用Python实现自动特征工程
任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...
- 自动特征工程、NAS、超参调优和模型压缩,微软开源的NNI一库搞定!
点击我爱计算机视觉标星,更快获取CVML新技术 2018年9月,微软亚洲研究院发布了第一版 NNI (Neural Network Intelligence) ,目前已在 GitHub 上获得 3.8 ...
- 自动特征工程在推荐系统中的研究
在先荐推荐系统学院 | 第1期的分享中,第四范式资深研究员罗远飞针对推荐系统中的高维稀疏数据,介绍了如何在指数级搜索空间中,高效地自动生成特征和选择算法:以及如何结合大规模分布式机器学习系统,在显著降 ...
最新文章
- SDUTOJ 1293 乘积最大的分解(数论)
- uboot中添加hi35xx的GPIO设置
- excel表格最大行数
- Eclipse导入项目facet版本问题:Project facet Java version 1.8 is not supported
- python教程:函数参数中默认值及重要警告
- iOS进阶 - iOS如何监控崩溃
- Pycharm使用matplotlib绘图时无法显示中文问题
- pandas 数据处理进阶
- 中国移动停售华为5G手机?双方回应...
- BCD码和十六进制的区别【转】
- dbMigration .NET 数据同步迁移工具
- js判断时间两小时之内_JS 判断两个时间的大小(可自由选择精确度:天,小时,分钟,秒)...
- 早年的一篇关于80286保护模式的文章
- k8s查看token,discovery-token-ca-cert-hash
- Linux系统学习前的一些准备-Linux-学习笔记(二)
- linux curl证书错误,curl – SSL证书错误
- RPG Maker MV 做任务
- AI算法在云音乐搜索的应用
- 算法-寻找数组中的重复值,四种解法
- 使用Meterperter会话获取目标屏幕与键盘记录