[特征工程系列五]基于蒙特卡洛搜索树的半自动特征工程方案
不知道有多少同学坚持看完了特征工程系列1~4,今天我们迎来最后一篇。前面的四篇其实都是一些基于特征工程理论的干货的分享,今天我们来点虚的,讲讲我YY的一种蒙特卡洛搜索树的半自动化的特征工程方案。其实为什么要做自动化,其实经过前面文章的介绍大家应该都已经了解到,特征工程门槛其实非常高,而且需要太多的人为干扰。作为一个PM,我一定直在想设计一款自动化的特征工程方案,只是目前我还得不到更多的支持,但是这个理念可以跟大家分享。
先来讲讲智能特征工程的基础概况,我们知道特征衍生无非是已有特征相互之间的一些排列组合,只不过我们是通过实际的业务逻辑对这些特征进行组合。比如有一个球员的总投篮次数n,有一个球员总命中次数m,那么可以快速衍生出一个特征表示球员的命中率m/n。如果有一种方式可以遍历所有特征间的组合是不是就可以了,答案是肯定的,但实现不了,因为计算复杂度太大。于是就引出了今天的主角蒙特卡洛搜索树。蒙特卡洛搜索树是一种快速遍历候选集的树状搜索算法。
大家先看下这张图,然后我帮大家理清思路。其实特征工程的目的可以抽象为树搜索逻辑,因为做特征工程无非是找到一组最优的特征组合使得训练的模型的预测AUC最高。如果是随意的组合这些特征,那计算量是指数级的不可接受,如果用大名鼎鼎的AlphaGo就是用的这套方案。
下面讲讲我设想的方案,首先把已有的特征集合定为Z,在上图的Selection阶段我们把Z部署为初始树,然后在Expantion阶段随机的从Z中选取K个数据与已有的Z中的数据集进行组合,可以乘或者除,把生成的节点作为新的特征放到树的子节点上。然后simulation阶段测试新生成的特征加入Z是否提升了整个模型的效果。如果有提升,在Backpropagation阶段更新整个树的节点,将新生成的子叶加上。循环下去,就可以生成最优的特征组合。但是这种特征组合只能是二阶的,就是每次只能两个特征组合,不能覆盖所有场景,所以是半自动化。
大体思路是这样,可能没太说清楚,本文的思路纯YY~也欢迎大家一起讨论哈,毕竟auto ML是未来的一个大趋势,而自动特征提取也是其中关键一环,感谢大家关注这五篇特征工程系列文章。
总算在年前完成了整个关于特征工程问题的梳理~点击量虽然是一篇比一篇低,但是我觉得这种真正有价值的东西还是值得分享的,踏踏实实的过每一天,虚心的去对待每一个知识点。
转自:https://mp.weixin.qq.com/s?__biz=MzA4MDI0NDQyOQ==&mid=2447500083&idx=1&sn=8774c39a66aad3438153e1655832ed3b&chksm=8bb27891bcc5f187522093e2e068e8fc31f37ba914f6f21837c2dbb2155a6dbcc30a765bdfe0&mpshare=1&scene=23&srcid=0210DfhZoaQaRJLuqd9qR1r5#rd
[特征工程系列五]基于蒙特卡洛搜索树的半自动特征工程方案相关推荐
- 学术报告系列(五) - 基于智能机器人的室内空间巡检巡查方案
- 【oracle灾备方案系列】基于DDS的Oracle复制容灾方案(三)
<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> [oracle ...
- 敏捷外包工程系列之三:固定合同(敏捷外包工程,敏捷开发,产品负责人,客户价值)...
本文是敏捷外包工程系列的第三篇.(之一,之二,之三,之四) 下面的很多外包场景以国内的外包为例,因为往往这些项目更加严苛. 外包合同常常是固定价格固定工期固定需求(一般称为定额合同),这个时候&quo ...
- oracle灾备同步_【oracle灾备方案系列】基于DDS的Oracle复制容灾方案(三)
[oracle灾备方案系列]基于DDS的Oracle灾备方案(三) 在基于DataGrid DDS产品实现灾备架构中,不仅能够实现集中交易系统的灾备功能,实现0时间的数据库切换.同时在该架构基础上还能 ...
- 敏捷外包工程系列之三:固定合同(敏捷外包工程,敏捷开发,产品负责人,客户价值)
本文是敏捷外包工程系列的第三篇.(之一,之二,之三,之四) 下面的很多外包场景以国内的外包为例,因为往往这些项目更加严苛. 外包合同常常是固定价格固定工期固定需求(一般称为定额合同),这个时候&quo ...
- Docker系列五基于CentOS制造镜像
前言 起因是在更新博客的时候,发现可以用更优雅的方式来实现原有的目的,所以重新整理后,将原文改成了两篇,都收录在了该系列中. 构建Docker镜像,简单来说分为以下两种: 拉取CentOS的操作系统镜 ...
- 五大地形等高线特征_中国五种基本地形类型及特征
地形是指地表各种各样的形态,具体指地表 以上分布的固定性物体共同呈现出的高低起伏的各种状态.那么中国有哪些基本地形呢?下面小编整理了一些相关信息,供大家参考! 五种基本地形类型是什么 平原 平原地形是 ...
- opencv系列之基于NVIDIA显卡的opencv-python硬解方案
文章目录 前言 正文 前置安装 安装VPF 编码使用 前言 ffmpeg编译使用cuvid硬解方案试过了,不过解码出来的像素格式为YUV420, opencv中使用需要转成BGR,转色彩空间这部占用的 ...
- Mybatis-Plus入门系列(18) -基于注解的动态数据权限实现方案
数据权限简介 前言 一般的系统都离不开权限模块,它是支撑整个系统运行的基础模块.而根据项目类型和需求的不同,权限模块的设计更是大相径庭.但不管怎么变,权限模块从大的方面来说,可以分为三种大的类型:功能 ...
最新文章
- 【工具】音乐播放相关工具,音乐文件格式转换工具,MP3文件转换成arduino可以直接播放的wav格式,MP3转WAV工具...
- C语言怎么合并两个有序链表
- Android 友盟推送开发
- 【CodeForces - 599C 】Day at the Beach(思维)
- Servlet Request
- java 单例 初始化_单例数据库对象启动时参数化初始化?
- atitit.资源释放机制--attilax总结
- 网络 | OSI七层模型各层常见协议
- [GW-CTF2019] babyvm
- ubuntu查询显卡型号
- python getcwd_python – 执行os.getcwd()时出错?
- C#方法讲解——飞行棋画地图
- 使用Mybatis进行更新操作成功,数据库却没更新的原因
- 计算机无法删除用户,怎么彻底删除一个用户
- JavaScript实现图结构
- BFS 巡逻机器人
- 用C++开发STM32程序
- 仿京东图片放大镜动效
- 图学习中的链路预测任务(持续更新ing...)
- Python tkinter Entry 属性和方法介绍