[特征工程系列一] 论特征的重要性
满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁。反过来想,趁大家都懈怠的时候,正是学习的最佳时机。趁着这几天,也给自己加点码,去认真的再看一下特征工程。我给自己列了下面的这一份学习清单,也会在过年前后逐一分享给大家。
《特征工程系列二,显性特征的基本处理方法》:讲一下如何处理数据特征,以及最基本的概念
《特征工程三,显性特征的衍生》:准备通过NBA球星的数据,展示下特征的衍生的一些概念
《特征工程四,Wide&Deep Learning for Recommender Systems》:讲一下如何通过线性算法的显性特征以及深度学习NN算法中的提取的隐式特征做推荐系统
《特征工程五,基于蒙特卡洛树搜索的半自动特征工程方案》:特征工程需要大量的人工干预和专家经验,那么能不能有一种方案去实现自动特征工程呢,纯自己YY了一套可能的方案。
下面我们进入今天的正题,特征工程有多重要,可以引用一句话来表达:“数据和特征决定了模型的上限,算法只是在帮忙逼近这个上限。”好的特征是决定一个模型准确率的关键,那问题来了?什么是特征呢,特征就是数据对于结果的一种描述。比如我们形容一个人是否漂亮,那她的眼睛大小、鼻子的形状、脸型都是特征。通常,当获得一份结构化数据的时候,如果这份数据里存在目标列,那么除了目标列每个字段都可以看做是特征,特征工程要做的事情是找到对结果影响最大的特征。
了解了特征的重要性,我们就可以开启这一系列文章的分享了,不过在此之前,有几个概念需要再明确下。特征分哪几种呢?
1. 显性特征:可以理解为用户直接可以拿到的数据字段
2. 半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征
3. 隐性特征:深度学习在很大程度上可以简化人肉特征工程的工作量,因为深度学习可以在计算过程中自动生成一些特征向量,这些特征的表达往往是不可解释的,那这些特征就是隐性特征。
Ok~同步完这些概念,开启冲刺,年前要好好学习并分享特征工程的系列文章。
[特征工程系列一] 论特征的重要性相关推荐
- 特征工程系列:自动化特征构造
特征工程系列:自动化特征构造 原创: JunLiang 木东居士 今天 0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的 ...
- [特征工程系列二]显性特征的基本处理方法
今天接着前一篇文章讲,主要分享基于显性特征工程的一些最基本的处理方法.关于显性特征是什么,大家可以去看系列文章一.关于显性特征的处理方法可以做这样的类比:不知道大家平时会不会自己做菜,我个人的话基本每 ...
- [特征工程系列三]显性特征的衍生
前一文讲的是一些特征的基础处理方式,包括怎么降维.怎么处理脏数据等等.其实特征工程真正的难点是如何结合业务需求衍生出新的特征.结合业务需求讲的是利用专家经验来提取出数据里对结果影响更大的特征,往往是原 ...
- 特征工程系列:数据清洗
文章系列: 特征工程系列:数据清洗 特征工程系列:特征筛选的原理与实现 特征工程系列:特征预处理 特征工程系列:特征构造 特征工程系列:时间特征构造以及时间序列特征构造 前言 数据和特征决定了机器学习 ...
- 特征工程系列:特征筛选的原理与实现(下)
0x00 前言 我们在<特征工程系列:特征筛选的原理与实现(上)>中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现.本篇继续介绍封装式和嵌入式特征筛选的原理与实现. 0x01 ...
- 特征工程系列:特征预处理(上)
特征工程系列:特征预处理(上) 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机器学习的上限,而模 ...
- 特征工程系列:特征筛选的原理与实现(上)
本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机 ...
- [特征工程系列五]基于蒙特卡洛搜索树的半自动特征工程方案
不知道有多少同学坚持看完了特征工程系列1~4,今天我们迎来最后一篇.前面的四篇其实都是一些基于特征工程理论的干货的分享,今天我们来点虚的,讲讲我YY的一种蒙特卡洛搜索树的半自动化的特征工程方案.其实为 ...
- 特征工程系列:特征预处理(下)
特征工程系列:特征预处理(下) 本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0 ...
最新文章
- angularJs 前端的页面分解与组装
- react input[type='number']
- 3.4.1 流量控制与可靠传输机制
- Jquery 获取select,radio 和 checkbox的值
- AI基础:深度学习论文阅读路线(127篇经典论文下载)
- mac地址转换_mac电脑格式转化工具
- 一、docker临时记录
- Python程序设计语言基础05:函数和代码复用
- CGI与JSP联系与区别
- .NET在后置代码中输入JS提示语句(背景不会变白)
- Qt编写Onvif搜索及云台控制工具
- edius隐藏快捷键_EDIUS素材隐藏快捷键是什么啊?
- 8.郝斌C语言笔记——函数
- 计算机打字多少,怎么快速练习计算机打字?
- 公司股权等比稀释是什么意思
- 笔记:使用CSS实现箭头图标
- css:居中的几种布局方式
- linux用命令下载图片,巧用linux命令做图片下载器
- 单片机工程师面试题小计
- pycharm debug 提示 Python Debugger Extension Available Cython extension speeds up Python debugging
热门文章
- 通信原理-确知信号的最佳接收
- ubuntu12.04 更新内核
- 百度地图海量点清除(始终保留最新的点)
- idea 查看一个类的子类_Java-05-多态、抽象类、接口和内部类
- html5语义元素表,HTML5的结构和语义(3):语义性的块级元素
- ctb伺服驱动器说明书_青岛FANUC伺服电机364、453故障维修
- 计算机网络按定义分,计算机网络定义及其分类
- mysql自动异地备份脚本_MYSQL数据库自动本地/异地双备份/MYSQL增量备份
- 湖南大学计算机学院软件专业杨磊,杨磊-湖大信息科学与工程学院
- mysql get lock_MYSQL-GET_LOCK锁