七月算法机器学习笔记5 -- 特征工程
这套笔记是跟着七月算法四月机器学习班的学习而记录的,主要记一下我再学习机器学习的时候一些概念比较模糊的地方,具体课程参考七月算法官网:http://www.julyedu.com/
特征工程
特征 => 数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
数据与特征处理
特征处理中不同类型的的特征的处理
- 数值型
统计值
离散化:落在区段中为1,其余为0
柱状统计
类别型
对于最后一个变量,即登陆口岸,由三个口岸,即开三个位置:【s,q,c】,则第一个数据的值为【1,0,0】
要说明的是,离散化和one_hot编码是不一样的,离散化是对落在一个区段的数值标记1。是对数据的非线性处理
bucket就是一个桶,假如我们把John likes to作为一个词集,那么,这个词集在文档1中都有出现,在doc2中出现了两个词,doc3中出现了一次,就构成了bucket1.
根据目标,将特征用统计的方法表示,比如,上图定义男性:【由1/3的男性喜欢散步,2/3的喜欢足球,没有人喜欢看电视日期型
文本型
统计型
特征处理示例:
- 组合特征:
特征选择
过滤型方式简单粗暴
参考资料:
七月算法:机器学习四月班:http://www.julyedu.com/
图片来自于课程PPT
七月算法机器学习笔记5 -- 特征工程相关推荐
- 机器学习笔记六——特征工程之数据预处理
特征工程之数据预处理 1. 处理缺失值 2. 处理异常值 2.1 异常值检测 2.2异常值处理 3.离散特征的连续化处理 4.连续特征的离散化处理 5. 处理类别不平衡问题 6. 图片数据扩充 数据预 ...
- 七月算法机器学习笔记4 凸优化
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
- 七月算法机器学习笔记8 聚类算法
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
- 七月算法机器学习笔记9 推荐系统
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
- 七月算法机器学习笔记1 微积分与概率论
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
- 七月算法机器学习笔记7 最大熵模型
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
- 七月算法机器学习笔记3 线性代数与矩阵
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
- 七月算法机器学习笔记5 回归模型
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
- 七月算法机器学习笔记10 人工神经网络
七月算法(http://www.julyedu.com) 12月份 机器学习在线班 学习笔记
最新文章
- ITK:观察过滤器Watch A Filter
- 多层陶瓷电容器用处_陶瓷材料|MLCC片式多层陶瓷电容器应用及制作工艺介绍...
- spring mvc拦截器HandlerInterceptor
- java数_java大数
- 基于DDD的.NET开发框架 - ABP依赖注入
- Ubuntu美化方案
- LigoWave(力格微)无线网桥稳定性探秘——私有协议
- cv mat 灰度值和_c++ 访问OpenCV中灰度图像的像素值
- Leetcode每日一题:992.sort-array-by-parity-ii(按奇偶排序数组Ⅱ)
- 苹果Mac触控栏使用技巧
- 财务部计算机操作规程,财务部操作规程.pdf
- python表情包合集_python——简单生成表情包
- kafka zookeeper docker容器互联
- AI不仅要智能,更需要人文:联邦学习重构大数据风控范式
- 135编辑器html点击图片播放音乐,怎么用135编辑器排版 公众号怎么做点击切换图片...
- LibVLC —— 常用对象解析
- 什么是CUDA和CUDNN?——GeForce NVIDIA显卡用于深度学习计算的GPU加速工具
- windows装linux
- Bootstrap重抽样方法
- 机器视觉光源选型总结---同轴光原理与应用