特征工程(科大讯飞阿泽大佬share)
时序预测任务简介
2.特征工程常见操作(数据清洗,特征构造,特征筛选)
数据清洗:提高数据质量,降低算法用错误数据建模的风险
- 特征变换:模型无法处理或者不适合处理
a) 定性变量编码:Label Encoder;onehot encoder;distribution Encoder
b)标准化和归一化(对于lr模型来说,但是xgb就不需要):z分数标准化(标准正态分布),min-max归一化 - 缺失值处理:减少不确定性和不可靠输出
a)不处理:少量样本缺失
b)删除:大量样本缺失
c)补全:(同类)均值/中位数/众数补全,高维映射,模型预测,最邻近/向后/向前补全,矩阵补全(R-SVD) - 异常值处理:减少脏数据
a)简单统计:如describe()的统计描述,散点图等
b)正态分布(3伽马法则)/箱型图阶段
c)利用模型进行离群点检测:聚类,k近邻,one class SVM,isolation forest - 其他:删除无效列/更改dtypes/删除列中的字符串/将时间戳从字符串转换为日期时间格式等
3.特征构造:增强数据表达,添加先验知识
- 统计量特征:
a)四分位数、中位数、平均数、标准差,偏差、峰度、离散系数
b)构造长短期统计量
c)考虑时间衰减 - 周期值:
a)前n个周期/天/月/年的同期值
b)同比/环比 - 数据分桶:
a)等频/等距分桶、Best-KS分桶、卡方分桶 - 特征组合(先用强特征)
a)类别特征和类别特征:笛卡尔积
b)类别特征和连续特征:连续特征分桶后进行笛卡尔积,或者基于类别特征进行groupby操作,类似聚合特征的构造
c)连续特征和连续特征:加减乘除,或者二阶差分等
4.特征选择:降低噪声,平滑预测能力和计算复杂度,增强模型预测性能
过滤式 (Filter):先用特征选择方法对初始特征进行过滤,然后再训练学习器,特征选择过程与后续学习器无关。
a)方差选择/相关系数/卡方检验/互信息法包裹式(Wrapper):直接把最终将要使用的学习器的性能作为衡量特征自己的评价标准,其目的在于给定学习器选择有利用其性能的特征子集。
单特征建模模型嵌入式(Embedding):结合过滤式和包裹式方法,将特征选择与学习器训练过程融为一体,两者在同一优化过程中完成,即学习器训练过程中自动进行了特征选择。
特征工程(科大讯飞阿泽大佬share)相关推荐
- 数据工程系列精讲(第一讲): Data-centric AI 之特征工程
前言 这两年我们观察到越来越多的算法工程师重视数据的特征工程,AI业界大佬吴恩达教授在2021年提出了从model-centric AI切换到data-centric AI的论调,我个人认为data- ...
- 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)
二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...
- ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)
ML之FE:利用[数据分析+数据处理]算法对国内某平台上海2020年6月份房价数据集[12+1]进行特征工程处理(史上最完整,建议收藏) 目录 利用[数据分析+数据处理]算法对链家房价数据集[12+1 ...
- 特征工程tf-idf_特征工程-保留和删除的内容
特征工程tf-idf The next step after exploring the patterns in data is feature engineering. Any operation ...
- sklearn—特征工程
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
- 干货分享 | 详解特征工程与推荐系统及其实践(附PPT)
云脑科技机器学习训练营11月13日正式开始啦!量子位作为合作媒体独家为大家分享课程干货内容. 本期内容简介 主题:亿级用户电商平台推荐系统挑战 主讲人:张本宇(云脑科技创始人&CEO) 从事人 ...
- 【推荐系统】特征工程技巧(kaggle比赛技巧、tx的做法)
内容总结 前面6点均是常见的特征工程基础知识,第7点时kaggle比赛中常用特征交叉.特征筛选等技巧,第8点从特征提取(数值型.类别型.embedding特征).特征选择(过滤式.封装式.嵌入式).特 ...
- 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)
第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...
- AI上推荐 之 逻辑回归模型与GBDT+LR(特征工程模型化的开端)
1. 前言 随着信息技术和互联网的发展, 我们已经步入了一个信息过载的时代,这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战: 信息消费者:如何从大量的信息中找到自己感兴趣的信息? 信息生产 ...
最新文章
- Node.js开发WEB项目后端接口API,基于mysql5.7数据库(小试牛刀)
- oracle SEQUENCE 创建, 修改,删除
- 【Python学习系列二十七】pearson相关系数计算
- GraphViz :1 安装和简单使用
- Python编程语言学习:sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略
- 攻击者使用“非恶意软件”也能识别,将在RSA 2017上发布的新技术
- dw html 并排三个正方形边框,dw网页设计与制作题库(单选题)(43页)-原创力文档...
- 硬纪元干货|镁客网萨向东:推动硬科技产业落地,助力传统产业升
- 导出时间字段的处理_如何快速将发票信息导出到excel表格中?
- linux 递归查看文件个数,Linux下递归读取文件数量
- nodejs redis 发布订阅_「赵强老师」Redis的消息发布与订阅
- java实现供应链_基于jsp的企业物流供应链-JavaEE实现企业物流供应链 - java项目源码...
- Spring 中 AOP 的实现原理——动态代理
- 计算机自动重启快捷键,什么是笔记本电脑重启快捷键
- CAD偏移曲线(com接口c#语言)
- Win10电脑键盘失灵打不出字解决方法分享
- V4L2视频采集与H264编码1—V4L2采集JPEG数据
- 执着的数字思想者——Pascal之父
- 数据中台的五个关键要素
- 设置WindowsXP系统上电自启动
热门文章
- springboot毕设项目海尔空调售后服务系统d70j3(java+VUE+Mybatis+Maven+Mysql)
- 诺基亚5310XM基本属性
- 嵌入式Linux的低功耗策略
- clojure实战——宏
- DevExpress 设置DateEdit显示年月
- 拆迁安置用房如何办理产权证
- SAP 消息号 KI261 成本中心 XXXX/XXXXX 冻结而不能直接对 XXXX.XX.XX 收入记帐 的问题处理
- 2022暑假强化学习记录
- Spring Cloud教程(八)云原生应用程序
- 夯实JAVA基本之一 —— 泛型详解(1):基本使用