时序预测任务简介

2.特征工程常见操作(数据清洗,特征构造,特征筛选)

数据清洗:提高数据质量,降低算法用错误数据建模的风险

  1. 特征变换:模型无法处理或者不适合处理
    a) 定性变量编码:Label Encoder;onehot encoder;distribution Encoder
    b)标准化和归一化(对于lr模型来说,但是xgb就不需要):z分数标准化(标准正态分布),min-max归一化
  2. 缺失值处理:减少不确定性和不可靠输出
    a)不处理:少量样本缺失
    b)删除:大量样本缺失
    c)补全:(同类)均值/中位数/众数补全,高维映射,模型预测,最邻近/向后/向前补全,矩阵补全(R-SVD)
  3. 异常值处理:减少脏数据
    a)简单统计:如describe()的统计描述,散点图等
    b)正态分布(3伽马法则)/箱型图阶段
    c)利用模型进行离群点检测:聚类,k近邻,one class SVM,isolation forest
  4. 其他:删除无效列/更改dtypes/删除列中的字符串/将时间戳从字符串转换为日期时间格式等

3.特征构造:增强数据表达,添加先验知识

  1. 统计量特征:
    a)四分位数、中位数、平均数、标准差,偏差、峰度、离散系数
    b)构造长短期统计量
    c)考虑时间衰减
  2. 周期值:
    a)前n个周期/天/月/年的同期值
    b)同比/环比
  3. 数据分桶:
    a)等频/等距分桶、Best-KS分桶、卡方分桶
  4. 特征组合(先用强特征)
    a)类别特征和类别特征:笛卡尔积
    b)类别特征和连续特征:连续特征分桶后进行笛卡尔积,或者基于类别特征进行groupby操作,类似聚合特征的构造
    c)连续特征和连续特征:加减乘除,或者二阶差分等

4.特征选择:降低噪声,平滑预测能力和计算复杂度,增强模型预测性能

  1. 过滤式 (Filter):先用特征选择方法对初始特征进行过滤,然后再训练学习器,特征选择过程与后续学习器无关。
    a)方差选择/相关系数/卡方检验/互信息法

  2. 包裹式(Wrapper):直接把最终将要使用的学习器的性能作为衡量特征自己的评价标准,其目的在于给定学习器选择有利用其性能的特征子集。
    单特征建模模型

  3. 嵌入式(Embedding):结合过滤式和包裹式方法,将特征选择与学习器训练过程融为一体,两者在同一优化过程中完成,即学习器训练过程中自动进行了特征选择。

特征工程(科大讯飞阿泽大佬share)相关推荐

  1. 数据工程系列精讲(第一讲): Data-centric AI 之特征工程

    前言 这两年我们观察到越来越多的算法工程师重视数据的特征工程,AI业界大佬吴恩达教授在2021年提出了从model-centric AI切换到data-centric AI的论调,我个人认为data- ...

  2. 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)

    二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...

  3. ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)

    ML之FE:利用[数据分析+数据处理]算法对国内某平台上海2020年6月份房价数据集[12+1]进行特征工程处理(史上最完整,建议收藏) 目录 利用[数据分析+数据处理]算法对链家房价数据集[12+1 ...

  4. 特征工程tf-idf_特征工程-保留和删除的内容

    特征工程tf-idf The next step after exploring the patterns in data is feature engineering. Any operation ...

  5. sklearn—特征工程

    sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...

  6. 干货分享 | 详解特征工程与推荐系统及其实践(附PPT)

    云脑科技机器学习训练营11月13日正式开始啦!量子位作为合作媒体独家为大家分享课程干货内容. 本期内容简介 主题:亿级用户电商平台推荐系统挑战 主讲人:张本宇(云脑科技创始人&CEO) 从事人 ...

  7. 【推荐系统】特征工程技巧(kaggle比赛技巧、tx的做法)

    内容总结 前面6点均是常见的特征工程基础知识,第7点时kaggle比赛中常用特征交叉.特征筛选等技巧,第8点从特征提取(数值型.类别型.embedding特征).特征选择(过滤式.封装式.嵌入式).特 ...

  8. 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)

    第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...

  9. AI上推荐 之 逻辑回归模型与GBDT+LR(特征工程模型化的开端)

    1. 前言 随着信息技术和互联网的发展, 我们已经步入了一个信息过载的时代,这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战: 信息消费者:如何从大量的信息中找到自己感兴趣的信息? 信息生产 ...

最新文章

  1. Node.js开发WEB项目后端接口API,基于mysql5.7数据库(小试牛刀)
  2. oracle SEQUENCE 创建, 修改,删除
  3. 【Python学习系列二十七】pearson相关系数计算
  4. GraphViz :1 安装和简单使用
  5. Python编程语言学习:sklearn.manifold的TSNE函数的简介、使用方法、代码实现之详细攻略
  6. 攻击者使用“非恶意软件”也能识别,将在RSA 2017上发布的新技术
  7. dw html 并排三个正方形边框,dw网页设计与制作题库(单选题)(43页)-原创力文档...
  8. 硬纪元干货|镁客网萨向东:推动硬科技产业落地,助力传统产业升
  9. 导出时间字段的处理_如何快速将发票信息导出到excel表格中?
  10. linux 递归查看文件个数,Linux下递归读取文件数量
  11. nodejs redis 发布订阅_「赵强老师」Redis的消息发布与订阅
  12. java实现供应链_基于jsp的企业物流供应链-JavaEE实现企业物流供应链 - java项目源码...
  13. Spring 中 AOP 的实现原理——动态代理
  14. 计算机自动重启快捷键,什么是笔记本电脑重启快捷键
  15. CAD偏移曲线(com接口c#语言)
  16. Win10电脑键盘失灵打不出字解决方法分享
  17. V4L2视频采集与H264编码1—V4L2采集JPEG数据
  18. 执着的数字思想者——Pascal之父
  19. 数据中台的五个关键要素
  20. 设置WindowsXP系统上电自启动

热门文章

  1. springboot毕设项目海尔空调售后服务系统d70j3(java+VUE+Mybatis+Maven+Mysql)
  2. 诺基亚5310XM基本属性
  3. 嵌入式Linux的低功耗策略
  4. clojure实战——宏
  5. DevExpress 设置DateEdit显示年月
  6. 拆迁安置用房如何办理产权证
  7. SAP 消息号 KI261 成本中心 XXXX/XXXXX 冻结而不能直接对 XXXX.XX.XX 收入记帐 的问题处理
  8. 2022暑假强化学习记录
  9. Spring Cloud教程(八)云原生应用程序
  10. 夯实JAVA基本之一 —— 泛型详解(1):基本使用