对于缺失的数据:

我们对连续数值的特征做标准化(standardization):设该特征在整个数据集上的均值为 μ ,标准差为 σ 。那么,我们可以将该特征的每个值先减去 μ 再除以 σ 得到标准化后的每个特征值。对于缺失的特征值,我们将其替换成该特征的均值。

numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index
all_features[numeric_features] = all_features[numeric_features].apply(lambda x: (x - x.mean()) / (x.std()))
# 标准化后,每个特征的均值变为0,所以可以直接用0来替换缺失值
all_features[numeric_features] = all_features[numeric_features].fillna(0)

一个标签可能多种参数的情况:

接下来将离散数值转成指示特征。举个例子,假设特征MSZoning里面有两个不同的离散值RL和RM,那么这一步转换将去掉MSZoning特征,并新加两个特征MSZoning_RL和MSZoning_RM,其值为0或1。如果一个样本原来在MSZoning里的值为RL,那么有MSZoning_RL=1且MSZoning_RM=0。

# dummy_na=True将缺失值也当作合法的特征值并为其创建指示特征
all_features = pd.get_dummies(all_features, dummy_na=True)
all_features.shape

房价预测 search Search 中对数据预处理的学习相关推荐

  1. sklearn中的数据预处理方法学习汇总

    文章目录 sklearn中的数据预处理方法学习 一.标准化 Z-score标准化 Z-score标准化学习 Z-score标准化实现 Min-max标准化 MaxAbs标准化 二.非线性转换 映射到均 ...

  2. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  3. 机器学习项目中的数据预处理与数据整理之比较

    要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的 ...

  4. 机器学习之金融信贷风控(二)申请评分卡中的数据预处理和特征衍生(未完待续)

    申请评分卡中的数据预处理和特征衍生 模型处理的一般流程: 构建信用风险模型的特征 获取数据 链接:https://pan.baidu.com/s/1CsY11ArZ6YK3o1icghWj2w 提取码 ...

  5. 计算机视觉系列3.1 VGGNet中的数据预处理

    计算机视觉系列3.1 VGGNet中的数据预处理 本文链接:https://blog.csdn.net/weixin_44633882/article/details/87705734 ps:< ...

  6. Python时间序列模型推理预测实战:时序推理数据预处理(特征生成、lstm输入结构组织)、模型加载、模型预测结果保存、条件判断模型循环运行

    Python时间序列模型推理预测实战:时序推理数据预处理(特征生成.lstm输入结构组织).模型加载.模型预测结果保存.条件判断模型循环运行 目录

  7. sklearn 神经网络_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  8. sklearn中eof报错_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o( ̄▽ ̄)ブ,今天我们看一下Sklearn中的数据预处理和特征工程,老规矩还是先强调一下,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你 ...

  9. pandas用众数填充缺失值_【机器学习】scikit-learn中的数据预处理小结(归一化、缺失值填充、离散特征编码、连续值分箱)...

    一.概述 1. 数据预处理 数据预处理是从数据中检测,修改或删除不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断. 也可 ...

最新文章

  1. Linux之ubuntu的网卡配置
  2. 20170125小测
  3. C#LeetCode刷题之#110-平衡二叉树(Balanced Binary Tree)
  4. JavaScript学习笔记之DOM篇,带你全面了解什么是DOM
  5. Ubuntu查看文件夹下文件的个数
  6. 我和Django那些事儿(8)----相册django插件photologue,jQuery插件Slides
  7. Python3 解释器
  8. IIS下配置跨域设置Access-Control-Allow-Origin
  9. ios Class类型使用
  10. 高通平台音频调试常见问题点归纳
  11. LaTeX的常用命令
  12. e531网卡驱动linux,联想e531网卡驱动下载-联想e531笔记本无线网卡驱动v6.30.223.201 官方版 - 极光下载站...
  13. python爬虫解决极验验证码问题
  14. 微信抖音的服务器,抖音微信登陆未获得权限怎么办
  15. 硬盘数据恢复方法有哪些?希望这些方法能帮助你
  16. Android 启动优化说明、黑白屏处理
  17. python3报错: takes 1 positional argument but 2 were given 问题解决。
  18. 计算机专业课程思政优秀案例,【转载】专业课程思政教学案例分享之《专业导论(计算机科学与技术)》...
  19. Negroni和Gorilla/mux 解析 Golang
  20. KNN和Kmeans

热门文章

  1. 最长递增子序列_python_算法与数据结构
  2. shutil模块、json和pickle模块
  3. java 多线程阻塞队列 与 阻塞方法与和非阻塞方法
  4. SQLite学习手册
  5. [SoapUI] 通过SoapUI发送POST请求,请求的body是JSON格式的数据
  6. Android学习第三天--事件监听器
  7. Hive的几种常见的数据导入方式
  8. windows文件与Linux文件互转
  9. ethereumjs/ethereumjs-common-3-test
  10. linux内存初始化初期内存分配器——memblock