如何处理特征向量的缺失值

1) 缺失值较多

缺失值较多.直接将该特征舍弃掉,否则可能反倒会带入较大的噪声,对结果造成不良影响。

2) 缺失值较少

缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:

  • 方式1: 把NaN直接作为一个特征,假设用0表示;
data_train.fillna(0)
  • 方式2: 用均值填充;

    均值填充可能需要取条件均值,例如某训练集中患癌症和不患癌症的数据中,该值的差距很大,那么就应当填充label相同的数据的均值。

    data_train.fillna(data_train.mean())
  • 方式3:用上下数据进行填充;

    # 上一个数据填充
    data_train.fillna(method='pad')
    # 下一个数据填充
    data_train.fillna(method='bfill')
  • 方式4:插值法

    # 即估计中间点的值 ​​​​​​​data_train.interpolate()
  • 方式5:用随机森林等算法拟合

    将数据分为有值和缺失值2份,对有值的数据采用随机森林拟合,然后对有缺失值的数据进行预测,用预测的值来填充。

算法工程师面试备战笔记1_如何处理特征向量的缺失值相关推荐

  1. 算法工程师面试备战笔记2_一个完整机器学习项目的流程

    1 抽象成数学问题 明确问题是进行机器学习的第一步.机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的. 这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分 ...

  2. 算法工程师面试备战笔记11_朴素贝叶斯分类某个类别概率为0怎么办

    题目 A1,A2,A3是三个特征,Y是分类结果.A1,A2,A3和Y 均只有0和1两种情况. A1 A2 A3 Y 1 1 0 1 0 1 1 1 1 0 1 0 0 1 0 0 0 0 1 0 1. ...

  3. 算法工程师面试备战笔记12_决策树

    什么是决策树 决策树(decision tree)是一种基本的分类与回归方法.决策树是用样本的属性作为结点,用属性的取值作为分支的树结构. 决策树的根结点是所有样本中信息量最大的属性.树的中间结点是该 ...

  4. 算法工程师面试备战笔记8_猜测这种划分最可能是什么聚类算法的结果

    以下是各个算法的比较

  5. 算法工程师面试备战笔记7_数据清洗与特征处理

    数据清洗 清洗标注数据,主要是数据采样和样本过滤 数据采样 数据采样,例如对于分类问题:选取正例,负例.对于回归问题,需要采集数据.对于采样得到的样本,根据需要,需要设定样本权重.当模型不能使用全部的 ...

  6. 算法工程师面试备战笔记5_下面哪个不属于数据的属性类别

    A 标称 B 序数 C 区间 D 相异 关于数据的属性类别的介绍 数据集由数据对象组成,一个数据对象代表一个实体.数据对象又称样本.实例.数据点或对象.属性(attribute)是一个数据字段,表示数 ...

  7. 算法工程师面试备战笔记4_余弦相似与欧氏距离有什么区别和联系

    1)区别 假设 2人对三部电影的评分分别是 A = [3, 3, 3] 和 B = [5, 5, 5] 那么2人的欧式距离是 根号12 = 3.46, A.B的余弦相似度是1(方向完全一致). 余弦值 ...

  8. 算法工程师面试备战笔记10_精确率(precision)和召回率(recall)

    混淆矩阵 True Positive(真正, TP):将正类预测为正类数. True Negative(真负 , TN):将负类预测为负类数. False Positive(假正, FP):将负类预测 ...

  9. 算法工程师面试备战笔记9_支持向量机(SVM)中的支持向量是什么意思

    题目 我们在下面的二元标签的数据集上训练一个线性SVM模型 这个模型中的支持向量是哪些? A. (−1,1),(1,1),(2,1) B. (−1,1),(−1,−1),(2,1) C. (0,1), ...

最新文章

  1. adb shell am 命令启动activity、Service、Borascast
  2. Elasticsearch之如何合理分配索引分片
  3. Linux: 如何利用HandBrake将DVD光碟转成各式影片档
  4. Typesetting Engine_Gecko
  5. c语言三元运算符_了解C / C ++中的三元运算符
  6. FPT工具LeapFTP3.1.0.50 的注册码
  7. 酪氨酸激酶、自噬等抗肿瘤抑制剂
  8. 神经网络matlab指纹识别_毕业设计论文-matlab指纹识别技术(含代码).doc
  9. win7 下搭建基于jdk1.7 android开发环境
  10. 高等数学-考研需要记忆的8个麦克劳林公式
  11. Digital Photo Professional 4 如何导出jpg
  12. se78 上传图片(logo使用)/SWM0上传文件
  13. html文件设置成mac桌面,Mac软件教程:让你的Mac桌面放入无限多的文件
  14. matlab最小二乘法拟合 做图像,用MatLab画图(最小二乘法做曲线拟合)
  15. 史诗级Java资源大全中文版
  16. 新品周刊 | 内马尔携手极度干燥推出内衣系列;安踏儿童与中国航天推出热返科技羽绒服...
  17. AndroidStudio界面跳转
  18. 基于SpringBoot的大学生租房系统
  19. 倒计时工具类:PYContDownManager
  20. STM32使用寄存器点灯实验

热门文章

  1. 数据:近24小时以太坊2.0存款合约新增2.06万ETH
  2. SAP License:SAP资产管理模块中的相关业务处理
  3. 天池实验室-Task04-Python数据分析:从0完成一个数据分析实战
  4. LivePlayer.js免费直播、点播播放器如何自适应div宽高集成播放视频
  5. 新浪的动态策略灰度发布系统:ABTestingGateway
  6. DedeCMS自定义表单制作和调用办法
  7. iOS开发实用技术之推送-应用间跳转-社交分享
  8. JavaWeb学习记录(二十五)——权限管理总结
  9. 二进制文件和ASCII文件有何差别
  10. hdu 2602 Bone Collector 解题报告