龙源期刊网

http://www.qikan.com.cn

基于

EM

算法数据单变量缺失处理方法研究

作者:黄铉

来源:《科技传播》

2015

年第

20

数据分析方法大都针对完整数据,而实际上由于一些原因,观测数据常存在缺失。

本文采用

EM

算法对正态分布下的随机缺失数据的参数进行估计。实验结果表明

EM

算法对正

态分布下的单变量缺失数据有效果,但缺失数据比例过大时该方法处理欠佳,对大比例变量缺

失的情况有待研究。

关键词

EM

;缺失数据;正态分布

中图分类号

TP39

文献标识码

A

文章编号

1674-6708

(

2015

)

149-0153-02

近年来数据库及计算机技术的发展推动了数据挖掘技术广泛地应用于各个领域。目前,对

数据进行处理的各种数据挖掘方法几乎都是以假设数据完整为前提条件。然而实际情况是数据

库里的数据往往不完整,数据缺失的情况时常发生。引起数据缺失的原因很多,比如:传感器

故障、数据传输中断、监测方式改变又或者人为因素等。如果直接对包含缺失数据的数据集进

行分析,结果会产生偏差会直接影响到后续的决策,因此对数据进行分析前对缺失数据的处理

尤为重要。

目前国内外学者针对缺失数据的研究很多,也取得了一定的成果。其中,

Rubin

(

1976

)

将缺失机制分为三类:完全随机缺失(

MCAR

)是指变量出现缺失值的可能性与模型中其他变

量无关,与该变量自身也无关,完全随机缺失机制中缺失数据的分布与完整数据分布一致。随

机缺失(

MAR

)是指变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无

关。对于随机缺失机制,缺失数据可以通过完整数据来估计。非随机缺失(

MNAR

)是指变量

的缺失值仅与自身相关。单变量缺失是指数据集中只有某个变量出现信息不完整的情况,此时

对缺失值处理首要考虑数据缺失机制,不同的缺失机制有不同的处理方法。比如成列删除或者

成对删除的方法,如果数据为

MCAR

,减少的样本其实是原样本的一个随机样本,因此删除

后对剩下的数据进行处理是无偏差的;但如果数据为

MAR

,那么这种处理方法则会产生有偏

差的估计值。

本文主要研究数据单变量随机缺失的情况。

实验结果表明采用

EM

算法对不完整的数据进行处理可以用已知数据的条件期望代替缺失

数据。通过比较可见

EM

方法对缺失数据处理比不考虑缺失数据直接进行计算精度高,因而这

种方法处理缺失数据是有效果的,但通过不同缺失值得情况对比分析,对于正态分布数据,当

缺失数据比例低于

30%

EM

方法处理效果良好,当缺失数据比例不断增大缺失数据较多的时

候,对缺失数据参数估计效果欠佳。

EM

方法可以达到收敛到后验密度函数的稳定点,但不保

证结果是收敛到极大值点;另外初始值的选择对结果有一定影响,不同的初始值得到不同的估

计结果,因此选择不同的初始值进行迭代可以减轻初值对结果的影响。如果增大数据个数

EM

em模型补缺失值_基于EM算法数据单变量缺失处理方法研究相关推荐

  1. em模型补缺失值_模型对缺失值的处理

    模型对缺失值的处理 首先从两个角度解释你的困惑: 工具包自动处理数据缺失不代表具体的算法可以处理缺失项 对于有缺失的数据:以决策树为原型的模型优于依赖距离度量的模型 回答中也会介绍树模型,如随机森林 ...

  2. em模型补缺失值_如何填补缺失值?看SPSS提供的简单方法

    数据有缺失是常见的问题,如果是大数据集,在缺失比例较小(如10%以下)的情况下,可以考虑直接剔除,但如果本身是个小数据集,就不能轻易地做删除处理. 建议采用缺失值填补技术来解决. 在SPSS中,有两个 ...

  3. 手机信令数据怎么获得_基于手机信令数据的武汉市人口迁入成因研究

    作 者 信 息 詹庆明1,杨苏舒1,肖 琨2,高思航1,严淑琴1 (1. 武汉大学 城市设计学院,湖北 武汉 430072:2. 武汉市测绘研究院,湖北 武汉 430022) " [摘要]随 ...

  4. em模型补缺失值_ML4fun系列(六):EM算法

    EM算法 最早接触EM算法的地方想必就是在对高斯混合模型进行求解的时候.那就从高斯混合模型开始了解EM算法的工作机理. 高斯混合模型(GMM) 高斯混合模型是一种无监督学习方法.他是用多个高斯分布函数 ...

  5. labview自动保存报表_基于LabVIEW的数据存储及报表设计方法

    2007 年 3 月 北 京 机 械 工 业 学 院 学 报 Journal of Beijing I nstitute ofM achinery Vol . 22 No . 1 Dec . 2007 ...

  6. em模型补缺失值_GitHub - iiphenoix/PPCA-EM-BPCA-Mean: 均值-EM-BPCA-PPCA算法的缺失值(4种)插补...

    1.实验(first模块) ①删除特殊字符:代码在first包里的Prepare.py. ②EM算法插值:代码操作如first包里的em.py所示,并且调用了toencoding.py代码 ③多重插值 ...

  7. snm算法_基于SNM算法的大数据量中文商品清洗方法

    基于 SNM 算法的大数据量中文商品清洗方法 ∗ 张苗苗 苏 勇 [摘 要] 摘 要 SNM 算法即邻近排序算法,是英文数据清洗最常用的算法[ 1 ] . 目前为止,因为中英文语义的差异等一些原因,中 ...

  8. ansys 内聚力模型_基于内聚力模型(CZM)的单筋拉拔数值分析方法研究

    基于内聚力模型( CZM )的单筋拉拔数值分析方法研究 景剑 1 , 强峰 2 , 施凯 1 [摘 要] [摘 要]目前化学植筋粘结性能数值模拟中界面单元均以双弹簧单元 为主,但是模拟结果与相应的试验 ...

  9. 基于像素聚类的分割方法基于slic的方法_博士论文摘要 | 张荣春:数码影像与TLS点云数据融合提取地质结构面方法研究...

    <测绘学报> 构建与学术的桥梁 拉近与权威的距离 数码影像与TLS点云数据融合提取地质结构面方法研究 张荣春1,2 1.南京邮电大学地理与生物信息学院, 江苏 南京 210023;2.河海 ...

最新文章

  1. HJ75 公共字符串计算
  2. 工作中系统报错:数据库连接失败怎么办?
  3. IT项目管理总结:第一章 项目管理概述
  4. [Effective JavaScript 笔记]第29条:避免使用非标准的栈检查属性
  5. 公开课视频-《第03章 部署-IT基础架构》-大企业云桌面部署实战-在线培训-视频(奉献)...
  6. 程序员的能力矩阵表【转载自】
  7. 条件队列java_Java并发系列(4)AbstractQueuedSynchronizer源码分析之条件队列
  8. Python中判断回文数
  9. 图片加载库Glide
  10. redis集群和主从配置
  11. Mac如何添加打印机
  12. 产品沉思录精选:如何像管理金融投资组合一样来管理知识?
  13. 嵌入式系统开发环境概述
  14. 物联网应用技术和计算机应用技术,物联网应用技术专业介绍
  15. 如何在BIOS中开启虚拟化技术
  16. Conhost.exe是什么进程?为什么会启动运行?图文详解
  17. 简单优雅的搭建个人博客
  18. 昌乐一中2021年高考成绩查询,喜 报
  19. 《国家中长期教育改革和发展规划纲要(2010-2020年)》读后感
  20. 高中教学有计算机课吗,高中计算机课教学的思考

热门文章

  1. 递归原来可以so easy|-连载(3)
  2. office漏洞利用--获取shell
  3. js 数组遍历for..in弊端
  4. Learning Perl 2
  5. 人生的12个经典领悟
  6. 软件需求规格说明书通用模版_通用需求挑战和机遇
  7. 5912. 每一个查询的最大美丽值
  8. leetcode 523. 连续的子数组和
  9. leetcode 643. 子数组最大平均数 I(滑动窗口)
  10. 播客51:妈妈可以编码的创始人埃里卡·彼得森(Erica Peterson)