自我价值感缺失的表现

Before handling the missing values, we must know what all possible types of it exists in the data science world. Basically there are 3 types to be found everywhere on the web, but in some of the core research papers there is one more type of it. Let me introduce you with all of them very briefly-

在处理缺失值之前,我们必须知道数据科学世界中存在所有可能的类型。 基本上,在网络上到处都可以找到3种类型,但是在一些核心研究论文中,还有另外一种类型。 让我简单地向大家介绍一下-

  1. Structurally Missing Data- Let me tell you an example where we have the results of the students of a university of a particular semester and out of the entire data, some of the result values were missing. This may happen when either of the students have dropped out before exams or maybe were absent. So, this is a structurally missing value. In this case, the best possible solution is to deduce by inserting 0 at those missing places.

    结构上缺失的数据-让我告诉你一个例子,其中我们有特定学期大学学生的成绩,而在全部数据中,有些结果值丢失了。 当任何一个学生在考试前辍学或缺席时,可能会发生这种情况。 因此,这是结构上缺失的值。 在这种情况下,最好的解决方案是在那些丢失的位置插入0来推断。

  2. MCAR (Missing Completely at Random)- When missing values are randomly distributed over entire dataset, MCAR occurs in instances where missing data is not related to the scores on the variables in the question and is not related to the scores on any other variables under analysis. For example, when data are missing for respondents for which their questionnaire was lost. Say you have complete data of 15 questions and incomplete data of 10. In this case, we compare these two datasets by some testing say t-test and if we don’t find any difference in means between the two samples of data, we can assume the data to be MCAR.

    MCAR(完全随机缺失)-当缺失值随机分布在整个数据集中时,MCAR发生在以下情况下:缺失数据与问题中变量的分数无关,并且与分析中任何其他变量的分数均无关。 例如,当丢失了问卷的受访者的数据丢失时。 假设您有15个问题的完整数据,有10个问题的不完整数据。在这种情况下,我们通过一些测试(例如t检验)比较了这两个数据集,如果我们发现两个数据样本之间的均值没有任何差异,我们可以假设数据为MCAR。

  3. MAR (Missing at Random)- Data is not missing randomly across entire dataset but is missing randomly only within sub samples of data. When the probability of missing data on a variable is related to some other measured variable in the model, but not to the value of the variable with missing value itself is MAR. For example, in an IQ dataset, only older people have missing value. Thus, the probability of missing data on IQ is related to age. Also, to assume this as MAR is difficult because there is no way of testing it.

    MAR(随机丢失)-数据在整个数据集中并不是随机丢失的,而是仅在子数据样本内随机丢失的。 当变量上缺失数据的概率与模型中其他一些测量变量相关,而与缺失值本身无关的变量值则为MAR。 例如,在IQ数据集中,只有老年人的价值缺失。 因此,丢失智商数据的可能性与年龄有关。 而且,很难将其假定为MAR,因为没有办法对其进行测试。

  4. NMAR (Not Missing at Random)- When the missing data has no structure to it, we can’t treat it as missing at random. It may be the case where we can’t make conclusions to the missing value.

    NMAR(随机丢失)-当丢失的数据没有结构时,我们不能将其视为随机丢失。 在某些情况下,我们无法得出缺失值的结论。

Some Common Approaches to deal with such type of missing data:

处理此类丢失数据的一些常用方法

  1. Simple one: Drop the corresponding Column/ Row-

    简单一:删除相应的Column / Row-

pd.Dataframe.isnull().dropna() 

If your data size is large and corresponding count of missing values in column/rows are comparatively quite low, then we use this approach.

如果您的数据量很大,并且列/行中缺失值的相应计数相对较低,那么我们可以使用这种方法。

2. Imputation- It fills the missing value with some number. The imputed value won’t be exactly right in most cases, but it usually leads to more accurate models than you would get from dropping the column/row entirely. We can name some of the imputation techniques as below:

2.插补-用一些数字填充缺失值。 在大多数情况下,推算的值并不完全正确,但是与完全删除列/行相比,推导的值通常会导致更准确的模型。 我们可以将一些插补技术命名为:

a) Mean/Median Imputation: As the name suggests, in this we replace missing values by mean or median of the total. We use this approach when the number of missing observations is low.

a)均值/中位数插补:顾名思义,在此我们将缺失值替换为总数的均值或中位数。 当缺少的观察次数很少时,我们使用这种方法。

b) Multivariate Imputation by Chained Equations (MICE): It assumes that the missing data are Missing at Random (MAR). It imputes data on a variable-by-variable basis by specifying an imputation model per variable. It uses all the variables in the data for predictions.

b)链式方程多元估计(MICE):它假定丢失的数据是随机丢失(MAR)。 通过为每个变量指定插补模型,它可以逐变量插补数据。 它使用数据中的所有变量进行预测。

3. Random Forest- Yes, it is also a non-parametric imputation method that works well with both data missing at random and not missing at random. It uses multiple decision trees to estimate missing values and outputs OOB (out of bag) imputation error estimates.

3.随机森林-是的,它也是一种非参数插补方法,可以很好地处理随机丢失的数据和随机丢失的数据。 它使用多个决策树来估计缺失值,并输出OOB(袋外)估算误差估计。

However, there are various other efficient methods to handle the missing values as per the given scenario and the type of data. I have discussed here the most common ones with you. Hope it was helpful, thanks for reading! Good luck!! Be safe!!

但是,根据给定方案和数据类型,还有各种其他有效的方法来处理缺失值。 我在这里与您讨论了最常见的问题。 希望对您有所帮助,感谢您的阅读! 祝好运!! 注意安全!!

翻译自: https://medium.com/analytics-vidhya/different-types-of-missing-values-approaches-to-deal-with-them-1f67c617374c

自我价值感缺失的表现


http://www.taodudu.cc/news/show-997573.html

相关文章:

  • 学习sql注入:猜测数据库_面向数据科学家SQL:学习简单方法
  • python自动化数据报告_如何:使用Python将实时数据自动化到您的网站
  • 学习深度学习需要哪些知识_您想了解的有关深度学习的所有知识
  • 置信区间估计 预测区间估计_估计,预测和预测
  • 地图 c-suite_C-Suite的模型
  • sap中泰国有预扣税设置吗_泰国餐厅密度细分:带有K-means聚类的python
  • 傅里叶变换 直观_A / B测试的直观模拟
  • 鸽子 迷信_人工智能如何帮助我战胜鸽子
  • scikit keras_Scikit学习,TensorFlow,PyTorch,Keras…但是天秤座呢?
  • 数据结构两个月学完_这是我作为数据科学家两年来所学到的
  • 迈向数据科学的第一步:在Python中支持向量回归
  • 使用Python和MetaTrader在5分钟内开始构建您的交易策略
  • ipywidgets_未来价值和Ipywidgets
  • 用folium模块画地理图_使用Folium表示您的地理空间数据
  • python创建类统计属性_轻松创建统计数据的Python包
  • knn分类 knn_关于KNN的快速小课程
  • 机器学习集群_机器学习中的多合一集群技术在无监督学习中应该了解
  • 政府公开数据可视化_公开演讲如何帮助您设计更好的数据可视化
  • 消费者行为分析_消费者行为分析-是否点击广告?
  • 魅族mx5游戏模式小熊猫_您不知道的5大熊猫技巧
  • 数据科学中的数据可视化
  • 多重线性回归 多元线性回归_了解多元线性回归
  • 如何使用Python处理丢失的数据
  • 为什么印度盛产码农_印度农产品价格的时间序列分析
  • tukey检测_回到数据分析的未来:Tukey真空度的整洁实现
  • 到2025年将保持不变的热门流行技术
  • 马尔科夫链蒙特卡洛_蒙特卡洛·马可夫链
  • 数据分布策略_有效数据项目的三种策略
  • 密度聚类dbscan_DBSCAN —基于密度的聚类方法的演练
  • 从完整的新手到通过TensorFlow开发人员证书考试

自我价值感缺失的表现_不同类型的缺失价值观和应对方法相关推荐

  1. 甘超波:NLP自我价值感

    哈喽,大家好我是甘超波,一名NLP爱好者,每天一篇文章,分享我的NLP实战经验和案例,希望给你些启发和帮助,这是第109篇原创文章 今天我们主要分享NLP中自我价值感,在进入正式主题之前我们先来看几个 ...

  2. eviews如何处理缺失数据填补_用EVIEWS把缺失数据补全

    (一)个案剔除法 最常见.最简单的处理缺失数据的方法是用个案剔除法也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法.在这种方法中如果任何一个变量含有缺失数据的话,就把相对应的个案从分析中剔除 ...

  3. 从过去的错误中吸取教训_要学会从错误中吸取,经验教训,才能更加完善提高,自我价值...

    原标题:要学会从错误中吸取,经验教训,才能更加完善提高,自我价值 我们每个人都有可能犯错,但是面对自己的错误应当如何处理,不仅直接关系到个人修养的高低,更关系到事业的成败. 如果一个人在发现自己的错误 ...

  4. 如何在 DAO 中找到个人自由并实现自我价值?

    转载原文链接:http://www.btcwbo.com/5643.html 组织形式的变化伴随着权力结构的调整,权力结构的调整伴随着传统编织形式的变化.如果你觉得自己像一台在公司工作的机器,没有自我 ...

  5. 计算机经验量表,大学生计算机自我效能感量表的开发与应用

    摘要: 近年来,有关计算机学习的心理因素的研究日益增多.在这些研究中,计算机自我效能感是经常被提及的一个概念,对计算机自我效能感的定性,定量研究层出不穷.在对计算机自我效能感进行定量研究的过程中,最重 ...

  6. 亲密关系沟通-【价值感】-确保价值感的沟通方法

    阿兰德波顿-"你越不喜欢一个人,你越能够信心百倍轻而易举的吸引他,强烈的欲望使人丧失了爱情游戏中一种不必可少的漫不经心,你如被人吸引,就会产生自卑情绪,因为我们总是想把最完美的品质赋予我们深 ...

  7. 3 个方法,教你提升程序员的自我价值

    今天在小区的电梯里遇到一个大爷,我约摸有七十多岁,但精神矍铄,嗓音洪亮,个头很高,仿佛一颗大树.人特别和蔼可亲,我喊他一声,"叔叔好."他就开始给我唠嗑,问我干啥的,我回答说,&q ...

  8. 协作与自我价值的关系

    协作与自我价值的关系 为什么我们需要协作 人类文明发展至今,个人想要在这个分工高度细化,职责愈发明确的环境中获取合意的生存资源,与人协作是必要条件.协作,能通过多个生产力的相互融合,杂交,反应,产出单 ...

  9. “价值感”:CEO的真实内在与企业外化

    小晚对谈王兴的<关注边界,不关注核心>刷屏了.这个话题很好,忍不住接个话茬. 3月我和周航探讨领导力的时候,花了很长世间,辨析一个词--"价值感". "价值感 ...

最新文章

  1. 《利用python进行数据分析》读书笔记--第八章 绘图和可视化
  2. 【Enterprise Manager 12c】如何在EM 12c中配置Exadata Infiniband告警邮件
  3. 5G通信应用到无人驾驶要解决什么问题
  4. gitlab的搭建与汉化
  5. 3.3.2 差错控制(检错编码)
  6. LiveVideoStackCon 2018社区编辑门票兑换启动
  7. JupyterNotebook随记(part2)--更改JupyterNotebook主题
  8. 程序员面试金典 - 面试题 04.05. 合法二叉搜索树(中序遍历)
  9. python 数据分析-读写数据csv、xlsx文件
  10. 关于游戏小说与学习知识的不同
  11. golang []byte和string相互转换
  12. javascript arraybuffer
  13. sort redis php,php-redis中的sort排序函数总结
  14. linux ssh免密码登录设置
  15. Excel VBA 删除 表格中的图片
  16. 摄像机标定和 3D 重构
  17. python查找相似图片或重复图片
  18. AcWing 1319. 移棋子游戏(sg 博弈)
  19. 玩转SOLIDWORKS的必备内功:机械传动基础原理
  20. Python:用海龟作图turtle画一个小丑

热门文章

  1. echo(),print(),print_r(),var_dump()的区别
  2. 【p081】ISBN号码
  3. 装饰器3--装饰器作用原理
  4. bzoj 4009 接水果 整体二分
  5. 关于eclipse中文注释乱码的问题
  6. [SoapUI] 通过SoapUI发送POST请求,请求的body是JSON格式的数据
  7. MySQL的mysql_insert_id和LAST_INSERT_ID
  8. 《WinForm开发系列之控件篇》Item13 DirectoryEntry(暂无)
  9. pom.xml文件详解
  10. python 找出监听的端口号对号显示