
The ultimate goal of every data scientist or Machine Learning evangelist is to create a better model with higher predictive accuracy. However, in the pursuit of fine-tuning hyperparameters or improving modeling algorithms, data might actually be the culprit. There is a famous Chinese saying “工欲善其事,必先其器” which literally translates to — To do a good job, an artisan needs the best tools. So if the data are generally of poor quality, regardless of how good a Machine Learning model is, the results will always be subpar at best.

每个数据科学家或机器学习传播者的最终目标是创建一个具有更高预测准确性的更好模型。 但是,在追求微调超参数或改进建模算法时,数据实际上可能是罪魁祸首。 中国有句名言“工欲善其事,必先其器”,字面意思是:要做好工作,工匠需要最好的工具。 因此,如果数据质量通常很差,那么无论机器学习模型的质量如何,结果总是最好的。

Why is data preparation so important?


Photo by Austin Distel on Unsplash
Austin Distel在Unsplash上拍摄的照片

It is no secret that data preparation in the process of data analytics is ‘an essential but unsexy’ task and more than half of data scientists regard cleaning and organizing data as the least enjoyable part of their work.

众所周知 ,数据分析过程中的数据准备是“一项必不可少的但并不性感的任务”, 超过一半的数据科学家将清理和整理数据视为工作中最不愉快的部分。

Multiple surveys with data scientists and experts have indeed confirmed the common 80/20 trope — whereby 80% of the time is mired in the mundane janitorial work of prepping data, from collecting, cleaning to finding insights of the data (data wrangling or munching); leaving only 20% for the actual analytic work by modeling and building algorithm.

与数据科学家和专家进行的多次调查确实证实了常见的80/20斜率-80%的时间都沉浸在准备数据的平凡的清洁工作中,从收集,清理到发现数据见解(数据整理或压缩) ; 通过建模和构建算法只剩下20%的实际分析工作。

Thus, the Achilles heel of a data analytic process is in fact the unjustifiable amount of time spent on just data preparation. For data scientists, this can be a big hurdle in productivity for building a meaningful model. For businesses, this can be a huge blow to the resources as the investment into data analytics only sees the remaining one-fifth of the allocation dedicated to the original intent.

因此,数据分析过程的致命弱点实际上是仅仅花费在数据准备上的无用时间。 对于数据科学家而言,这对于构建有意义的模型可能是生产力的一大障碍。 对于企业而言,这可能是对资源的巨大打击,因为对数据分析的投资仅看到剩余的五分之一专用于原始意图。

Heard of GIGO (garbage in, garbage out)? This is exactly what happens here. Data scientists arrive at a task with a given set of data, with the expectation to build the best model to fulfill the goal of the task. But halfway thru the assignment, he realizes that no matter how good the model is he can never achieve better results. After going back-and-forth he finds out that there are lapses in data quality and started scrubbing thru the data to make them “clean and usable”. By the time the data are finally fit again, the dateline is slowly creeping in and resources started draining up, and he is left with a limited amount of time to build and refine the actual model he was hired for.

听说过GIGO(垃圾进,垃圾出)吗? 这正是这里发生的情况。 数据科学家使用给定的数据集完成一项任务,并期望构建最佳模型来实现任务目标。 但是在完成任务的途中,他意识到无论模型多么出色,他都永远无法取得更好的结果。 经过反复研究,他发现数据质量存在问题,并开始对数据进行清理以使其“干净且可用”。 等到数据终于重新适合时,日期线就慢慢爬进去,资源开始消耗drain尽,他只剩下有限的时间来建立和完善他所雇用的实际模型。

This is akin to a product recall. When defects are discovered in products already on the market, it is often too late to remedy and products have to be recalled to ensure the public safety of consumers. In most cases, the defects are results of negligence in quality control of the components or ingredients used in the supply chain. For example, laptops being recalled due to battery issues or chocolates being recalled due to contamination in the dairy produce. Be it a physical or digital product, the staggering similarity we see here is that it is always the raw material taking the blame.

这类似于产品召回。 如果在市场上已有的产品中发现缺陷,通常为时已晚,无法补救,必须召回产品以确保消费者的公共安全。 在大多数情况下,缺陷是供应链中使用的组件或成分的质量控制疏忽的结果。 例如,由于电池问题而召回笔记本电脑 ,或者由于乳制品中的污染而召回巧克力 。 无论是物理产品还是数字产品,我们在这里看到的惊人相似之处都在于,总是责怪原材料。

But if data quality is a problem, why not just improve it?


To answer this question, we first have to understand what is data quality.


Tindependent quality as the measure of the agreement between data views presented and the same data in real-world based on inherent characteristics and features; secondly, the quality of dependent application — a measure of conformance of the data to user needs for intended purposes.

T 独立质量是衡量基于固有特征和特征的数据视图与现实世界中相同数据之间一致性的度量; 其次, 从属应用程序的质量-衡量数据是否符合预期目的用户需求的量度。

Let’s say you are a university recruiter trying to recruit fresh grads for entry-level jobs. You have a pretty accurate contact list but as you go thru the list you realize that most of the contacts are people over 50 years old, deeming it unsuitable for you to approach them. By applying the definition, this scenario fulfills only the first half of the complete definition — the list has the accuracy and consists of good data. But it does not meet the second criteria — the data, no matter how accurate are not suitable for the application.

假设您是一位大学招聘人员,正在尝试为入门级工作招募应届毕业生。 您有一个非常准确的联系人列表,但是当您浏览列表时,您会意识到大多数联系人都是50岁以上的人,认为不适合与他们联系。 通过应用定义,此方案仅满足完整定义的前半部分-列表具有准确性,并包含良好的数据。 但是它不符合第二个标准-数据,无论多么精确,都不适合该应用程序。

In this example, accuracy is the dimension we are looking at to assess the inherent quality of the data. There are a lot more different dimensions out there. To give you an idea of which dimensions are commonly studied and researched in peer-reviewed literature, here is a histogram showing the top 6 dimensions after studying 15 different data quality assessment methodologies involving 32 dimensions.

在此示例中,准确性是我们要评估的数据固有质量的维度。 那里还有更多不同的尺寸。 为了让您了解在同行评审的文献中通常研究和研究哪些维度,下面的直方图显示了研究15种不同的数据质量评估方法(涉及32个维度)后的前6个维度。

A systemic approach to Data Quality Assessment


If you fail to plan, you plan to fail. A good systemic approach cannot be successful without a good planning. To have a good plan, you need to have a thorough understanding of the business, especially on problems associating with data quality. In the previous example, one should be aware that the contact list, albeit correct has a data quality problem of not being applicable to achieve the goal of the assigned task.

如果您没有计划,您计划失败。 没有良好的计划,好的系统方法就不会成功。 要制定好的计划,您需要对业务有透彻的了解 ,尤其是在与数据质量相关的问题上。 在前面的示例中,应该知道联系人列表(尽管正确)存在数据质量问题,不适用于实现所分配任务的目标。

After the problems become clear, data quality dimensions to be investigated should be defined. This can be done using an empirical approach like surveys among stakeholders to find out which dimension matters the most in reference to the data quality problems.

在问题明确之后,应该定义要研究的数据质量维度。 可以使用经验方法(例如,在利益相关者之间进行调查)来完成,以找出哪个维度相对于数据质量问题最为重要。

A set of assessment steps should follow suit. Design a way for the implementation so that these steps can map the assessment based on selected dimensions to the actual data. For instance, the following five requirements can be used as an example:

一套评估步骤也应随之而来。 设计一种实现方式,以便这些步骤可以将基于选定维度的评估映射到实际数据。 例如,可以使用以下五个要求作为示例:

[1] Timeframe — Decide on an interval for when the investigative data are collected.


[2] Definition — Define a standard on how to differentiate the good from the bad data.


[3] Aggregation — How to quantify the data for the assessment.


[4] Interpretability — A mathematical expression to assess the data.


[5] Threshold —Select a cut-off point to evaluate the results.


Once the assessment methodologies are in place, it is time to get hands-on and carry out the actual assessment. After the assessment, a reporting mechanism can be set up to evaluate the results. If the data quality is satisfactory, then the data are fit for further analytic purposes. Else, the data have to be revised and potentially to be collected again. An example can be seen in the following illustration.

评估方法到位后,就可以动手进行实际评估了。 评估之后 ,可以建立报告机制来评估结果。 如果数据质量令人满意,则将数据用于进一步的分析目的。 否则,必须修改数据并可能再次收集。 下图显示了一个示例。



There is no one-size-fits-all solution for all data quality problems, as the definition outlined above, half of the data quality aspect is highly subjective. However, in the process of data quality assessment, we can always use a systemic approach to evaluate and assess data quality. While this approach is largely objective and relatively versatile, some domain knowledge is still required. For example in the selection of data quality dimension. Data Accuracy and Completeness might be critical aspects of the data for use case A but for use case B these dimensions might be less important.

对于所有数据质量问题,没有一种千篇一律的解决方案,正如上面概述的定义,数据质量方面的一半是高度主观的。 但是,在数据质量评估过程中,我们始终可以使用系统的方法来评估和评估数据质量。 尽管此方法主要是客观的并且相对通用,但是仍需要一些领域知识。 例如在选择数据质量维度时。 对于用例A,数据准确性和完整性可能是数据的关键方面,但对于用例B,这些维度可能不太重要。

翻译自: https://towardsdatascience.com/how-to-improve-data-preparation-for-machine-learning-dde107b60091




  • 逻辑回归 python_深入研究Python的逻辑回归
  • Matplotlib中的“ plt”和“ ax”到底是什么?
  • cayenne:用于随机模拟的Python包
  • spotify 数据分析_没有数据? 没问题! 如何从Wikipedia和Spotify收集重金属数据
  • kaggle数据集_Kaggle上有170万份ArXiv文章的数据集
  • 深度学习数据集中数据差异大_使用差异隐私来利用大数据并保留隐私
  • 小型数据库_如果您从事“小型科学”工作,那么您是否正在利用数据存储库?
  • 参考文献_参考
  • 数据统计 测试方法_统计测试:了解如何为数据选择最佳测试!
  • 每个Power BI开发人员的Power Query提示
  • a/b测试_如何进行A / B测试?
  • 面向数据科学家的实用统计学_数据科学家必知的统计数据
  • 在Python中有效使用JSON的4个技巧
  • 虚拟主机创建虚拟lan_创建虚拟背景应用
  • python 传不定量参数_Python中的定量金融
  • 贝叶斯 朴素贝叶斯_手动执行贝叶斯分析
  • GitHub动作简介
  • 照顾好自己才能照顾好别人_您必须照顾的5个基本数据
  • 认识数据分析_认识您的最佳探索数据分析新朋友
  • arima模型怎么拟合_7个统计测试,用于验证和帮助拟合ARIMA模型
  • 天池幸福感的数据处理_了解幸福感与数据(第1部分)
  • 詹森不等式_注意詹森差距
  • 数据分析师 需求分析师_是什么让分析师出色?
  • 猫眼电影评论_电影的人群意见和评论家的意见一样好吗?
  • ai前沿公司_美术是AI的下一个前沿吗?
  • mardown 标题带数字_标题中带有数字的故事更成功吗?
  • 使用Pandas 1.1.0进行稳健的2个DataFrames验证
  • rstudio 关联r_使用关联规则提出建议(R编程)
  • jquery数据折叠_通过位折叠缩小大数据
  • 决策树信息熵计算_决策树熵|熵计算


  1. 如何提高三维模型OSGB格式转换3DTILES的转换速度和数据质量

    如何提高三维模型OSGB格式转换3DTILES的转换速度和数据质量 提高三维模型从OSGB格式转换为3DTILES格式的转换速度和数据质量,可以从以下几个方面进行优化: 1.选用高效的转换工具:选择高 ...

  2. 范数在机器学习中的作用_设计在机器学习中的作用

    范数在机器学习中的作用 Today, machine learning (ML) is a component of practically all new software products. Fo ...

  3. 机器学习 文本分类 代码_无需担心机器学习-如何在少于10行代码中对文本进行分类

    机器学习 文本分类 代码 This article builds upon my previous two articles where I share some tips on how to get ...

  4. 机器学习 多变量回归算法_如何为机器学习监督算法识别正确的自变量?

    机器学习 多变量回归算法 There is a very famous acronym GIGO in the field of computer science which I have learn ...

  5. gb50243-2016通风与空调工程施工质量验收规范_《通风与空调工程施工质量验收规范》GB50243-2016 重点解读...

    本文来源 百度文库 筑龙暖通 整理 01 修订简介 修编依据 根据住房和城乡建设部<关于印发(2012 年工程建设标准规范制定修订计划)的通知> (建标{2012}5 号)文的要求,规范编 ...

  6. 机器学习和深度学习_算法测评 | 机器学习VS深度学习

    OLDER BROTHER 大家好,我是你们的机房老哥! "机器学习进阶" 「前言」 " 机器学习和深度学习是很早前就埋下的坑,最近决定整合写一篇,利用机器学习的经典算法 ...

  7. 机器学习 模型性能评估_如何评估机器学习模型的性能

    机器学习 模型性能评估 Table of contents: 目录: Why evaluation is necessary?为什么需要评估? Confusion Matrix混淆矩阵 Accurac ...

  8. 机器学习模型管理平台_如何管理机器学习模型

    机器学习模型管理平台 Michael Berthold是KNIME的创始人兼首席执行官. 在当今快节奏的分析开发环境中,数据科学家通常承担的任务远不只是建立机器学习模型并将其部署到生产中. 现在,他们 ...

  9. python如何读dat数据_如何用Python进行数据质量分析

    概述 数据挖掘的第一步工作是数据准备,而数据准备的第一步就是数据质量分析了.本篇文章着重介绍如何使用Python进行数据质量分析的初步工作,属于比较基础的入门教程. 为什么要进行数据质量分析 根据百度 ...


  1. A + B Problem
  2. python基础(三元运算+深浅拷贝+函数参数)
  3. ios 性能优化(一)
  4. warning: implicit declaration of function导致core
  5. 文档类CDocument、子框架类CFrameWnd及视图类CView的关系及如何相互调用
  6. SQL Server里一些未公开的扩展存储过程
  7. 三班的孩子们,你们现在还好吗?
  8. 上周热点回顾(9.1-9.7)
  9. 《剑指Offer》37:序列化二叉树
  10. Magento: 获取类别所有子类别 (无限级别-目录树) Get All Sub Categories
  11. Python入门-行和缩进
  12. 使用GPG实现密码学应用
  13. SpeechSynthesisUtterance 语音合成使用 文字语音播报
  14. 6.Cython使用WinGw编译pyd
  15. UnityShader入门精要——运动模糊(2)
  16. InAction-根据LBS数据手机用户移动轨迹
  17. flume 对接 kafka 报错: Error while fetching metadata with correlation id 35 {=INVALID_TOPIC_EXCEPTION}
  18. 计算机大纲中的应用,计算机的应用论文提纲模板范本 计算机的应用论文大纲怎么写...
  19. linux install jkd
  20. 2014年至今参与的五个项目总结


  1. 关于cp命令中拷贝所有的写法
  2. 【计算机系统设计】实践笔记(2)数据通路构建:第一类R型指令分析(1)
  3. 【操作系统】进程调度(2b):STCF(最短完成时间优先) 算法 原理与实践
  4. 1017. A除以B (20)
  5. 线程共享全局变量(.data和.bbs)
  6. C/C++中NULL指针
  7. 真香定律!Android动态换肤实现原理解析,吐血整理
  8. 决策树——ID3和C4.5
  9. SpringBoot2.0 Actuator 监控参数说明
  10. MySQL字段拼接Concat