独家 | 处理非结构化数据的7个实例（附链接）

作者: PALAK11

翻译：王闯 (Chuck)

校对：陈丹

本文约1700字，建议阅读5分钟

本文作者根据个人过往工作经验，整理出了处理非结构化数据的7个实例，希望能对读者处理相关实际问题有所启发。

本文是作为数据科学博客松的一部分发表的。

介绍

我敢肯定，从事数据工作的人，不管数据量大小与否，都遇到过如下问题：数据不好，数据不一致，数据不干净，诸如此类。帮工作中鲜与数据打交道的人科普一下，根据《福布斯》的报告，数据专家60％的时间都花费在清理和整理非结构化数据上。是的，这花费了很多时间，但我认为这是得出结论的基础。

报告

https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=4b394cc86f63

这里根据我近三年来处理非结构化数据的个人经验整理了7个实例。希望能为相关读者带来些许收获。

1.缺少唯一标识符

要联接两个或多个表，通常要有一个可用于联接表的共有的列，变量，参数等。在这里，我面临着缺少唯一标识符的问题，或者我们可以说缺少主键和外键。那么问题来了，尤其是在跨表报告参数时。

为了解决该问题，我们通过连接某些列中的值来创建键，从而构建了一个包含相关列在内的表。听起来很混乱？确实; 得到你想要的结果了吗？也得到了。

2.不同的命名法

在使用非结构化地理数据时，我遇到了同一个地理辖区不同拼写的问题。例如，Chhattisgarh（印度的一个邦）被拼写为Chattisgarh，Chhatisgarh和Chhattisgarh。这又带来了麻烦。

为了解决该问题，我们创建一个临时的映射层，将代码分配给字符串值，从而通过主数据上的代码从主表中获取正确的拼写以进行操作。

尽管在我看来，构建系统会限制用户选择拼写地理名称的方式，而不是向他们提供预先填充的下拉列表，那样问题就彻底解决了。

3.整理来自不同文件格式的数据

图片来自约翰斯顿高中

在我处理数据的整个生涯中，我几乎一半的时间都会遇到这个问题。我不得不处理不同格式的表的数据。例如，一个是SQL文件，另一个是xlsx文件。

这里没有什么可做的，但是可以确定的是，不要错过整体的所有部分，即整理细分数据。

我们无法控制一切，有时需要寻找替代方案。

4.语言障碍

这是一个有趣的例子，印度次大陆的语言和方言多样性直接影响数据的一致性。例如，喀拉拉邦的锡鲁万纳塔普拉姆（Thiruvananthapuram）也被称为Tiruvanantapuram，每当遇到这，会使我的日子比平时更加焦虑。在处理城区和市区的城镇级别以及乡村的乡村级别的地理管辖数据时，尤其是在调和数据方面提出了很大的挑战。

解决问题的方式不只一种，模糊逻辑拼写检查器是我们寻找的一块垫脚石，我们试图维持一个评分系统，以协调所提出的正确拼写的数据，它解决了近60%的问题。剩下的40%交给人工解决。

5.最常见的-数据缺失

根据我最近的经验，我在各种类型和大小的数据上都遇到过数据缺失的问题。

我们正在使用键值对（key-value pair）系统来摆脱之前定义的问题，例如不同的命名法和/或语言障碍等。只有当我们发现至少35％的值缺失时，我才不得不提出使用模式识别算法来估算缺失值，同时保持机制的神圣性，即保持其唯一性。

在遇到其他同质问题时，我们又请数据工程团队不止一次地使用各种数据源重建数据管道来还原一个“真实的唯一来源”。

6.并不完美的数据架构

来自数据模型中心的图片

我认为，如果数据采集，流程和使用方式不规范，则会导致获取相关有用数据的延迟。因此我能够举出由于同一问题而引发的两个实例。

首先，想象一下要从“ y”列中获取要在“ x”列中收集的数据点。现在，进行架构更改是一项艰巨的任务，因此，我们制作了优化的数据模型，每次输入新一批数据时，这些数据模型都会自动进行更新。

其次，在交付悬而未决的情况下，一个栏位尚未收到任何数据。这意味着要在截止日期前解决，因此我们设法进行数学运算，并使用微分逻辑获取缺失列的值。即使，我们后来收到了我们得出的列的值。

7.不同的日期格式

老实说，当我写标题时，我畏缩了。

在这里引用第3点，由于数据来自不同的文件格式，因此一个变量的列格式也不同也就不足为奇了。

整理数据时，除了进行一些映射和/或转换操作外，我们无能为力。但是，在使用可视化工具时，该问题似乎并不严重，仅需单击几下即可使其变得相关和兼容。

尾声

总之，我相信清理和整理非结构化数据对于交付高质量的结果是至关重要的。希望我提供的这些实例能为现实世界中的实际问题提供参考。

原文标题：

What I did when I had to work with unstructured data?

原文链接：

https://www.analyticsvidhya.com/blog/2020/12/what-i-did-when-i-had-to-work-with-unstructured-data/

编辑：王菁

校对：吕艳芹

译者简介

王闯（Chuck），台湾清华大学资讯工程硕士。曾任奥浦诺管理咨询公司数据分析主管，现任尼尔森市场研究公司数据科学经理。很荣幸有机会通过数据派THU公众号平台和各位老师、同学及同行前辈们交流学习。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织