作者:  PALAK11

翻译:王闯 (Chuck)

校对:陈 丹

本文约1700字,建议阅读5分钟

本文作者根据个人过往工作经验,整理出了处理非结构化数据的7个实例,希望能对读者处理相关实际问题有所启发。

本文是作为数据科学博客松的一部分发表的。

介绍

我敢肯定,从事数据工作的人,不管数据量大小与否,都遇到过如下问题:数据不好,数据不一致,数据不干净,诸如此类。帮工作中鲜与数据打交道的人科普一下,根据《福布斯》的报告,数据专家60%的时间都花费在清理和整理非结构化数据上。是的,这花费了很多时间,但我认为这是得出结论的基础。

报告

https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=4b394cc86f63

这里根据我近三年来处理非结构化数据的个人经验整理了7个实例。希望能为相关读者带来些许收获。

1.缺少唯一标识符

要联接两个或多个表,通常要有一个可用于联接表的共有的列,变量,参数等。在这里,我面临着缺少唯一标识符的问题,或者我们可以说缺少主键和外键。那么问题来了,尤其是在跨表报告参数时。

为了解决该问题,我们通过连接某些列中的值来创建键,从而构建了一个包含相关列在内的表。听起来很混乱?确实; 得到你想要的结果了吗?也得到了。

2.不同的命名法

在使用非结构化地理数据时,我遇到了同一个地理辖区不同拼写的问题。例如,Chhattisgarh(印度的一个邦)被拼写为Chattisgarh,Chhatisgarh和Chhattisgarh。这又带来了麻烦。

为了解决该问题,我们创建一个临时的映射层,将代码分配给字符串值,从而通过主数据上的代码从主表中获取正确的拼写以进行操作。

尽管在我看来,构建系统会限制用户选择拼写地理名称的方式,而不是向他们提供预先填充的下拉列表,那样问题就彻底解决了。

3.整理来自不同文件格式的数据

图片来自约翰斯顿高中

在我处理数据的整个生涯中,我几乎一半的时间都会遇到这个问题。我不得不处理不同格式的表的数据。例如,一个是SQL文件,另一个是xlsx文件。

这里没有什么可做的,但是可以确定的是,不要错过整体的所有部分,即整理细分数据。

我们无法控制一切,有时需要寻找替代方案。

4.语言障碍

这是一个有趣的例子,印度次大陆的语言和方言多样性直接影响数据的一致性。例如,喀拉拉邦的锡鲁万纳塔普拉姆(Thiruvananthapuram)也被称为Tiruvanantapuram,每当遇到这,会使我的日子比平时更加焦虑。在处理城区和市区的城镇级别以及乡村的乡村级别的地理管辖数据时,尤其是在调和数据方面提出了很大的挑战。

解决问题的方式不只一种,模糊逻辑拼写检查器是我们寻找的一块垫脚石,我们试图维持一个评分系统,以协调所提出的正确拼写的数据,它解决了近60%的问题。剩下的40%交给人工解决。

5.最常见的-数据缺失

根据我最近的经验,我在各种类型和大小的数据上都遇到过数据缺失的问题。

我们正在使用键值对(key-value pair)系统来摆脱之前定义的问题,例如不同的命名法和/或语言障碍等。只有当我们发现至少35%的值缺失时,我才不得不提出使用模式识别算法来估算缺失值,同时保持机制的神圣性,即保持其唯一性。

在遇到其他同质问题时,我们又请数据工程团队不止一次地使用各种数据源重建数据管道来还原一个“真实的唯一来源”。

6.并不完美的数据架构

来自数据模型中心的图片

我认为,如果数据采集,流程和使用方式不规范,则会导致获取相关有用数据的延迟。因此我能够举出由于同一问题而引发的两个实例。

首先,想象一下要从“ y”列中获取要在“ x”列中收集的数据点。现在,进行架构更改是一项艰巨的任务,因此,我们制作了优化的数据模型,每次输入新一批数据时,这些数据模型都会自动进行更新。

其次,在交付悬而未决的情况下,一个栏位尚未收到任何数据。这意味着要在截止日期前解决,因此我们设法进行数学运算,并使用微分逻辑获取缺失列的值。即使,我们后来收到了我们得出的列的值。

7.不同的日期格式

老实说,当我写标题时,我畏缩了。

在这里引用第3点,由于数据来自不同的文件格式,因此一个变量的列格式也不同也就不足为奇了。

整理数据时,除了进行一些映射和/或转换操作外,我们无能为力。但是,在使用可视化工具时,该问题似乎并不严重,仅需单击几下即可使其变得相关和兼容。

尾声

总之,我相信清理和整理非结构化数据对于交付高质量的结果是至关重要的。希望我提供的这些实例能为现实世界中的实际问题提供参考。

原文标题:

What I did when I had to work with unstructured data?

原文链接:

https://www.analyticsvidhya.com/blog/2020/12/what-i-did-when-i-had-to-work-with-unstructured-data/

编辑:王菁

校对:吕艳芹

译者简介

王闯(Chuck),台湾清华大学资讯工程硕士。曾任奥浦诺管理咨询公司数据分析主管,现任尼尔森市场研究公司数据科学经理。很荣幸有机会通过数据派THU公众号平台和各位老师、同学及同行前辈们交流学习。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 处理非结构化数据的7个实例(附链接)相关推荐

  1. 推荐 :处理非结构化数据的7个实例(附链接)

    作者:  PALAK11  翻译:王闯 (Chuck)   校对:陈 丹 本文约1700字,建议阅读5分钟 本文作者根据个人过往工作经验,整理出了处理非结构化数据的7个实例,希望能对读者处理相关实际问 ...

  2. 独家 | 使用机器学习对非结构化数据加速查询-第2部分(具有统计保证的近似选择查询)...

    作者:Daniel Kang, Edward Gan, Peter Bailis, Tatsunori Hashimoto, and Matei Zaharia 翻译:殷之涵 校对:方星轩 本文约28 ...

  3. 独家 | 使用机器学习加速对非结构化数据的查询-第1部分(使用BlazeIt加速聚合和限制查询)...

    作者:Daniel Daniel,Peter Bailis和Matei Zaharia 翻译:Kay 校对:王雨桐 本文约2800字,建议阅读13分钟. 本文为大家介绍了针对非结构化数据如何加快聚合和 ...

  4. 福利 |《非结构化数据分析》书评:探索非结构化数据的魅力

    文末有数据派独家福利哦 在过去的几年里,围绕大数据.物联网和人工智能等信息的宣传铺天盖地.这些新闻源源不断地向我们展示了技术和分析工作如何改变我们的生活和商业模式.将大数据和物联网转化为有实际价值的信 ...

  5. 2015第27周一非结构化数据

    非结构化数据包括以下几个类型: 文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译.当然,流数据中有一些字段需要更加高级的分析和发掘功能. 交互数据:这里指的是社交网络中的数据, ...

  6. 结构化数据和非结构化数据的区别_中国天辰携手爱数AnyShare,共同探索非结构化数据治理...

    近日,天辰公司智能数据中台-内容管理平台项目上线会圆满举行.基于爱数 AnyShare Family搭建的天辰内容管理平台,将帮助天辰统一管理并处理.分析非结构化数据,让数据赋能业务,进行数字资产管理 ...

  7. Python爬虫(七)_非结构化数据与结构化数据

    页面解析与数据提取 实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全部爬下来) 取(分析数据,去掉对我们没用处的数据) 存(按照我们想要的方式存储和 ...

  8. 【C/C++13】天气APP:数据挖掘/HTTP协议/非结构化数据存储(filetoblob.cpp),数据管理/监控告警(hsmtable.cpp,tbspaceinfo.cpp)

    文章目录 1. 数据挖掘:/etc/rc.local,sudo su 2.HTTP协议:优先wget 3.非结构化数据存储:blob,pzhrain24file 4.数据管理子系统:数据字典表 5.监 ...

  9. MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

    为什么80%的码农都做不了架构师?>>>    摘要: MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断 ...

最新文章

  1. 华为云电脑.模式_华为云电脑支持全线,Huawei Share免费更新
  2. 数据中心级交换机考核方法
  3. OpenCV简单的几何绘图的实例(附完整代码)
  4. hssfcolor 不建议使用_不建议使用微信双开的真正原因!
  5. 太棒了!8 个流行的 Python 可视化工具包,你喜欢哪个?
  6. kickstart+TFTP+PXE+NFS+DHCP批量安装系统,raid
  7. 监控Nginx负载均衡器脚本
  8. Java疯狂讲义(第8章——泛型)(读书笔记)
  9. 分割线怎么搭建css,css怎么设置分割线
  10. Golang的广东11选5出售协程调度机制与GOMAXPROCS性能调优
  11. G 蛋白偶联受体与小分子化合物的相互作用
  12. error An unexpected error occurred “httpsregistry.npmjs.orgd3-geo-proje
  13. Floyd AcWing 854. Floyd求最短路
  14. CentOS安装Eclipse,Eclipse启动时报错
  15. 配置OPENCV出现的问题
  16. 电子科技大学计算机科学与技术专业排名,电子科技大学最好的专业是什么(10大热门专业排名)...
  17. php 获取qq头像,php通过QQ号获取用户QQ昵称、QQ头像、QQ邮箱等信息!
  18. [Reach教程翻译] | 2.3 石头剪刀布
  19. 数据库设计课程设计:高校选课管理系统
  20. 深入浅出pytorch笔记——第三章,第四章

热门文章

  1. 七月算法机器学习笔记9 推荐系统
  2. 模糊(Blur)的学习与体会(一)
  3. 进入社会看到的一片总结,若有感慨
  4. 从头开始做一个智能家居设备:硬件准备
  5. 详解Wi-Fi连接上网认证接入的原理和过程
  6. 两台设备连接在同一Wi-Fi不能通信问题解决
  7. 内存控制器与SDRAM_内存接口概念
  8. debian11安装samba(smb)协议的网络共享
  9. 去广告神器(Adblock Plus离线安装)
  10. OCTA数据集的交叉验证划分为训练集和测试机