本节书摘来自异步社区《数据整理实践指南》一书中的第1章,第1.1节,作者【美】Q. Ethan McCallum(麦卡伦),更多章节内容可以访问云栖社区“异步社区”公众号查看

第1章 从头说起:什么是噪音数据

数据整理实践指南
我们都口口声声说喜欢数据,实际上并非真的喜欢。

我们喜欢的只是洞察数据,这和喜欢数据本身并不一样。

实际上,很多人和我一样,甚至可以说并不关心数据本身。

什么是噪音数据(Bad Data)呢?很难给它下个准确的定义。有些人认为它纯粹属于经验上的、技术方面的问题:缺失值、记录格式不对或者是蹩脚的文件格式。当然,这些都属于噪音数据,但是实际上噪音数据涵盖的范围要比这广得多。噪音数据还包含那些浪费你的时间、导致你不得不在公司加班以及那些让你崩溃欲哭无泪的数据。那些你无法访问的、曾经拥有又丢失的以及发生了变更的数据,可能都属于噪音数据。

简而言之,噪音数据是那些“给你惹麻烦的数据”。有很多种情况都会产生噪音数据,比如蹩脚的存储、糟糕的说明,甚至是让人误解的策略。如果你从事数据科学这方面时间足够长,必定会遇到很多不同的噪音数据。

因此,我们想要编一本《数据整理实践指南》,一本关于“烦人的数据”大典。在本书中,19位来自不同领域的数据专家和我们分享关于噪音数据的故事,以及他们是如何从中走出来的痛苦经历。

下面是他们的故事。

Grubby的动手实践指南
通常不能假设一个新的数据集是干净的并且已经可以分析了。在第2章“是我的问题还是数据的问题”探讨了尝试驾驭数据的一些技术。

在电子表格中还有很多数据难以使用,电子表格格式过于纷繁复杂,对数据分析很不方便。在第3章“数据是给人看的不是给机器看的”中,Paul Murrel展示了一些提取数据的方法。

如果你和文本数据打交道,迟早会因为文字编码而“屡受重创”。在第4章“纯文本中潜在的噪音数据”阐述了存在哪些问题以及如何解决。

总而言之,在第5章“重组Web数据”帮你分析了在Web开发中会碰到的种种“坑”。

数据——让人充满意外
人们在网上评论时不会说真话,Jacob Perkins发现人们的撒谎方式很奇怪。在第6章“检测撒谎者以及相互矛盾网上评论的困惑”中揭示了Jacob的自然语言处理时如何揭露这股新的“撒谎力量”。

即使数据中的一切都会出错,我们还可以依赖唯一标志符吗?在第9章“当数据和现实不匹配”中,Spencer Burns分享了其在金融市场的经历,解释了为什么唯一标识符也不靠谱。

方法
目前工业界依然在努力准确定义“数据科学家”,但我们都知道写代码是其中的一部分。第8章“血、汗和尿”从软件开发者角度给出了一些充满智慧的建议。

第7章,Philipp K. Janert在“请噪音数据站出来”中分享了是否有真正的噪音数据。

你的数据可能有问题,而你却还蒙在鼓里。正如Jonathan A. Schwabish在第10章“偏差和误差的来源”中所述,收集数据的方法决定了数据会带给你什么样的麻烦。

在第11章“不要把完美和正确对立起来:噪音数据真是噪音吗”中,Brett J. Goldstein的一些回顾阐释了噪音数据如何给传统的统计训练带来实际的挑战。

数据存储和基础设施
如何存储数据对你如何分析数据影响至关重大。在第13章“卧库表,隐网络”中,Bobby Norton解释了如何查看关系数据库中的图形数据结构。

云计算的可扩展性和弹性使得它成为大规模数据分析的理想选择,在第14章“云计算神话”中,Steve Francia详细解释了其中一些概念和理念,以便你快速入门。

我们探讨关系数据库以及NoSQL、Mongo和Couch、某两个基于Hadoop的存储之间的区别。在第12章“数据库攻击:什么时候使用文件?”提供了另一种存储选择的探讨。

数据的商业化
有时聘请一名全职的数据科学家并不合适,或者需要一项你所不知道的技能。在第16章“如何雇佣机器学习专家”,Pete Warden阐述了如何把机器学习工作外包出去。

企业的官僚制度可能会成为你数据分析的障碍,使得你几乎无法分析数据。在第15章“数据科学的阴暗面”描述了应该避免的一些最差的方式。

数据策略
显然,你知道自己使用的方法,但是你真的理解这些数据图是怎么生成的吗?在第17章“数据的可追踪性”是对数据处理流程的思考。

当数据没有正确处理时会变得格外糟糕:想要的东西不存在,想要删掉的却还在那里。在第18章“社交媒体:是可以抹去的印记吗”中,Jud Valeski探讨了社交媒体的未来,并分享对不远的未来的一些思考。

在本书的最后,第19章“揭秘数据质量分析:了解数据什么时候足够优质”。第19章是第2章内容的补充,我们阐述了如何评估数据质量,以及如何构建数据质量相关平台。

《数据整理实践指南》一第1章 从头说起:什么是噪音数据相关推荐

  1. 《数据整理实践指南》一第2章 是我的问题还是数据的问题

    本节书摘来自异步社区<数据整理实践指南>一书中的第2章,第2.1节,作者[美]Q. Ethan McCallum(麦卡伦),更多章节内容可以访问云栖社区"异步社区"公众 ...

  2. 《Python数据科学实践指南》——0.2节如何成为数据科学家

    本节书摘来自华章社区<Python数据科学实践指南>一书中的第0章,第0.2节如何成为数据科学家,作者纪路,更多章节内容可以访问云栖社区"华章社区"公众号查看 0.2 ...

  3. 《术以载道——软件过程改进实践指南》—第1章1.1节对CMMI的基本认识

    本节书摘来自异步社区<术以载道--软件过程改进实践指南>一书中的第1章1.1节对CMMI的基本认识,作者任甲林,更多章节内容可以访问云栖社区"异步社区"公众号查看. 第 ...

  4. 《CCNP安全Secure 642-637认证考试指南》——第8章 配置与实施路由式数据面安全...

    本节书摘来自异步社区<CCNP安全Secure 642-637认证考试指南>一书中的第8章 配置与实施路由式数据面安全,作者[美]Sean Wilkins , Trey Smith,更多章 ...

  5. python数据科学实践指南_《Python数据科学实践指南》——导读-阿里云开发者社区...

    前 言 为什么要写这本书 我接触大数据技术的时间算是比较早的,四五年前当大数据这个词火遍互联网的时候,我就已经在实验室里学习编程及算法的知识.那个时候我一心想要做学术,每天阅读大量的英文文献,主要兴趣 ...

  6. 《Python 数据科学实践指南》读书笔记

    文章提纲 全书总评 C01.Python 介绍 Python 版本 Python 解释器 Python 之禅 C02.Python 基础知识 基础知识 流程控制: 函数及异常 函数: 异常 字符串 获 ...

  7. 《持续集成实践指南》第1章 DevOps实践简介

    1.1 Devops概念 DevOps(英文Development和Operations的组合)是开发和运维一体一组过程.方法与系统的统称,用于促进开发(应用程序/软件工程).技术运营和质量保障(QA ...

  8. 《持续集成实践指南》第2章 持续集成环境搭建Jenkins+Gitlab+Gerrit

    开发环境: 服务器:Ubuntu Server 20.04 2.1简介 Jenkins是一个独立的开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件 ...

  9. python数据科学实践指南_Python数据科学实践指南

    领取成功 您已领取成功! 您可以进入Android/iOS/Kindle平台的多看阅读客户端,刷新个人中心的已购列表,即可下载图书,享受精品阅读时光啦! - | 回复不要太快哦~ 回复内容不能为空哦 ...

最新文章

  1. 今晚有直播 | 全国大学生智能汽车竞赛人工智能创意赛来啦!
  2. 【图像分割】图像分割专栏栏主自述:分割,我们究竟在研究什么?
  3. 向量程序C语言,一个有关向量与矩阵的实用计算器程序
  4. iPhone socket 编程之BSD Socket篇
  5. 苹果php环境,苹果电脑安装PHP环境步骤-PHP问题
  6. 晨哥真有料丨宁缺毋滥会等来一个很好的人吗?
  7. Verilog设计实例(1)线性反馈移位寄存器(LFSR)
  8. 视频教程-2020年软考网络规划设计师论文写作历年真题详解软考视频教程-软考
  9. java使用qq群发邮件_java群发发送qq邮件
  10. 小写字母转大写字母并输出ASCLL值
  11. vue element select 下拉加载更多
  12. 两台虚拟服务器如何串联,巧用路由器的DHCP功能,完成两台路由器之间的串联,你学会了么...
  13. 实训任务04 MapReduce编程入门
  14. [线段树][数学] Jzoj P4237 Melancholy
  15. VMware虚拟机中安装Win10系统
  16. 微机期末速通---不挂科版
  17. APP和后端HTTP通信加密思路
  18. iptables --algo 字符串匹配算法 bm kmp
  19. Linux搭建YUM仓库
  20. Origin绘制折线图

热门文章

  1. CString .Format
  2. ubuntu修改顶栏颜色
  3. Maven 加载ojdbc14.jar报错,解决方法
  4. android 什么是9.png
  5. 报错显示从客户端检测到有潜在危险的Request.Form 值
  6. C#的Winform多语言实现(resx文件)
  7. win32汇编基础概念
  8. python是面向过程的吗_Python开发是面向过程、函数还是对象?
  9. tensorflow环境下的识别食物_在win10环境下进行tensorflow物体识别(ObjectDetection)训练...
  10. OPENSSL的基础使用