读书笔记:大数据清洗技术

作者:哈尔滨工业大学博导王宏志

第二章 大数据处理技术概述

上一章我们主要从大数据的定义及特征,大数据的质量问题,大数据清洗技术的进展和本书的技术创新点四个方面对这本书有了初步的了解。本章我们来了解本书中会使用到的常见的大数据处理技术包括两个部分。第一部分是基于大数据规模大和速度快的特点,讲的是大数据并行计算平台Hadoop平台和Hyracks平台以提高计算可拓展性,第二部分则是面对大数据多样性的特点采取人机协同的策略,利用人的知识补充计算机处理能力的众包技术。而我主要讲一下MapReduce框架和众包技术。

1.大数据并行计算平台Hadoop

MapReduce和HDFS二者共同构成了Hadoop平台分布式系统的核心,缺一不可。MapReduce完成了集群上的任务处理和分布式计算,HDFS则实现了Hadoop集群上的分布式文件系统,二者共同作用,完成Hadoop平台分布式集群的数据处理任务。

(1)MapReduce框架

MapReduce可以直观理解为“任务的分解与汇总”,通过Map和Reduce两个过程来实现,能有效地帮助研究人员使用分布式系统来完成大规模数据集的并行运算,提高计算效率。通常由main函数先后调用Map函数和Reduce函数,其中Map过程主要是完成输入与输出之间的key/value对映射,而Reduce的计算过程则主要完成具有相同键值的ValueList的计算和输出。具体工作流程如下:

  • Input(输入):从指定的文件中读取数据。

原始数据→<InputKey, InputValue>

  • Map(映射):将原始数据映射成用于Reduce的数据。

<InputKey, InputValue>→List<MapKey, MapValue>

  • Reduce(合并):将相同Key值的中间数据合并成最终数据。

<MapKey, List<MapValue>>→<OutputKey, OutputValue>

  • Output(输出):将最终处理结果输出到文件。

<OutputKey, OutputValue>→结果文件

在Map前可能会根据想要得到的任务并行效果对输入数据进行分割,数据分段越多,Map的并行度就越高,如果过分追求分段数量,每个分段中数据量太少,会对Map的并行度起到反作用,并且降低Reduce的运算效率。下图为MapReduce任务处理流程图。

(2)HDFS

HDFS是Hadoop分布式文件系统,类似于一个普通的,传统的,常见的文件系统,我们同样可以在上面进行多种文件操作例如创建,删除,复制粘贴等。

2. 众包技术

众包技术的出现是基于最了解数据的还是用户自己的原则,利用人力资源来修复数据能够更好地减少数据偏离度,加强修复效果。众包技术即将任务外包给分布式的一群人而并非专家,通过网络登录这些众包平台即可接受和完成任务。在众包平台上一个请求者提供任务,工人接受工作任务。后提交任务,经过审核评价后即可获得报酬。一般这种任务不是特别困难,可以由一个人轻松完成。这个任务不是由计算机完成的,而是由此服务后台的工作人员完成的,人类执行计算机提交的任务并反馈结果,因此把这个服务称为“人工的人工智能”。例如我们常用的软件作业帮,当我们有问题时将问题拍照上传,系统受到任务后由后台人员认领任务开始解题,解题结束后后台人员同样拍照进行上传,由系统进行识别审核后反馈给我们,我们就可以马上得到问题的解决方案。

本书以领先的Amazon Mechanical Turk(AMT)众包平台为例将流程具体化。AMT平台提供的基础设施链接和付款机制,使成千上万的人在互联网上从事带薪工作。AMT主要分为三部分:Amazon Mturk(AMT平台)、Requester和Worker。

 Requester是指希望在AMT平台上雇佣到人来完成一些任务。他会将任务通过指定的页面发布到ATM平台上。当任务被Worker完成后,Requester可以拿到相应的结果,分析这些结果是否来自Scam Worker,如果是,则有权不给这些用户付费。

Worker可以分成两种: Serious Worker和Scammer。Serious Worker是指可以认真地完成任务,并希望拿到回报的Worker。而Scammer一般是指只为了赚钱而不看题目的人,因为他们有50%的概率猜中答案,相对于SeriousWorker来说他们的赚钱效率更高。

AMT平台的主要任务是制定交易规则和评级工作。例如,给Worker评级打分,当Requester发现他的Worker欺骗用户时,他可以通过AMT平台阻止该Worker的工作, AMT平台可以对该Worker的表现做进一步的判断,如果发现是ScamWorker,AMT有权暂停或注销用户。

众包平台的特点:

  • 生产力的快速进步,使得很多人都可以有大量的自由时间来从事工作外的事情,这些基于兴趣的事情能够极大地激发自身的积极性、主动性和创造性。
  • 互联网的普及以及互联网经济独特的边际成本趋向于零的特点,使得巨型在线交流平台得以出现。
  • 互联网消除了参与障碍,将整个世界连成一张网,公司就可以充分利用全世界的人才。数量庞大而多样化的人才队伍无疑能提出更多、更好的解决方案。
  • 消费者越来越追求多样化,即小批量、多品种。
  • 生产者、消费者、供应商之间的界限日渐模糊。

读书笔记:大数据清洗技术 02相关推荐

  1. 读书笔记:大数据清洗技术 03

    读书笔记:大数据清洗技术 作者:哈尔滨工业大学博导王宏志 第三章 实体识别 本节我们将着重讲一下实体识别算法中的串行实体识别. 1. 实体识别概述 同一对象的不同表示通常是由于信息来自不同的数据源.当 ...

  2. 《淘宝技术这十年》读书笔记 (三). 创造技术TFS和Tair

    前面两篇文章介绍了淘宝的发展历程和Java时代的变迁:             <淘宝技术这十年>读书笔记 (一).淘宝网技术简介及来源             <淘宝技术这十年&g ...

  3. 《李元芳履职记》读书笔记二 IT技术管理的沟通与团队建设

    <李元芳履职记>读书笔记二 接一 https://blog.csdn.net/qq_45937199/article/details/103305223 IT技术人员从技术岗走向管理岗,所 ...

  4. 读书笔记-大型网站技术架构(核心原理与案例分析)

    一.大型网站架构演化 1.1 大型网站软件系统的特点 高并发.大流量:高可用:海量数据:用户分布广泛,网络情况复杂:安全环境恶劣:需求快速变更,发布频繁:渐进式发展: 1.2 大型网站架构演化发展历程 ...

  5. 读书笔记之MySQL技术内幕

    前言 本文内容基本摘抄自<MySQL技术内幕 InnoDB存储引擎>,以供复习之用,没有多少参考价值.想要更详细了解请参考原书. 第一章.MySQL体系结构和存储引擎 数据库是物理操作系统 ...

  6. 《京东技术解密》读书笔记:坚持技术十年如一日

    内容目录: 1.京东技术升级路线 2.京东创新的应用 3.京东那些技术牛人 一直在京东上面shopping,喜欢京东的物流,也有一些同学在京东研发体系上班了,早就听说有了这么一本书,却一直没有阅读.最 ...

  7. 读书笔记-大型网站技术架构

    1. 大型网站架构演化 1.1 大型网站软件系统的特点 大型互联网应用系统的特点 -高并发,大流量 -高可用 -海量数据 -用户分布广泛,网络情况复杂 -完全环境恶劣 -需求快速变更,发布频繁 -渐进 ...

  8. 读书笔记-大颠狂(非同寻常的大众幻想与群众性癫狂)

    本书内容概要 <财富>杂志鼎力推荐的75本商务必读书之一,<金融时报>评选的史上最佳10部金融作品之一.本书在金融史上的地位不言自喻,在世界各地流传了近200年依然畅销不衰.它 ...

  9. 【读书笔记】用技术人的眼光看世界

    持续学习&持续更新中- 守破离 用技术人的眼光看世界-程序员技术指北 用技术人的眼光看世界 一些总结 参考 用技术人的眼光看世界 对技术人员而言,技术是根本,所以有人认为单纯技术好就可以了,这 ...

最新文章

  1. php 面试靠快速排序,搞定PHP面试 - 常见排序算法及PHP实现
  2. XSS、CSRF与验证码等等
  3. 李开复发自前方:From Davos with AI
  4. Lighttpd 搭建 Web 服务器
  5. 版本控制系统(SVN,Git)与项目托管平台(Github,Gitee,Coding)
  6. pandas 处理 csv
  7. 没有upcast 也不会发生多态
  8. 超级外链工具_慈溪SEO优化_豆瓣外链:豆瓣小组做外链的注意事项?
  9. codeblock快捷键大全
  10. ppt课堂教学流程图_ppt怎么做流程图 ppt做流程图的方法是什么
  11. Duckduckgo搜索引擎
  12. 如何解决fillRect方法画矩形变形的问题?
  13. win10家庭版调出组策略_普通用户选择哪个Win10系统版本?家庭版与专业版的对比介绍...
  14. PDF编辑方法,怎么从PDF中提取页面
  15. 关于医疗影像的mhd和dcm格式图像的读取和坐标转换
  16. 社交自媒体整合网络营销推广方案的7个方法
  17. js:如何监听history的pushState方法和replaceState方法。(高阶函数封装+自定义事件)
  18. 传统支付方式不能满足线下支付的需求
  19. 建议Amazon卖家选择轻巧产品的原因
  20. 贪吃蛇之智能蛇的实现

热门文章

  1. 【单片机毕业设计】【mcuclub-jj-050】基于单片机的门禁的设计
  2. HTML那些可爱的“表情包”
  3. 【vue】vue实现用户长时间不操作,提示用户登录已过期重新登录
  4. 实验室第一次考核(C语言)
  5. 硬核图书系列:《漫画算法:小灰的算法之旅》
  6. lv的snapshot
  7. javascript匿名函数传值问题
  8. 《嫌疑人X的献身》读后感
  9. vue实现倒计时定时器
  10. ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM