读书笔记--MapReduce 适用场景 及 常见应用
原文:http://blog.csdn.net/smile0198/article/details/20578389
1、MR解决的问题的特点
MR是应大数据的背景产生,其解决的问题的共性为:大问题可以被分解为许多子问题,且这些子问题相对独立,将这些子问题并行处理完后,大问题也就被解决。是用来分治、分解的思想。
2、Google论文中提及的典型应用:
URL访问率统计,分布式grep,分布式排序,倒序索引构建,Web连接图反转等。
3、从书中看到的几个比较复杂的应用:
(1)、TopK问题
问题:在搜索引擎中,查出最近最热门的K个查询词。
解决:将问题分解为两个MR,统计词频(相当于wordcount)和找出词频最高的前K个查询词,第二个输入依赖于第一个输出。在第二部分,每个map找出自己的TopK,然后再reduce阶段进行合并,找出最终的TopK。
(2)、K-means 聚类 (k均值)
(3)、贝叶斯分类
后两个问题,我还没有搞清楚怎么实现,等我研究明白了,在po出来
4、MR难以解决的问题
(1)、斐波那契数列,由于算法是递归实现的,下一个结果依赖于前面的结果,无法分解为独立的子问题,所以不能mr
(2)、层次类聚
通过不断的迭代,按距离来合并,要计算两两对象间的距离。
参考《hadoop技术内幕》
转载于:https://www.cnblogs.com/zhizhan/p/4957473.html
读书笔记--MapReduce 适用场景 及 常见应用相关推荐
- 黑帽python第二版(Black Hat Python 2nd Edition)读书笔记 之 第八章 Windows常见特洛伊木马任务(1)有趣的键盘记录器
黑帽python第二版(Black Hat Python 2nd Edition)读书笔记 之 第八章 Windows常见特洛伊木马任务(1)有趣的键盘记录器 文章目录 黑帽python第二版(Bla ...
- 黑帽python第二版(Black Hat Python 2nd Edition)读书笔记 之 第八章 Windows常见特洛伊木马任务(4)沙箱检测
黑帽python第二版(Black Hat Python 2nd Edition)读书笔记 之 第八章 Windows常见特洛伊木马任务(4)沙箱检测 文章目录 黑帽python第二版(Black H ...
- 黑帽python第二版(Black Hat Python 2nd Edition)读书笔记 之 第八章 windows常见特洛伊木马任务(2)截屏
黑帽python第二版(Black Hat Python 2nd Edition)读书笔记 之 第八章 windows常见特洛伊木马任务(2)截屏 文章目录 黑帽python第二版(Black Hat ...
- 错误内存【读书笔记】C程序中常见的内存操作有关的典型编程错误
题记:写这篇博客要主是加深自己对错误内存的认识和总结实现算法时的一些验经和训教,如果有错误请指出,万分感谢. 对C/C++程序员来讲,内存管理是个不小的挑战,绝对值得慎之又慎,否则让由上万行代码构成的 ...
- 《决胜B端》读书笔记04:互联网领域常见产品方向、盈利模式、盈利模式对产品方向的诉求
目录 1.互联网领域的常见产品方向汇总: 2.互联网公司的盈利模式: 1)广告变现 2)增值服务 3)佣金服务 4)买卖差价 3.盈利模式对不同产品类型的诉求: 1.互联网领域的常见产品方向汇总: 2 ...
- 【读书笔记】Python编程:从入门到实践-埃里克·马瑟斯,python基础体系巩固和常见场景练习
[概述] 书名:Python编程:从入门到实践 作者:埃里克·马瑟斯 日期:2021年09月01日 读书用时:1632页,100小时,27个笔记 [读书笔记] ◆ 第4章 操作列表 >> ...
- 【读书笔记】Python网络爬虫从入门到实践(第2版)-唐松,爬虫基础体系巩固和常见场景练习
[概述] 书名:Python网络爬虫从入门到实践(第2版) 作者:唐松 日期:2021年08月01日 读书用时:1568页,100小时,59个笔记 [读书笔记] ◆ 1.2 网络爬虫是否合法 爬虫协议 ...
- 《Data-Intensive Text Processing with mapReduce》读书笔记之一:前言
暑假闲得蛋痒,混混沌沌,开始看<Data-Intensive Text Processing with mapReduce>,尽管有诸多单词不懂,还好六级考多了,虽然至今未过:再加上自己当 ...
- Hadoop读书笔记(六)MapReduce自定义数据类型demo
Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的sh ...
最新文章
- 阿里云代码超限2040M remote: error: hook declined to update refs/heads
- CSS3学习手记(1) 选择器
- Myeclipse优化设置,加速你的开发武器
- HDU 4944 逆序数对
- 抓住金三银四好机会,超齐全java大厂面试题汇总(请自寻学习查找答案)
- Vue + Bootstrap|Element UI——模态框被遮罩层遮盖问题解决方案
- SAP官方帮助网站,help.sap.com 背后那些事儿
- ReactiveCocoa核心元素与信号流
- Spring —— IoC 容器详解
- rabbitmq中文教程python版 - Topics
- js加载音频文件并播放,代码实例
- Visual C++ Samples-------------Code Project
- 【Tensorflow】Windows下基于Anaconda的Tensorflow环境配置
- 中国身份证号码验证,支持15,18位
- 【Python】turtle安装报错ERROR: Command errored out with exit status 1
- 我是一名资深程序员,而今天我又多了一个创业者的身份(2)
- 周哲_java软件工程师 简历
- 轻松把迪文温控器接入迪文云
- python学习笔记-ipc机制 (进程间通信)及其代码实现
- Java网络编程UDP编程