从Hadoop 说起 六个真实的大数据应用案例
1. Last.fm
1.1背景
创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm,产生大量数据。现在有了中文版http://cn.last.fm/,界面很不错!
2006年初,Last.fm开始使用Hadoop,几个月后投入实际应用。Hadoop是Last.fm基础平台的关键组件,有2个 Hadoop集群,50台计算机,300个内核,100TB的硬盘空间。在集群上,运行数百种各种日常作业,包括日志文件分析,A/B测试评测,即时处理 和图表生成。
1.2图表生成
图表生成是Hadoop在Last.fm的第一个应用。
1.3数据从哪里来
Last.fm有两种收听信息:用户播放自己的音乐,如pc或者其他设备mp3,这种信息通过Last.fm的客户端或者第三方应用发送到 Last.fm,这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目,以及听节目时候的喜爱,跳过,禁止等操作信息,这一类叫 radiolisten电台收听数据。
1.4数据存储
收听数据被发送到Last.fm,经历验证和转换,形成一系列有空格分隔的文本文件,包含用户id-userid,音乐id-trackid, 这首音乐被收藏的次数scrobble,这首音乐在电台中收听的次数radio,被跳过的次数skip。真实数据达到GB级别,有更多属性字段。
1.5数据处理
1.5.1UniqueListeners作业:统计收听某一首歌的不同用户数,也就说说,有多少个用户听过某个歌,如果用户重复收听,只算一次。
1.5.2Sum作业:每首歌的收听总数,收藏总数,电台收听总数,被跳过的总数。
1.5.3合作作业:每首歌的被多少不同用户收听总数,收听总数,收藏总数,电台收听总数,被跳过的总数。
1.5.4这些数据会被作为周排行榜等在Last.fm主站上显示出来。
2.Facebook
2.1背景
Facebook社交网络。
开始时,试用一个小Hadoop集群,很成功。同时开始开发Hive,Hive让工程师能 用SQL语言处理Hadoop集群的数据,毕竟很多人更熟悉SQL。后来,Facbook运行了世界第二大Hadoop集群,数据超多2PB,每天加入 10TB数据,2400个内核,9TB内存,大部分时间硬件满负荷运行。
2.2使用情况
2.2.1在大规模数据是以天和小时为单位产生概要信息。如用户数,网页浏览次数,网站访问时间增常情况,广告活动效果数据,计算用户喜欢人和应用程序。
2.2.2分析历史数据,以设计和改进产品,以及管理。
2.2.3文件存档和日志查询。
2.3广告分析
2.3.1cpc-costperclick点击数计费,cpm-costpermille每千人成本。
2.3.2个性化广告定制:根据个体用户进行不同的内容剪辑。Yahoo!的SmartAds,Facebook的SocialAds,EngagementAd广告意见/嵌入视频交互。Facebook每天处理1TB数量级广告数据。
2.3.3用Hive分析A/B测试的结果。
2.3.4Hadoop和Hive分析人气网站,生物信息公司,原油勘探公司,在线广告。
3.Nutch搜索引擎
3.1Nutch框架用户建立可扩展的crawler网络爬虫和搜索引擎。
3.2架构
3.2.1crawlDb网页数据库:跟踪网络crawler抓取的网页和它们的状态。
3.2.2fetchlist爬取网页清单:crawler定期刷新web视图信息,下载新的网页。
3.2.3pagecontent原始网页数据:从远程网站下载,以原始的未世界的格式在本地存储成字节数组。
3.2.4解析的网页数据:Nutch为html,pdf,openoffice,msoffice,rss提供了解析器。
3.2.5linkdb链接图数据库:pagerank来的。
3.2.6lucene全文检索索引:倒排索引,基于搜集到的所有网页元数据和抽取到的纯文本内容建立。
3.3使用情况
Nutch使用Hadoop作业处理数据。
4Rackspace
4.1背景
Rackspacehosting为企业提供管理系统。在数百台服务器上为100万用户和几千家公司提供邮件服务。
4.2使用情况
日志分析。发送邮件需要使用多个postfix邮件代理服务器,大部分消息穿越多个Postfix服务器,但每个服务器只知道邮件的目的地,为了给消息建立完整的历史信息,需要用Hadoop处理日志记录。
4.3使用方式
在数据中心,syslog-ng从source机器传统日志数据到一组负载均衡的collector收集器机器。在收集器上,日志数据被汇集成一个单独的数据流,用gzip格式进行轻量级压缩。
当压缩的日志流到达本地收集器,数据会被写入Hadoop,这一步用简单的python脚本写入即可。
Hadoop集群有15个数据节点,每个节点使用普通cpu和3个500G硬盘。
4.4计算
每个电子邮件有一个唯一标示符号queue-id。每个电子邮件有一个唯一的message-id,但恶意客户端会重复发送消息,所以message-id会被伪造。
在Postfix日志,需要用queue-id查找message-id。
第一步,以queue-id为健,进行map,把日志log的每个分配给对应的queue-id,然后,执行reduce过程,根据日志消息数值判断queue-id的发送过程是否完整。
第二步,根据message-id对第一步的结果进行分组,以queue-di和message-id同时为键,以它们对应的日志行作为值,在reuce阶段,判断针对某个message-id的所有queue-id是否合理,验证消息是否离开系统。
5. Cascading
6.用Pig和Wukong探索十亿数据级别的网络图
从Hadoop 说起 六个真实的大数据应用案例相关推荐
- 【bigdata】13个大数据应用案例,告诉你最真实的大数据故事
13个大数据应用案例,告诉你最真实的大数据故事 大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的.大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了. ...
- 大数据应用案例,告诉你最真实的大数据故事
大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的.大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了.然而实际上很多人都对大数据的应用模糊不清.现在就 ...
- Hadoop or TDengine,如何做物联网大数据平台的选型?
Hadoop or TDengine,如何做物联网大数据平台的选型? 1. 大数据时代 大数据时代,大家都在说什么叫大数据,强调的就是一个"大"字,人们期望对海量数据的挖掘和运用能 ...
- 世唐科技:大数据应用案例,告诉你最真实的大数据故事
大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的.大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了.然而实际上很多人都对大数据的应用模糊不清.现在就 ...
- 比Hadoop快至少10倍的物联网大数据平台,我把它开源了
作者 | 陶建辉 转载自爱倒腾的程序员(ID: taosdata) 导读:7月12日,涛思数据的TDengine物联网大数据平台宣布正式开源.涛思数据希望尽最大努力打造开发者社区,维护这个开源的商业模 ...
- Hadoop工具如何形成SAP Hana的大数据平台
自2008年以来,SAP Hana一直是领先的数据库管理系统之一.它比许多其他数据库管理解决方案能够更有效地处理数据,主要是因为它可以使用一些最先进的Hadoop工具.没有Hadoop,大多数SAP ...
- hadoop fs –ls /hbase 无内容_Hadoop大数据实战系列文章之HDFS文件系统
扫码加入千人跳槽求职QQ群,每日都有全国招聘信息哦 Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统,专门 存储超大数据文件,为整个 Hadoop 生态圈提 ...
- hdp对应hadoop的版本_好程序员大数据学习路线分享hadoop的知识总结
大数据学习路线分享hadoop的知识总结,Hadoop的背景:原生公司是apache, cdh的cloudar公司,hortworks公司提供hdp. 其中apache的发行版本大致有1.x ,2.x ...
- 比 Hadoop 快至少 10 倍的物联网大数据平台,我把它开源了
两天前 7 月 12 号,我对外正式宣布 TDengine, 一款专为物联网定制打造的大数据平台软件,正式开源,将我和涛思数据团队两年多的时间写下的 10 多万行 C 语言代码放在 GitHub 上, ...
最新文章
- hdu-4811 Ball
- Java中的Serialization
- linux启动写入了mbr,一、Linux系统启动(MBR)
- Android 自定义车牌键盘
- 做过启动盘的U盘怎么复原?三种方法教你
- mysql数据库对象是什么意思_数据库对象什么意思
- 在腾讯待了 9 年还离了职
- diy服务器个人主机_电脑小白如何自己动手DIY主机?
- 采购人必须明白的八大发展趋势及原则
- 闲聊注册中心——ZK、Eureka、Sofa-Registry
- Genero BDL错误
- S12X微处理器的XGATE协处理器使用指南
- SE,SA和RD都代表什么
- 人人都是钢铁侠,超级盔甲问世
- 「镁客早报」屠呦呦入选“20世纪最伟大人物”;四部门联合治理APP违法收集使用个人信息...
- 基于生态农业的电子商务微信小程序毕业设计(论文)
- 零知识证明笔记The 9th BIU Winter School on Cryptography
- 英语四级作文模板(一)
- 该命令不是内部或外部命令的解决方法
- php模板引擎循环start,smarty模板引擎foreach和section循环操作详解