[Hadoop in China 2011] 人人网:基于Hadoop的SNS统计和聚类推荐
http://storage.it168.com/a2011/1203/1283/000001283190.shtml
据人人网的工程师介绍,人人网现在一共2.2亿用户,平均每个用户有大约190个好友,月均40亿的照片访问量。尽管相比于中国最大的即时通讯公司 腾讯,其用户量还有一定差距,但人人网却具有举足轻重的优势。例如有一成的付费用户,平均每天有五成用户使用人人网,并且八成用户在人人网留下了真实资 料。
人人网高级技术经理白伯纯
人人网的白伯纯工程师认为,现在的互联网已经发展到了web 2.0时代,其与web 1.0相比,最大不同在于,每个用户都具有唯一标识,而这将给人人网带来巨大的机遇。用户每天都在产生内容,如果能够对其内容进行分析处理,并推送相应的 内容给他,那么就能对用户产生黏性。
上图显示的是人人网结构化数据产生的拓扑图,其中的每个点代表一个用户,用户与用户之间通过内容联系起来。
用户产生的内容会通过用户的转发而维系起来,而在这些用户中,通常有一些用户的内容会受到其他大量用户的肯定。而人人网要做的就是通过对内容的分析计算,找出这个“意见领袖”。上图中所示的红点即为“意见领袖”。
不同群体的用户可以通过内容维系起来。
最后,人人网的工程师给我们分析了人人网统计平台和聚类推荐的架构图,这跟我们介绍了Facebook公司的实时海量数据处理平台有共通之处。据透露,人人网的这个平台一共有200台服务器,采用的是Hadoop 0.21.0版本,每天大概要处理4000以上的任务,经常使用的数据量为700TB,其总共的数据量约为1.2PB,其中涉及的工具包括Hive、HBase以及Streaming。在另外的一个30台服务器组成的集群中,采用的是Hadoop 0.20.3版本,在这个集群中,只使用了HBase。
人人网整个统计平台的体系架构如上图所示。因为各个部门工程师对于各种技术的熟练程度不一,所以形成了以BI、Hive和M/R三种统计图形的统计效果,而人人网的各个子平台也呈现出以一种离散状态,但这些都通过Hadoop这个平台又集中地整合到一起。
转载于:https://www.cnblogs.com/licheng/archive/2011/12/05/2276400.html
[Hadoop in China 2011] 人人网:基于Hadoop的SNS统计和聚类推荐相关推荐
- [Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析
何鹏是即刻搜索研发部系统平台组的工程师,即刻搜索是人民网其下的搜索引擎,由人民搜索转变而来,于今年6月20日正式上线.据何鹏介绍,即刻搜索 目前存放了200亿个文件以上,其整个系统架构采用Hadoop ...
- [Hadoop in China 2011] HBase在淘宝平台上的应用和改进经验
http://tech.it168.com/a2011/1202/1283/000001283152.shtml 在今天下午进行的NoSQL系统及应用分论坛中,来自淘宝的软件工程师张毅发表主题演讲&q ...
- [Hadoop in China 2011] 邵铮:揭秘FaceBook Puma演变及发展
http://storage.it168.com/a2011/1202/1283/000001283144.shtml ▲FaceBook公司软件工程师.研发经理邵铮 FaceBook公司自成立以来发 ...
- [Hadoop in China 2011] 华为 - NoSQL/NewSQL在传统IT产业的机遇和挑战
http://tech.it168.com/a2011/1204/1283/000001283212.shtml 在今天下午进行的NoSQL系统及应用分论坛中,来自华为的IT产品线企业数据解决方案架构 ...
- [Hadoop in China 2011] Facebook Message在HBase基础上的应用
http://tech.it168.com/a2011/1203/1283/000001283206.shtml 在今天下午进行的NoSQL系统及应用分论坛中,来自Facebook的技术经理Guoqi ...
- [Hadoop in China 2011] 中兴:NoSQL应用现状及电信业务实践
http://tech.it168.com/a2011/1203/1283/000001283154.shtml 在今天下午进行的NoSQL系统及应用分论坛中,中兴云计算平台研发总工.中兴通讯技术专家 ...
- [Hadoop in China 2011] 淘宝OceanBase打造结构化NoSQL数据库
http://tech.it168.com/a2011/1204/1283/000001283214.shtml 在今天下午进行的NoSQL系统及应用分论坛中,来自淘宝的核心系统存储组技术专家杨传辉( ...
- 基于hadoop构建对象存储系统_基于Hadoop企业私有云存储平台的构建
量数据存储.数据规模易扩展性的要求. 关键词: 企业级用户:私有云:云存储: Hadoop :云计算:海量数据: HBase :元数据 中图分类号: TP 391 文献标志码: A Establish ...
- 2016年北京hadoop in china见闻
一. 概况 笔者有幸参加了今年在北京主办的hadoop in china,在与会中有不少的感受与大家分享.今年的hadoop in china整体来看,参加会议的人比较多,在第一天上午场的topic里 ...
最新文章
- hadoop重命名文件_面试系列:深入理解hadoop架构体系
- protocol_buffers简易操作
- css鼠标经过table文字变色,有没有可能用css实现当table被鼠标hover的时候,table列变色?...
- lisp的vla函数画矩形_利用Lisp做Tin三角网建模(源代码)
- Arduino语言介绍
- 大数据_Flink_数据处理_运行时架构2_作业提交流程_抽象架构---Flink工作笔记0017
- python画超长图-利用Python画图,千变万化,各种画图技巧!
- 【VScode】使用VScode来写markdown ② 流程图
- 人月神话阅读笔记(2)
- python取整数部分语句_pythonlogi中不使用条件语句的整数取整
- 网页端启动服务器控制台程序,在ASP.Net(C#)中调用服务器端的控制台应用程序
- CISCO Nexus 系列交换机配置命令
- 文献阅读--Scaling Laws for Neural Lauguage Models
- 冯诺依曼计算机的英文简称,冯诺依曼计算机,von neumann machine,音标,读音,翻译,英文例句,英语词典...
- 支付宝接口 设置支付宝订单的超时时间为15分钟
- vue判断有没有滚动条
- Yuga Labs「高处不胜寒」
- CSS开发中所有基本属性的使用技巧
- 最简明扼要的 Systemd 教程,只需十分钟
- mysql 高并发的解决方案