周海汉:Alexa 深入研究
Alexa 深入研究
作者:周海汉
日期:2007.5.16
Email:ablozhou@gmail.com
blog1:http://blog.csdn.net/ablo_zhou
blog2:http://ablozhou.spaces.live.com
本文是根据自己为公司做的一个研究的PPT的基础上整理。这篇研究如果用于做企业培训,一堂课价值1000美元。这里免费公开,以减少后来者的摸索。
Alexa作为世界网站排名的权威,是网站价值和网站广告价值评估的重要依据。做网站如果不了解Alexa,那很大一部分是在瞎做。尽管Alexa排名并不是完全准确,受到各种质疑,但至今为止,它的地位还是不可动摇。它的网页数据库,超过Google,是世界第一大数据库。由它支撑的著名的wayback服务器,收集了世界大部分有影响网站的历史版本。
http://www.alexa.com
Alexa历史:
n 1996年4月成立于美国
n 分类导航和特定网站统计
n 1997年9月,发布alexa toolbar 1.0
n 1998与Netscape集成,1百万下载
n 1999 和IE集成,成为亚马逊网站的全资子公司
n 2001年, wayback machine 收集网页100 T
n 2002年,和Google合作提升搜索功能, 收集网页 200T
n 2004年,采集世界45亿个页面
n 2005年9月,创建web搜索平台
Alexa 数据
n 世界独立网站总数 1120万个
n 网页数45亿页
n 世界最大网页数据库
Alexa 的功能
n 网站排名(Traffic Rank)
n Reach统计
n PV数统计
n 反向链接(link in)
n 相关网站
n 搜索(不支持中文)
n 注册收录网站
n 工具条记录访问
n
网站排名(Traffic Rank)
世界网站流量排名(2007-4-27)
n Rank Change Web SiteInfo
n 1(none)yahoo.com
n 2(none)msn.com
n 3(none)google.com
n 4 ^1youtube.com
n 5 ^1myspace.com
n 6 ^1live.com
n 7 ! 3baidu.com
n 8(none)orkut.com
n 9(none)qq.com
排名价格:
n 排名只排到十万
n 购买Top 1万,价钱1000$
n 购买Top 2万5千排名,价钱2100$
n 购买Top 5万,价钱4000$
n 购买Top 10万排名的价格6500$
网站排名二次开发
n Web service 方式
n 100 次URL请求价钱 $.25
n http://aws.amazon.com/alexatopsites
流量排名统计原则
n 域名下的单独页面算在该网站流量
n 二级域名算在该网站流量
n 个人网站和blog 的网站不算在网站流量
Reach 用户数统计
n Sina.com.cn 全球Internet用户访问百分比
n Yesterday 1 wk.Avg. 3 mos. Avg. 3 mos. Change
n 3.475% 3.525% 3.387% down 30%
Page View统计:
反向链接:
n Sites link in
n Link数可以作为评判网站受欢迎程度的依据
n 链接网站有Rank值
相关访问链接(Related Links)
n Related Links
n 通过该列表可以查看受众还对哪些网站感兴趣
Alexa如何统计
n 每百万工具条用户访问比例
n 每百万PV中所占比例
n 每独立IP的pageView数
n 排名算法
n Alexa爬虫做什么
每百万工具条访问比例(sina)
每百万PV中所占比例(sina)
每独立IP的pageView数(sina)
n Yesterday 1 wk. Avg. 3 mos. Avg. 10.1 9.9 9.9
Alexa爬虫做什么
n 搜集网站和网页, 放到wayback machine库中
n 不统计Reach和PV
Reach (user数)
黑色为百度,绿色为QQ,蓝色为sina,军绿为163,深红为sohu
Traffic Rank 流量:
黑色为百度,绿色为QQ,蓝色为sina,军绿为163,深红为sohu
Daily Pageviews
黑色为百度,绿色为QQ,蓝色为sina,军绿为163,深红为sohu
大门户网站用户行为分析
黑色为163,绿色为sohu,蓝色为sina,军绿为百度,深红为QQ
以周为单位,可以看出baidu,sina,qq等的受众的不同。2007年4月21日,22日是周末,百度,QQ访问量明显上升。而sina,sohu则明显下降。163比较平稳。这有可能是因为百度的贴吧等受到年轻学生的欢迎,他们一般周末才能上网。QQ也是一样,学生和年轻人为主体的用户群只有周末才能集中上网。而sina,sohu则一般是上班族,在上班时间上网看新闻。而周末一般都休息。163由于游戏,新闻等内容,所以应该受众群两者兼而有之。
Alexa 工具条
n Alexa工具条是访问统计的依据
n Alexa工具条访问的网站会被alexa自动收录
n Alexa工具条跟踪用户行为
n Alexa工具条会被反病毒软件禁止
n Alexa工具条没有中文版
Alexa 工具条讹传
n Alexa工具条只能装IE?
IE,Netscape,firefox,mozilla都可以
n Opera 不可以
n Alexa工具条只可以安装于windows?
n 还支持Linux,Mac
Alexa 工具条被扫毒软件拦截
Alexa 工具条被扫毒软件拦截,所以很多时候都不能正常工作。下面是norton 反病毒的抓图。
工具条内容
n 搜索
n 网站信息
n 排名
n 链接网站
n Email页面
n 查看页面历史
n 弹出窗口拦截
n Amazon
Alexa 局限性
Alexa 统计的局限性:
n 采样方法的问题
n 统计采样数据的问题
n 新媒体形式不能统计
n 不同网站类型可比性差
Alexa 采样方法的问题
n 每百万装有工具条者访问比
n 装工具条的人具有某些相同特质
n (文化水平,兴趣,职业,语言,浏览器,操作系统)
n https安全网站不统计
n 流量小网站不准确,排名十万以后的网站不能真实反映流量
统计采样数据的问题
只以PV和Reach为基准,对于访问者所耗时间,采用RSS等client和视频等新技术网站不公平,不能准确反映一个网站的价值。
n PV
n Reach(IP,User)
n (Time?)
n (Clients?)
n (new technology?)
新媒体形式不能统计
n 视频网站
n P2P网站
n 电子杂志
n 网络游戏
n 相册,图片
n IM
n 长跟贴的论坛
不同网站类型可比性差
这就像拿综合性大学和某些偏文或偏理的大学来一起排名,完全比较其所拥有的资源,并不一定能得出很好的结果。按照教育部前些年的思路,为了建造“世界性的大学”,就要拼命合并。但合并的结果,并不让我们的学术水平得到一个质的提高。综合门户肯定浏览量大,什么都有。但某些频道并不具有某些专业网站和地方网站一样的价值。
n 综合门户和垂直门户
n 门户和专业网站
相关网站
CIIS–中国互联网指数系统
中国站长网
CIIS
由方兴东搞的一个评价系统,据说和国家统计局合作的。
n China Internet Index System,缩写CIIS
n 博客网方兴东
n 互联网实验室
n 国家统计局
n 2006年10月上线
n 从原CISI改编, 2004年
CIIS 的数据
CIIS没有自己的数据采集系统,其排名主要采用Alexa的数据,所以不要奇怪和Alexa一模一样。但它对alexa的数据进行了分类分行业整理,并排名,中国人看起来比较习惯。
n http://ciis.chinalabs.com
n 收录15000多家中文网站
n 4个一级分类
n 43个二级分类
n 数据来源: alexa ,CNNIC等
n 综合排行
n 专业排行
n 文学、门户、汽车企业、电子商务、新闻资讯、IT资讯、财经 、健康
中国站长网
该网站整理了Alexa的数据,中国人看起来比alexa原始数据还好一些。例如,它给出IP和PV绝对值的估算,就很方便中国人使用。而Alexa并不给出这一直接绝对数据。而是只给出百分比。Alexa的肯定更科学,而站长网却更直观。它的翻译有些怪异,例如网站访问比例,就是alexa的reach数,而页面访问比例,就是alexa的PV数,感觉怪怪的。
n 整理alexa数据
n http://alexa.chinaz.com
n IP和PV绝对值估算
n (约3亿总活跃IP和约200亿PV量)
n 网站访问比例:reach
n 页面访问比例:PV
n 人均页面浏览量
周海汉:Alexa 深入研究相关推荐
- 武汉科技大学计算机生命与科学周海,湖北双胞胎周海周洋:为了母亲,一个放弃清华,一人放弃中科院...
"你要相信命运给你一个比常人较低的出发点,是希望你用一生去奋斗出一个柳暗花明的故事".人的命运就是这样,从来没有真正"完美"的样子,奋斗和努力是改变命运的最重要 ...
- MSRA副院长周明博士:四大研究领域揭示自然语言技术的奥秘
来源:AI科技评论 概要:自然语言理解处在认知智能最核心的地位. 比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」,沈向洋博士也说过「懂语言者得天下」.自然语言理解处在认知智能最核心的地位.它的进 ...
- 空天地海一体化网络切片研究综述
[摘 要]全面构建空天地海一体化网络成为6G的重要发展方向,然而,空天地海一体化网络的通信拓扑高动态变化.网络体系结构复杂以及多维资源分布非均衡等特点,给网络切片带来了挑战.介绍了空天地海一体化网络 ...
- 第12周 oj 汉诺塔问题
问题及代码: /*Copyright(c)2016,烟台大学计算机学院 all rights reserved. 作者:曹欣宇 完成日期:2016年11月18日 题目描述 汉诺塔(又称河内塔)问题是印 ...
- 各大网站使用web server抽样统计分析
周海汉 2010.9.25 http://abloz.com 本文对中国网站所使用的web服务器软件进行抽样调查.以得出当前apache,Microsoft iis, nginx和其他web服务器的市 ...
- Linux中shell编程的for循环用法
关于shell中的for循环用法很多,一直想总结一下,今天网上看到上一篇关于for循环用法的总结,感觉很全面,所以就转过来研究研究... 1. for((i=1;i<=10;i++));do e ...
- 关于vim的详细配置
超级强大的vim配置(vimplus) 2017年03月14日 22:59:09 擒贼先擒王 阅读数:25153 From : http://www.cnblogs.com/highway-9/p/5 ...
- wxpython 如何在windows下同时显示unicode中日韩文
周海汉 /文 2010.1.6 python版本,python 2.6+,wxpython 2.8+ 问题提出 遇到wxpython 如何在windows下同时显示中文日文韩文越南拼音的问题. win ...
- python编程语法大全-python语法汇总
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. splitstriplen()for variable in range ...
最新文章
- git上的分支命名规范
- Delphi判断文件是否正在被使用
- fou循环 php 剩余次数_php for 循环语句使用方法详细说明
- 判断手机浏览器还是桌面浏览器
- IAR需要注意的地方
- POJ 1228 —— “稳定”凸包
- RK瑞芯微WIFI模组2020最新支持列表,放心使用!
- Ambari系统架构
- python正则表达式代码_python正则表达式的使用(实验代码)
- Kali Linux 无线渗透测试入门指南 第三章 绕过 WLAN 身份验证
- (转)在Symbian上启动浏览器
- hadoop集群虚拟机配置
- linux php gmagick,Linux下编译安装GraphicsMagick及PHP扩展gmagick
- jquery 获取指定元素
- 人事、财务常用EXCEL基础函数应用示例总结
- 弥合银行业的数字鸿沟
- python捕捉kdj交易信号_KDJ指标详解:教你两种方式判断交易信号!
- LaTeX小白必备技能--用.bib文件自动生成参考文献
- 如何避免淘宝拼多多比价订单?教你应对
- BlenderGIS插件 城市建筑3D模型自动生成 教程