Alexa 深入研究

作者:周海汉

日期:2007.5.16

Email:ablozhou@gmail.com

blog1:http://blog.csdn.net/ablo_zhou

blog2:http://ablozhou.spaces.live.com

本文是根据自己为公司做的一个研究的PPT的基础上整理。这篇研究如果用于做企业培训,一堂课价值1000美元。这里免费公开,以减少后来者的摸索。

Alexa作为世界网站排名的权威,是网站价值和网站广告价值评估的重要依据。做网站如果不了解Alexa,那很大一部分是在瞎做。尽管Alexa排名并不是完全准确,受到各种质疑,但至今为止,它的地位还是不可动摇。它的网页数据库,超过Google,是世界第一大数据库。由它支撑的著名的wayback服务器,收集了世界大部分有影响网站的历史版本。

http://www.alexa.com

Alexa历史:

n       1996年4月成立于美国

n       分类导航和特定网站统计

n       1997年9月,发布alexa toolbar 1.0

n       1998与Netscape集成,1百万下载

n       1999 和IE集成,成为亚马逊网站的全资子公司

n       2001年, wayback machine 收集网页100 T

n       2002年,和Google合作提升搜索功能, 收集网页 200T

n       2004年,采集世界45亿个页面

n       2005年9月,创建web搜索平台

Alexa 数据

n       世界独立网站总数 1120万个

n       网页数45亿页

n       世界最大网页数据库

Alexa 的功能

n       网站排名(Traffic Rank)

n       Reach统计

n       PV数统计

n       反向链接(link in)

n       相关网站

n       搜索(不支持中文)

n       注册收录网站

n       工具条记录访问

n

网站排名(Traffic Rank)

世界网站流量排名(2007-4-27)

n       Rank Change Web SiteInfo

n       1(none)yahoo.com

n       2(none)msn.com

n       3(none)google.com

n       4  ^1youtube.com

n       5  ^1myspace.com

n       6  ^1live.com

n       7  ! 3baidu.com

n       8(none)orkut.com

n       9(none)qq.com

排名价格:

n       排名只排到十万

n       购买Top 1万,价钱1000$

n       购买Top 2万5千排名,价钱2100$

n       购买Top 5万,价钱4000$

n       购买Top 10万排名的价格6500$

网站排名二次开发

n       Web service 方式

n       100 次URL请求价钱 $.25

n       http://aws.amazon.com/alexatopsites

流量排名统计原则

n       域名下的单独页面算在该网站流量

n       二级域名算在该网站流量

n       个人网站和blog 的网站不算在网站流量

Reach 用户数统计

n       Sina.com.cn 全球Internet用户访问百分比

n       Yesterday 1 wk.Avg. 3 mos. Avg. 3 mos. Change

n       3.475% 3.525% 3.387%  down 30%

Page View统计:

反向链接:

n       Sites link in

n       Link数可以作为评判网站受欢迎程度的依据

n       链接网站有Rank值

相关访问链接(Related Links)

n       Related Links

n       通过该列表可以查看受众还对哪些网站感兴趣

Alexa如何统计

n       每百万工具条用户访问比例

n       每百万PV中所占比例

n       每独立IP的pageView数

n       排名算法

n       Alexa爬虫做什么

每百万工具条访问比例(sina)

每百万PV中所占比例(sina)

每独立IP的pageView数(sina)

n       Yesterday  1 wk. Avg.  3 mos. Avg. 10.1            9.9                   9.9

Alexa爬虫做什么

n       搜集网站和网页, 放到wayback machine库中

n       不统计Reach和PV

Reach     (user数)

黑色为百度,绿色为QQ,蓝色为sina,军绿为163,深红为sohu

Traffic Rank 流量:

黑色为百度,绿色为QQ,蓝色为sina,军绿为163,深红为sohu

Daily Pageviews

黑色为百度,绿色为QQ,蓝色为sina,军绿为163,深红为sohu

大门户网站用户行为分析

黑色为163,绿色为sohu,蓝色为sina,军绿为百度,深红为QQ

以周为单位,可以看出baidu,sina,qq等的受众的不同。2007年4月21日,22日是周末,百度,QQ访问量明显上升。而sina,sohu则明显下降。163比较平稳。这有可能是因为百度的贴吧等受到年轻学生的欢迎,他们一般周末才能上网。QQ也是一样,学生和年轻人为主体的用户群只有周末才能集中上网。而sina,sohu则一般是上班族,在上班时间上网看新闻。而周末一般都休息。163由于游戏,新闻等内容,所以应该受众群两者兼而有之。

Alexa 工具条

n       Alexa工具条是访问统计的依据

n       Alexa工具条访问的网站会被alexa自动收录

n       Alexa工具条跟踪用户行为

n       Alexa工具条会被反病毒软件禁止

n       Alexa工具条没有中文版

Alexa 工具条讹传

n       Alexa工具条只能装IE?

IE,Netscape,firefox,mozilla都可以

n       Opera 不可以

n       Alexa工具条只可以安装于windows?

n       还支持Linux,Mac

Alexa 工具条被扫毒软件拦截

Alexa 工具条被扫毒软件拦截,所以很多时候都不能正常工作。下面是norton 反病毒的抓图。

工具条内容

n       搜索

n       网站信息

n       排名

n       链接网站

n       Email页面

n       查看页面历史

n       弹出窗口拦截

n       Amazon

Alexa 局限性

Alexa 统计的局限性:

n       采样方法的问题

n       统计采样数据的问题

n       新媒体形式不能统计

n       不同网站类型可比性差

Alexa 采样方法的问题

n       每百万装有工具条者访问比

n       装工具条的人具有某些相同特质

n       (文化水平,兴趣,职业,语言,浏览器,操作系统)

n       https安全网站不统计

n       流量小网站不准确,排名十万以后的网站不能真实反映流量

统计采样数据的问题

只以PV和Reach为基准,对于访问者所耗时间,采用RSS等client和视频等新技术网站不公平,不能准确反映一个网站的价值。

n       PV

n       Reach(IP,User)

n       (Time?)

n       (Clients?)

n       (new technology?)

新媒体形式不能统计

n       视频网站

n       P2P网站

n       电子杂志

n       网络游戏

n       相册,图片

n       IM

n       长跟贴的论坛

不同网站类型可比性差

这就像拿综合性大学和某些偏文或偏理的大学来一起排名,完全比较其所拥有的资源,并不一定能得出很好的结果。按照教育部前些年的思路,为了建造“世界性的大学”,就要拼命合并。但合并的结果,并不让我们的学术水平得到一个质的提高。综合门户肯定浏览量大,什么都有。但某些频道并不具有某些专业网站和地方网站一样的价值。

n       综合门户和垂直门户

n       门户和专业网站

相关网站

CIIS–中国互联网指数系统

中国站长网

CIIS

由方兴东搞的一个评价系统,据说和国家统计局合作的。

n       China Internet Index System,缩写CIIS

n       博客网方兴东

n       互联网实验室

n       国家统计局

n       2006年10月上线

n       从原CISI改编, 2004年

CIIS 的数据

CIIS没有自己的数据采集系统,其排名主要采用Alexa的数据,所以不要奇怪和Alexa一模一样。但它对alexa的数据进行了分类分行业整理,并排名,中国人看起来比较习惯。

n       http://ciis.chinalabs.com

n       收录15000多家中文网站

n       4个一级分类

n       43个二级分类

n       数据来源: alexa ,CNNIC等

n       综合排行

n       专业排行

n       文学、门户、汽车企业、电子商务、新闻资讯、IT资讯、财经 、健康

中国站长网

该网站整理了Alexa的数据,中国人看起来比alexa原始数据还好一些。例如,它给出IP和PV绝对值的估算,就很方便中国人使用。而Alexa并不给出这一直接绝对数据。而是只给出百分比。Alexa的肯定更科学,而站长网却更直观。它的翻译有些怪异,例如网站访问比例,就是alexa的reach数,而页面访问比例,就是alexa的PV数,感觉怪怪的。

n       整理alexa数据

n       http://alexa.chinaz.com

n       IP和PV绝对值估算

n       (约3亿总活跃IP和约200亿PV量)

n       网站访问比例:reach

n       页面访问比例:PV

n       人均页面浏览量

周海汉:Alexa 深入研究相关推荐

  1. 武汉科技大学计算机生命与科学周海,湖北双胞胎周海周洋:为了母亲,一个放弃清华,一人放弃中科院...

    "你要相信命运给你一个比常人较低的出发点,是希望你用一生去奋斗出一个柳暗花明的故事".人的命运就是这样,从来没有真正"完美"的样子,奋斗和努力是改变命运的最重要 ...

  2. MSRA副院长周明博士:四大研究领域揭示自然语言技术的奥秘

    来源:AI科技评论 概要:自然语言理解处在认知智能最核心的地位. 比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」,沈向洋博士也说过「懂语言者得天下」.自然语言理解处在认知智能最核心的地位.它的进 ...

  3. 空天地海一体化网络切片研究综述

    [摘  要]全面构建空天地海一体化网络成为6G的重要发展方向,然而,空天地海一体化网络的通信拓扑高动态变化.网络体系结构复杂以及多维资源分布非均衡等特点,给网络切片带来了挑战.介绍了空天地海一体化网络 ...

  4. 第12周 oj 汉诺塔问题

    问题及代码: /*Copyright(c)2016,烟台大学计算机学院 all rights reserved. 作者:曹欣宇 完成日期:2016年11月18日 题目描述 汉诺塔(又称河内塔)问题是印 ...

  5. 各大网站使用web server抽样统计分析

    周海汉 2010.9.25 http://abloz.com 本文对中国网站所使用的web服务器软件进行抽样调查.以得出当前apache,Microsoft iis, nginx和其他web服务器的市 ...

  6. Linux中shell编程的for循环用法

    关于shell中的for循环用法很多,一直想总结一下,今天网上看到上一篇关于for循环用法的总结,感觉很全面,所以就转过来研究研究... 1. for((i=1;i<=10;i++));do e ...

  7. 关于vim的详细配置

    超级强大的vim配置(vimplus) 2017年03月14日 22:59:09 擒贼先擒王 阅读数:25153 From : http://www.cnblogs.com/highway-9/p/5 ...

  8. wxpython 如何在windows下同时显示unicode中日韩文

    周海汉 /文 2010.1.6 python版本,python 2.6+,wxpython 2.8+ 问题提出 遇到wxpython 如何在windows下同时显示中文日文韩文越南拼音的问题. win ...

  9. python编程语法大全-python语法汇总

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. splitstriplen()for variable in range ...

最新文章

  1. git上的分支命名规范
  2. Delphi判断文件是否正在被使用
  3. fou循环 php 剩余次数_php for 循环语句使用方法详细说明
  4. 判断手机浏览器还是桌面浏览器
  5. IAR需要注意的地方
  6. POJ 1228 —— “稳定”凸包
  7. RK瑞芯微WIFI模组2020最新支持列表,放心使用!
  8. Ambari系统架构
  9. python正则表达式代码_python正则表达式的使用(实验代码)
  10. Kali Linux 无线渗透测试入门指南 第三章 绕过 WLAN 身份验证
  11. (转)在Symbian上启动浏览器
  12. hadoop集群虚拟机配置
  13. linux php gmagick,Linux下编译安装GraphicsMagick及PHP扩展gmagick
  14. jquery 获取指定元素
  15. 人事、财务常用EXCEL基础函数应用示例总结
  16. 弥合银行业的数字鸿沟
  17. python捕捉kdj交易信号_KDJ指标详解:教你两种方式判断交易信号!
  18. LaTeX小白必备技能--用.bib文件自动生成参考文献
  19. 如何避免淘宝拼多多比价订单?教你应对
  20. BlenderGIS插件 城市建筑3D模型自动生成 教程

热门文章

  1. struts2 lebel标签失效问题
  2. css-doodle学习教程
  3. 文本超出显示省略号的方法
  4. 组氨酸标签序列选择_6 his tag 序列
  5. win7x86安装驱动提示 0x241 577无法验证此设备所需的驱动程序的数字签名
  6. 概念整理ia32/x86/amd64/ia64/arm64
  7. 【溢出隐藏】溢出隐藏
  8. 上班族程序员必备的学习网站大全
  9. c# windowservice服务安装注意细节
  10. Spring开篇介绍-如果没有Spring如何对外暴露一个接口