AWStats: 跨平台的日志分析工具
    ——在GNU/Linux和Windows平台上的使用简介

作者: 车东 Email: chedongATbigfoot.com/chedongATchedong.com

写于:2003/04 最后更新: <script language=JavaScript>document.write(document.lastModified)</script> 04/19/2003 11:42:54

版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
http://www.chedong.com/tech/awstats.html

关键词:awstats web log analysis apache iis 日志 分析 open source

内容摘要:AWStats的使用简介和配置一些改进说明。

日志统计系统在站点的用户行为分析中扮演了重要的角色,尤其是对于来自搜索引擎的关键词访问统计:是很有效的用户行为分析数据来源。随着互联网多年的发展,WEB日志统计工具已经越来越成熟,功能也越来越丰富。其中有很多是开放源代码的,AWStats就是其中非常优秀的一款。

AWStats: Advanced Web Statistics

AWStats是最近发展很快的一个基于Perl的WEB日志分析工具。相对于另外一个非常优秀的开放源代码的日志分析工具Webalizer,AWStats的优势在于:

  1. 界面友好:可以根据浏览器直接调用相应语言界面(有简体中文版)
    参考输出样例:http://awstats.sourceforge.net/cgi-bin/awstats.pl
  2. 基于Perl:并且很好的解决了跨平台问题,系统本身可以运行在GNU/Linux上或Windows上(安装了ActivePerl后);分析的日志直接支持Apache格式(combined)和IIS格式(需要修改)。Webalizer虽然也有Windows平台版,但目前已经缺乏维护;
    AWStats完全可以实现用一套系统完成对自身站点不同服务器:GNU/Linux/Apache和Windows/IIS服务器的统一统计。
  3. 效率比较高:AWStats输出统计项目比Webalizer丰富了很多,速度仍可以达到Webalizer的1/3左右,对于一个日访问量百万级的站点,这个速度都是足够的;
  4. 配置/定制方便:系统提供了足够灵活但缺省也很合理的配置规则,需要修改的缺省配置不超过3,4项就可以开始运行,而且修改和扩展的插件还是比较多的;
  5. AWStats的设计者是面向精确的"Human visits"设计的,因此很多搜索引擎的机器人访问都被过滤掉了,因此有可能比其他日志统计工具统计的数字要低,来自公司内部的访问也可以通过IP过滤设置过滤掉。
  6. 提供了很多扩展的参数统计功能:使用ExtraXXXX系列配置生成针对具体应用的参数分析会对产品分析非常有用。

更多与其他工具:Webalizer, analog的比较请参考:
http://awstats.sourceforge.net/#COMPARISON

AWStats安装备忘

AWStats的运行模式是这样的:

  1. 分析日志:运行后将这样的日志统计结果归档到一个AWStats的数据库(纯文本)里;
  2. 然后是输出:分两种形式
    1. 一种是通过cgi程序读取统计结果数据库输出;
    2. 一种是运行后台脚本将输出导出成静态文件;

以下是2个针对单个站点日志统计例子:
一个是在GNU/Linux上通过CGI方式的输出,
一个是在Windows 2000上的基于静态页面的导出

下载/安装

http://sourceforge.net/projects/awstats/ 下载安装包后:

GNU/Linux:tar zxf awstats-5.4.tgz
#部署awstats cgi程序到/path/to/apache/cgi-bin/awstats
mv awstats-5.4/wwwroot/cgi-bin /path/to/apache/cgi-bin/awstats
#把图标icon目录复制到WEB发布目录下:/path/to/apache/htdocs/icon/

Windows 2000: 直接解包,然后移动到D:/AWStats目录下
把图标icon目录复制到IIS的发布目录下:inetpub/icon

数据源日志格式和按天的截断规则

  1. 对于Apache:日志格式好设置:设置成combined格式即可,日志截断麻烦一点:需要安装cronolog工具,将日志设置成按天截断:
    CustomLog "|/usr/local/sbin/cronolog /path/to/apache/logs/access_%y%m%d.log" combined
    比如:logs/access_030327.log logs/access_030326.log
  2. 对于IIS:缺省有比较好的日志按天截断规则,但是IIS的日志格式比较不适合AWStats统计,
    因此最好直接去掉所有日志字段,然后严格按照以下列表设置

    • 日期 date
    • 时间 time
    • 客户IP地址 c-ip
    • 用户名 cs-username
    • 方法 cs-method
    • URI资源 cs-uri-stem
    • 协议状态 sc-status
    • 发送字节数 sc-bytes
    • 协议版本 cs-version
    • 用户代理 cs(User-Agent)
    • 参照 cs(Referer)

    相比IIS缺省设置:

    减少的有:

    • 服务器IP地址
    • 服务器端口
    • URI查询

    增加的有:

    • 发送字节数
    • 协议版本
    • 参照

配置文件的命名规则:awstats.sitename.conf

AWStats的主程序awstats.pl会自动根据站点名调用相应站点的配置文件:awstats.sitename.conf
比如:运行./awstats.pl -config=chedong 调用的就是同目录下的 awstats.chedong.conf 配置文件;
如果没有指定-config,还会找当前目录下的awstats.conf或者/etc/awstats.conf作为缺省配置文件。
所以最好把缺省的awstats.model.conf 重命名成 awstats.yoursite.conf;比如:awstats.chedong.conf,

对于多个站点的统计,AWStats的配置文件包含功能还是非常有用的,我们可以把通用的配置放在一个文档中,然后用5.4开始支持的Include配置将通用配置包含在各个具体配置文件的头部,然后用其他配置覆盖通用配置中的相应属性,比如:
Include="chedong.common.conf"
LogFile="/path/to/bbs/access_log"
SiteName="bbs.chedong.com"

最少的配置文件修改:LogFile SiteDomain LogFormat

对于在GNU/Linux上统计Apache日志只需修改:LogFile SiteDomain这2个选项

  1. GNU/Linux LogFile="/path/to/apache/logs/access_%YY-24%MM-24%DD-24.log"
    Windows 2000 LogFile="d:/iis_logs/W3SV3/ex%YY-24%MM-24%DD-24.log"
    这个配置的意思是用24小时前的年份,月份,日期拼出的日志文件名;
  2. SiteDomain="www.chedong.com"
    站点的名称,缺省是空的,如果为空,AWStats将拒绝运行;
  3. 对于统计IIS日志需要多修改一个:
    LogFormat=2
    缺省值是1:Apache日志,2是IIS日志

其他需要注意的事项:
AWStats缺省不过滤swf文件,会把.swf算成PageView,所以如果站点上swf文件主要是广告的话最好还是要过滤掉:

日志分析

./awstats.pl -update -config=sitename
比如:./awstats.pl -update -config=chedong

统计输出

GNU/Linux    http://localhost/cgi-bin/awstats/awstats.pl?config=chedong
Windows 2000 http://localhost/awstats/awstats.chedong.html

日志统计自动运行

GNU/Linux上:crontab -e: 每天8点10分运行
#update awstats
10 8 * * * (cd /path/to/apache/cgi-bin/awstats/; ./awstats.pl -update -config=chedong)

Windows 2000上:设置每天8点10分运行
D:/Perl/bin/perl.exe d:/AWStats/tools/awstats_buildstaticpages.pl -update -config=chedong -lang=cn -dir=c:/inetpub/awstats/ -awstatsprog=d:/awstats/wwwroot/cgi-bin/awstats.pl

多站点日志统计

AWStats自带了一个批处理工具:tools/awstats_updateall.pl,可以批量地遍历一个目录下所有地配置文件并运行统计。因此剩下的工作就主要是日志的同步问题了。

针对多个站点,很多配置选项是重复的,如果每个配置文件都修改维护起来会很麻烦,AWStats从5.4开始提供了配置文件包含的功能,所以我们可以配置一个通用配置,比如:chedong.common.conf

然后其他站点的配置设置为:可以通过后面的选项覆盖和缺省不一致的配置。
awstats.bbs.chedong.conf
Include "chedong.common.conf"
LogFile "/path/to/bbs_log"
SiteName "bbs.chedong.com"

awstats.www.chedong.conf
Include "chedong.common.conf"
LogFile "/path/to/www_log"
SiteName "www.chedong.com"
HostAliases="chedong.com"

统计指标说明

  • 参观者:按来访者不重复的IP统计,一个IP代表一个参观者;
  • 参观次数:一个参观者可能1天之内参观多次(比如:上午一次,下午一次),所以按一定时间内(比如:1个小时),不重复的IP数统计,参观者的访问次数;
  • 网页数:不包括图片,CSS, JavaScript文件等的纯页面访问总数,但如果一个页面使用了多个帧,每个帧都算一个页面请求;
  • 文件数:来自浏览器客户端的文件请求总数,包括图片,CSS,JavaScript等,用户请求一个页面是,如果页面中包含图片等,所以对服务器会发出多次文件请求,文件数一般远远大于文件数;
  • 字节:传给客户端的数据总流量;
  • 来自REFERER中的数据:日志中的参考(REFERER)字段,记录了访问相应网页之前地址,因此如果用户是通过搜索引擎的搜索结果点击进入网站的,日志中就会有用户在相应搜索引擎的查询地址,这个地址中就可以通过解析将用户查询使用的关键词提取出来:
    比如:
    2003-03-26 15:43:58 123.123.123.123 - GET /index.html 200 192 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+5.01;+Windows+NT+5.0) http://www.google.com/search?q=chedong
    AWStats在搜索引擎的关键短语和关键词统计方面的功能还是比较完整的:可以对全世界3百多种机器爬虫进行识别,并且可以识别大部分主流国际化搜索引擎和很多地区的本地语言搜索引擎。

Hacking AWStats

IIS按GMT时间的补丁:awstats.pl
IIS的日志时间是格林威治之间,中国本地时间和GMT有+8个小时差距,如果直接用TIMEZONE插件从格林威治时间转换会有40%的性能下降,这里有一个将时间按本地时间修改时间坐标的补丁:
7696d7695
<                       my $TIME_ZONE = 8;
7698,7702c7697
<                           my $ix_local = $ix + $TIME_ZONE;
<                           if ($ix_local >= 24) {
<                               $ix_local = $ix_local - 24;
<                         } 
<                         print "<TH width=19>$ix_local</TH>/n";        # width=19 instead of 18 to avoid a MacOS browser bug.
---
>                         print "<TH width=19>$ix</TH>/n";      # width=19 instead of 18 to avoid a MacOS browser bug.
7708,7712c7703
<                               my $ix_local = $ix + $TIME_ZONE;
<                               if ($ix_local >= 24) {
<                                       $ix_local = $ix_local - 24;
<                               }
<                               my $hr= $ix_local + 1 ; if ($hr>12) { $hr=$hr-12; }
---
>                               my $hr=($ix+1); if ($hr>12) { $hr=$hr-12; }

针对中文搜索引擎的补丁:
AWStats的搜索引擎中缺省没有中文搜索引擎的定义,因此会漏掉很多来自国内主流搜速引擎的统计:3721,搜狐,新浪,百度,网易等,以下是针对这些的补丁:cgi-bin/lib/search_engine.pm
58a59,60
> # Minor Chinese search engines
> "baidu/.", "163/.com", "sohu/.","sina/.","3721/.com",
140a143,148
> # Minor Chinese search engines
> "baidu/.","word=",
> "sina/.", "word=",
> "sohu/.","word=",
> "163/.com","q=",
> "3721/.com","name=",
228a237,238
> # Minor Chinese search engines
> "baidu/.","Baidu", "163/.com","NetEase","sina/.","Sina","sohu/.","Sohu","3721/.com","3721",

针对Google的Unicode查询补丁:
因为Google对于Windows 2000上的IE浏览器缺省发送的查询都是UTF-8格式的,而其他搜索引擎大部分使用的是系统本地编码:GB2312,因此需要将查询URI解码后,还要根据是否使用UTF-8进行到GB2312的转码,否则同样的单词会在统计中留有UTF-8和GB2312两条记录。
15,16c15,16
< use Encode;
< use URI::Escape;
---
>
>
5692,5694d5691
<                                         #UTF-8 encoding detection
<                                         my $UnicodeDetected = 0;
<                                         my $SearchQuery = "";
5696,5701d5692
<                                             # Google use: ie=utf-8
<                                             # AllTheWeb use: cs=utf-8
<                                                                                 if ($param eq "ie=utf-8" || $param eq "cs=utf-8") {
<                                                                                     $UnicodeDetected = 1;
<                                                                                 }
<                                                                                
5704d5694
<                                             $param = uri_unescape($param);
5708,5712c5698,5700
<                                             $param =~ s/^ +//;
<                                             $param =~ s/ +$//;
<                                             $param =~ tr/ //+/s;
<                                             $param =~ s//+/ /s;
<                                                             $SearchQuery = $param;                                           
---
>                                             $param =~ s/^ +//; $param =~ s/ +$//; $param =~ tr/ //+/s;
>                                             if ((length $param) > 0) { $_keyphrases{$param}++; }
>                                             last;
5714,5719d5701
<                                        
<                                     }
<                                     #decoding unicode to GBK
<                                     if ( $UnicodeDetected ) {
<                                         $SearchQuery = decode("utf-8", $SearchQuery);
<                                         $SearchQuery = encode("euc-cn", $SearchQuery);
5721,5722d5702
<                                     print "$SearchQuery/n";   
<                                     if ((length $SearchQuery) > 0) { $_keyphrases{$SearchQuery}++; }

AWStats本身也包含了很多插件,包括将多个站点的统计再次汇总输出,IIS日志时间转换,URL的标题映射等;
http://awstats.sourceforge.net/awstats_contrib.html

参考资料:

AWStats:
http://awstats.sourceforge.net/

Webalizer:
http://www.webalizer.org/

日志分析工具:
http://directory.google.com/Top/Computers/Software/Internet/Site_Management/Log_Analysis/

商业日志统计/分析工具
http://directory.google.com/Top/Computers/Software/Internet/Site_Management/Log_Analysis/Commercial/

多站点的日志合并统计:
http://www.chedong.com/tech/rotate_merge_log.html

原文出处:<a href="http://www.chedong.com/tech/awstats.html">http://www.chedong.com/tech/awstats.html</a>
<<返回

AWStats: 跨平台的日志分析工具使用简介相关推荐

  1. Linux下常用日志分析工具

    Linux下常用日志分析工具 Logcheck简介 对于拥有大量账户.系统繁忙的Linux系统而言,其日志文件是极其庞大的,很多没有用的信息会将值得注意的信息淹没,给用户分析日志带来了很大的不便.现在 ...

  2. AWStats简介:Apache/Windows IIS的日志分析工具的下载,安装,配置样例和使用

    http://www.chedong.com/tech/awstats.html 你完全不必耐心看完所有内容:简要安装说明如下 安装 http://sourceforge.net/projects/a ...

  3. AWStats简介:Apache/Windows IIS的日志分析工具的下载,安装,配置样例和使用(含6.9中文定义补丁)...

    你完全不必耐心看完所有内容:简要安装说明如下 安装 http://sourceforge.net/projects/awstats/ 下载安装包后: GNU/Linux:tar zxf awstats ...

  4. AWStats简介:Apache/Windows IIS的日志分析工具的下载,安装,配置样例和使用(含6.9中文定义补丁)

    你完全不必耐心看完所有内容:简要安装说明如下 安装 http://sourceforge.net/projects/awstats/ 下载安装包后: GNU/Linux:tar zxf awstats ...

  5. Linux 日志分析工具之awstats详解

    一.前言 二.awstats 简介 三.awstats 特点 四.awstats 运行原理 五.awstats 安装与配置详解 六.awstats 执行日志分析 七.awstats 进行多站点日志分析 ...

  6. awstats linux日志分析,Linux 日志分析工具之AWStats详解

    一.前言 二.awstats 简介 三.awstats 特点 四.awstats 运行原理 五.awstats 安装与配置详解 六.awstats 执行日志分析 七.awstats 进行多站点日志分析 ...

  7. tomcat日志分析工具awstats配置

    Awstats是一个免费非常简洁而且强大有个性的统计工具. 配置环境:windows xp.tomcat 6.0.26.Awstats 6.95.ActivePerl-5.12.2.1202 一.下载 ...

  8. web 日志分析工具 awstats 简单安装

    awstats安装使用 awstats是一个开源的日志分析工具,用perl编写.感觉还不错,把安装记录写下,也许有人用的到. 可以分析大部分标准日志数据,如apache的,nginx的都可以 首先下载 ...

  9. 日志分析工具Awstats实战之Apache篇-多站点日志分析

    前面两篇都在讲述如何去部署nginx下的awstats日志分析工具,现在终于轮到apache.作为老牌的网页服务器,awstats对apache的支持非常完美,所以整个配置过程也是十分简单.因此,在这 ...

最新文章

  1. LinkedList 的作者说他自己都不用 LinkedList?
  2. linux学习:文件属性(一)—— inode
  3. SDL2源码分析6:拷贝到渲染器(SDL_RenderCopy())
  4. 【机器学习】基于LDA主题模型的人脸识别专利分析
  5. 校省选赛第一场A题Cinema题解
  6. [IE 技巧] 显示/隐藏IE 的菜单/工具栏
  7. x64版本的OpenGL库配置
  8. c语言作业统计字符,C语言统计字符数(示例代码)
  9. 20160828小结
  10. spring 字面值 特殊字符 配置使用
  11. 【C语言】科学计数法——复习总结
  12. matlab怎么算方差和标准差,matlab用var函数算出的方差和标准差求解释~
  13. 重磅:使用UOS微信桌面版协议登录,wechaty免费版web协议重放荣光
  14. 有道云笔记客户端的下载和安装、使用(博主推荐)
  15. Postman 批量执行请求
  16. 华为账号登录的手游如何在雷电(MuMu等)模拟器上登录游戏(以三国杀为例)
  17. AndroidO Notification横幅通知(HangUp Notification)
  18. 梳理 | 机器人学习(Robot Learning)的发展
  19. 核函数和核矩阵【转】
  20. 一位博士论文的致谢部分

热门文章

  1. 苹果手机升级13无法开机_iOS13.5正式更新,升级过程中死机怎么解决?
  2. 怎样用电脑粘贴模拟志愿准考证
  3. Matlab生成白噪和粉噪
  4. **深度学习 BN 、LeakyReLU算法原理
  5. win10linux子系统root权限,电脑win10系统如何将linux子系统wsl切换到root权限
  6. 港口码头散货堆场气膜封闭,助力新型港口建设
  7. PHP日志系统 plog(PHP)
  8. 魔百和M301H/UNT401H/402H/烽火HG680ka-海思MV300H/310芯片免拆卡刷固件
  9. 学计算机文案,对计算机专业的认识及学业规划教学文案.doc
  10. 微信公众号(一)基本功能实现