WEB日志是网站的WEB服务处理程序,根据一定的规范生成的ASCII文本。它主要记录了网站访问记录数据内容,是网站分析和网站数据仓库的数据基础来源,而网站分析和数据分析也将对SEO产生一定的影响,所以了解WEB日志的格式和组成将有利于我们更好地进行网站数据的收集、处理和分析,从而更好的进行网站优化。
一、WEB日志格式分类
目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格式,另一类是IIS的W3C日志格式。NCSA格式又分为NCSA普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF)及基于自定义类型的Apache日志格式;而W3C扩展日志格式(ExLF)具备了更为丰富的输出信息,主要是微软IIS(Internet Information Services)中应用。
二、NCSA扩展WEB日志格式(ECLF)
下面是一个最常见的基于NCSA扩展WEB日志格式(ECLF)的Apache日志样例:
218.161.64.101 – - [22/Aug/2011:09:51:46 +0800] “GET /reference-and-source/weblog-format/ HTTP/1.1″ 202 6326 ”http :/ /www .google.cn/search?q=friend” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)”
这个日志可以解读为:来自" http://www.google.cn/search?q=friend "的访客,使用IE6.0浏览器,应用HTTP/1.1协议,在22/Aug/2011:09:51:46,访问(GET)了218.161.64.101主机的 /reference-and-source/weblog-format/,访问成功,得到6326字节数据。
可以看到这个日志主要由以下几个部分组成:
访问主机(remotehost):显示主机的IP地址或者已解析的域名。
标识符(Ident):由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能。
授权用户(authuser):用于记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的。
日期时间(date):一般的格式形如[22/Feb/2010:09:51:46 +0800],即[日期/月份/年份:小时:分钟:秒钟 时区],占用的的字符位数也基本固定。
请求(request):即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括三种请求类型(METHOD),主要包括GET/POST/HEAD这三种。
请求资源(RESOURCE):显示的是相应资源的URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS等资源;
协议版本号(PROTOCOL):显示协议及版本信息,通常是HTTP/1.1或HTTP/1.0。
状态码(status):用于表示服务器的响应状态,通常1xx的状态码表示继续消息;2xx表示请求成功;3xx表示请求的重定向;4xx表示客户端错误;5xx表示服务器错误。
传输字节数(bytes):即该次请求中一共传输的字节数。
来源页面(referrer):用于表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空。上例中来源页面是google,即用户从google搜索的结果中点击进入。
用户代理(agent):用于显示用户的详细信息,包括IP、OS、Bowser等。
三、W3C扩展WEB日志
下面是一段常见的IIS生产的W3C扩展WEB日志
2011-09-01 16:02:22 GET /Enterprise/detail.asp 70.25.29.53 http:/ /www .example.com/searchout.asp 202 17735 369 4656
这个日志可以解读为:IP是70.25.29.53,来自" http://www.example.com/searchout.asp "的访客,在2011-09-01 16:02:22,访问(GET)了主机的/Enterprise/detail.asp,访问成功,得到17735字节数据。
日期:date 动作发生时的日期。
时间:time 动作发生时的时间(默认为UTC标准)。
客户端IP地址:c-ip 访问服务器的客户端IP地址。
用户名:cs-username 通过身份验证的访问服务器的用户名。不包括匿名用户(用‘-’表示)。
服务名:s-sitename 客户所访问的Internet服务名以及实例号。
服务器名:s-computername 产生日志条目的服务器的名字。
服务器IP 地址:s-ip 产生日志条目的服务器的IP地址。
服务器端口:s-port 服务端提供服务的传输层端口。
方法:cs-method 客户端执行的行为(主要是GET与POST行为)。
URI Stem:cs-uri-stem 被访问的资源,如Default.asp等。
URI Query:cs-uri-query 客户端提交的参数(包括GET与POST行为)。
协议状态:sc-status 用HTTP或者FTP术语所描述的、行为执行后的返回状态。
Win32状态:sc-win32-status 用Microsoft Windows的术语所描述的动作状态。
发送字节数:sc-bytes 服务端发送给客户端的字节数。
接受字节数:cs-bytes 服务端从客户端接收到的字节数。
花费时间:time-taken 执行此次行为所消耗的时间,以毫秒为单位。
协议版本:cs-version 客户端所用的协议(HTTP、FTP)版本。对HTTP协议来说是HTTP 1.0或者HTTP 1.1。
主机:cs-host 客户端的HTTP报头(host header)信息。
用户代理:cs(User-Agent) 客户端所用的浏览器版本信息。
Cookie:cs(Cookie) 发送或者接受到的cookie内容。
Referrer:cs(Referer) 用户浏览的前一个网址,当前网址是从该网址链接过来的。
协议底层状态:sc-substatus 协议底层状态的一些错误信息。

WEB日志记录了网站访客的详细情况,我们可以通过日志分析工具来分析网民对网站的浏览情况,但在实际应用中,我们更多的是采用一些第三方的网站统计工具来监控访客对网站的访问情况。对于WEB日志,我们需要重点关注的是各大搜索引擎蜘蛛对网站的抓取情况,这才是对我们SEO工作最直接的影响因素。

http://www.xymyeah.com/1302.html

详解网站WEB日志格式相关推荐

  1. java web ip_详解Java Web如何限制访问的IP的两种方法

    前一阵子因为在做项目时碰到了这个功能,现在好好总结一下,至于为什么要限制IP访问,我就不多说了.然后百度了一下,现在主要有两种方式去限制IP访问,第一种是最简单的方便的,第二种是通过过滤器来限制访问. ...

  2. 详解BLE 空中包格式—兼BLE Link layer协议解析

    BLE有几种空中包格式?常见的PDU命令有哪些?PDU和MTU的区别是什么?DLE又是什么?BLE怎么实现重传的?BLE ACK机制原理是什么?希望这篇文章能帮你回答以上问题. 虽然BLE空中包(pa ...

  3. mysql重做日志_详解MySQL 重做日志(redo log)与回滚日志(undo logo)

    前言: 前面文章讲述了 MySQL 系统中常见的几种日志,其实还有事务相关日志 redo log 和 undo log 没有介绍.相对于其他几种日志而言, redo log 和 undo log 是更 ...

  4. python获取mp3音频数据_详解python进行mp3格式判断 python怎么读取mp3文件

    python中哪个库有em算法 EM算法初稿2016-4-28 初始化三个一维的高斯分布 from numpy import * import numpy as np import matplotli ...

  5. MySQL存储引擎 lnnoDB逻辑架构 innodb存储引擎表空间(ibd文件)详解 回滚日志的物理空间

    文章目录 存储引擎 一 MySQL组织架构 二 查看存储引擎信息 三 修改存储引擎 3.1 配置文件修改存储引擎 3.2 临时修改存储引擎 3.3 建表时修改存储引擎 四 存储引擎实验 五 数据库升级 ...

  6. java web编码详解_java web 开发 编码问题详解

    java web 开发 编码问题详解 浏览器 IE/FireFox ------------->Servlet容器-------------------------->显示页面 编码   ...

  7. JVM从入门到精通(十一): CMS日志详解,G1日志详解,JVM常见参数总结;补充纤程知识

    CMS 日志格式分析 使用CMS:添加参数UserConcMarkSweepGC(CMS+ParNew) CMS常用参数 -XX:+UseConcMarkSweepGC -XX:ParallelCMS ...

  8. python中logging模块详解_python logging日志模块详解

    logging 日志模块详解 用Python写代码的时候,在想看的地方写个print xx 就能在控制台上显示打印信息,这样子就能知道它是什么了,但是当我需要看大量的地方或者在一个文件中查看的时候,这 ...

  9. c语言printf函数中的格式控制字符串,C++_C语言格式化输入输出函数详解,一:格式输出函数printf() 1 - phpStudy...

    C语言格式化输入输出函数详解 一:格式输出函数printf() 1.调用形式一般为:printf("格式化控制字符串",输出表列): 2.格式化控制字符串用于指定输出格式,它有三种 ...

  10. mysql 二进制日志详解_Mysql二进制日志详解

    引言 注:图片取自网络 提一下比较重要的几个: 重做日志(Redo Log):重做日志是实现mysql事务的持久性的原理之一,当新增数据时,Redo Log会备份新数据,在事务提交前,只要持久化Red ...

最新文章

  1. .NET泛型解析(下)
  2. creo JAVA_Creo 4.0二次开发工具框架搭建
  3. 网站的PV、UV、的统计 (awk 统计命令)
  4. 基于ISE的设计实现基础
  5. Linux部署Ant Design Pro项目及nginx部署
  6. 27.CSS3文本效果
  7. 新浪微博开放平台开发-android客户端(2)
  8. 实践作业2:黑盒测试实践(小组作业)每日任务记录1
  9. bzoj 1079: [SCOI2008]着色方案
  10. 转载杨绛《一百岁感言》
  11. [linux]centOS 7.6重新分配Home目录的大小
  12. 安装指定的vue-router版本
  13. Webduino Smart 从入门到起飞
  14. 酷狗歌曲缓存kgtemp转mp3工具
  15. JS 平方 开方 笔记
  16. next项目部署到服务器pm2进程守护
  17. win11怎么进安全模式,win11进入安全模式的方法
  18. thymeleaf模板引擎即时生效的问题
  19. think in java学习笔记
  20. WebSocket 获取客户端的IP

热门文章

  1. bootice.exe linux 启动盘,下载BOOTICE来把你的U盘做成启动盘
  2. java itex 打印pdf_【收藏】java使用ITEXT打印PDF
  3. Scrapy 中文手册 0.25 文档
  4. 将多个excel合并成一个包含多个sheet的excel
  5. 华创e路航固件_华创e路航地图官方版
  6. RTL8153B ,瑞昱千兆网卡芯片 ,扩展坞HUB千兆网口芯片。
  7. 教案设计计算机,计算机应用基础教案设计
  8. 电脑wincc服务器配置文件,WinCC客户端与冗余服务器配置步骤
  9. html新年倒计时特效,js实现新年倒计时效果
  10. 线性代数 计算机 视频教程,哈工大:线性代数教学视频