日志分析之识别真假蜘蛛与处理办法
导读(日志分析是站长必须要做的事情,如果一个网站主或者seoer不对日志进行分析,那么他绝对不是一个合格的站长。日志分析相关知识很多,我相信大部分站长对基础分析都会掌握,但是一些深入的日志分析问题可能或多或少有些迷茫!比如怎么识别真假蜘蛛以及处理方法!)
一,关于日志分析软件:
二,日志重点分析点
三,如何分分辨真假蜘蛛
四,如何处理假蜘蛛
日志分析工具很多,用处大致都相同 ,如果你想要直观化的分析可以选择一个比较容易理解的日志分析工具,比如拉格号在线分析工具等比较合适!
日志分析的重点在于:
1.蜘蛛来类(百度,360,谷歌等),2.抓取目录与页面(观察更新的页面是否被访问与抓取,爬取的目录等)3.蜘蛛访问次数与访问时间(访问频繁代表蜘蛛青睐此网站)4.网站安全与返回码(主要看是否被挂黑链,返回码一般200属于正常,但是如果404页面返回是200就得主要,还有其他500与302需要注意)5.文章权重(部分工具可以分析出访问蜘蛛的权重,权重蜘蛛访问则说明文章优质)。
对于如何分辨真假蜘蛛这里就详细的解答一下,方法很多比如:
1、在linux平台下,可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 .baidu.com 或 .baidu.jp 的格式命名。
2、在windows平台或者IBM OS/2平台下,可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。
3、在mac os平台下,你可以使用dig 命令反解ip来判断是否来自百度spider的抓取。打开命令处理器,输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以.baidu.com 或.baidu.jp的格式命名。
然后我们把有疑问的蜘蛛ip记录下来
比如这个ip段的百度蜘蛛从访问的页面月状态码来看都不正常,所以我们就用上述的第二种方式查询!
操作步骤:打开电脑开始栏→输入cmd打开cmd.exe→使用nslookup ip查询
我们可以通过查询有疑问的蜘蛛ip发现找不到!这种情况就是假蜘蛛。而一般真常情况的蜘蛛是下面这种显示baidu字样的!
找到了假冒的蜘蛛那么到底这个假冒蜘蛛有什么危害呢?小编在网上查找答案没有找到相关权威的知识解答,于是去百度站长社区与反馈平台反馈得到的结果也不尽如意。于是就联络一些有过这种情况的站长,经过他们以往的经验来看,小编得出以下的结论!
1、占用网站带宽,导致网站流量上升,增加额外开销,
2、在有限带宽的前提下,阻碍了正常蜘蛛的抓取,误导了我们在对网站开展SEO工作时的思路,
3、部分伪装成假蜘蛛的采集工具剽窃了我们的工作
4..假冒蜘蛛不能抓取内容,不能形成建库收录,所以影响不是很大。
所以假冒蜘蛛存在着一些危害,但总的来说都在可控范围类,所以一旦发现假冒蜘蛛访问与抓取,可以暂时不用屏蔽,可以先观察百度站长的网站抓取是否正常,然后看具体的带来的危害,比如是否长时间出现此类假冒蜘蛛。观察一段时间后如果没问题就不用管,如果有影响就用robots协议屏蔽掉此ip段的假冒蜘蛛,不过需要注意的是在屏蔽的时候不要屏蔽错误。
本文由甲爪联盟原创供稿!原文链接:http://www.jiazhua.com/wz/467...
日志分析之识别真假蜘蛛与处理办法相关推荐
- [转]HijackThis 日志分析—如何识别有害信息
概述 HijcakThis日志中的每一行以一个分类名称开始.(要查看这一主题的技术信息,单击主窗口中的"Info"按钮,并向下滚动窗口,突出显示某一行并单击"More i ...
- 蜘蛛日志分析工具_如何分析蜘蛛日志?
什么是蜘蛛日志? 所谓的蜘蛛日志就是当搜索引擎向服务器发送请求时产生的访问记录文件. 每个网站都会有日志文件,但是很多时候,日志文件只有在网站出现问题的时候才会被查阅.在seo方面,日志文件是更容易被 ...
- 网站蜘蛛日志分析解读,SEO站长自查诊断
什么是网站日志 通过百科我们也可以了解到,所谓的网站日志指的就是记录web服务器接收处理请求以及运行时错误等各种原始信息的以log结尾的文件.这里站长们要注意的是文件以log为后缀,只需将其下载下来使 ...
- 百度蜘蛛爬行日志分析
一名合格的SEOer在做网站优化的时候,不仅仅是要做网站优化的一些事,我们还需要分析我们的网站.分析就包括一些用户访问的信息数据的分析还有就是我们网站的日志进行分析.网站日志记录了搜索引擎对我们网站的 ...
- 真假蜘蛛查询工具-一键识别虚假蜘蛛
工具亮点 搜索引擎蜘蛛查询工具,是实时通过nslookup检测,具有很高的时效性和准确性! 蜘蛛IP查询工具支持:谷歌.百度.搜狗.必应.yandex.360搜索等蜘蛛识别: 工具地址:真假蜘蛛IP查 ...
- 多网站批量蜘蛛日志分析工具
网站的状态可以用日志来进行分析,蜘蛛日志分析工具通过可视化的数据曲线,方便我们对我们多个站点的蜘蛛爬取情况和行为进行分析,蜘蛛日志可以反映一个网站的状态,每天对我们的蜘蛛爬取情况进行了解和分析有助于我 ...
- nginx 日志分析统计蜘蛛
在线统计蜘蛛,分析网站日志 蜘蛛统计 - 又菜又爱网 怎么完成的 其实是我的chatGPT帮我写的,十分的强大! 所以我代码就不解释了,直接上代码,如果有问题请找AI帮忙分析,需要使用AI可以在本网站 ...
- 真假蜘蛛识别php,两招教你轻松识别百度真假蜘蛛(实操教程)
经常听到站长们问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,我们无法对外公布. 那怎么才能识 ...
- 《Unix/Linux网络日志分析与流量监控》2014年11月底出版
2014年11月 <Unix/Linux网络日志分析与流量监控>重磅新书出版 近日,历时3年创作的75万字书稿已完成,本书目前正在出版社清样阶段即将出版发行.本书紧紧围绕网络安全的主题,对 ...
最新文章
- 【转】Asp.net控件开发学习笔记整理篇 - Asp.net客户端状态管理
- 360导入html没有,IE无法加载到外部CSS样式, 用360浏览器就可以,上CSS引用代码[急]_html/css_WEB-ITnose...
- 真实序号索引与标签索引的使用
- linux命令:vmstat
- 洛谷【p2817】 宋荣子的城堡
- QQ无法安装,不用着急,用毒霸2011来解决
- dbv mysql_MariaDB与MySQL对比 --- 对分布式事务的支持
- 时间格式化,常用时间,格式
- 2021年年度最优质开源软件
- python怎么画蝙蝠_蝙蝠算法学习
- 利用BP神经网络求解非线性方程组
- 移动设备管理与OMA DM 协议 V5(3)
- 计算机系大二学年鉴定表,计算机大二学生自我鉴定
- html自我介绍怎么弄,用html设计一个自我介绍的静态网页
- FPGA浮点运算实战
- 秋冬易感冒着凉 风寒感冒9大食疗方
- 一个JAVA class的秘密
- querylist V4 图片下载
- 企业办理CMMI3级认证,需要做哪些工作?
- 虚拟服务器启动顺序,虚拟机开机启动项设置方法