网络蜘蛛(Web Spider),是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页,通常由网站首页开始,根据链接依次抓取网页。

并非所有的网络蜘蛛都是搜索引擎,同样会有翻译服务、订阅服务、阅读器等,甚至还有许多恶意蜘蛛也会市场来访问你的网站。所以对网站中网络蜘蛛相关的数据统计和分析也是部分必要的。

统计蜘蛛信息的作用有哪些呢?

1、分析页面是否被搜索引擎编入
2、统计搜索引擎搜索频率
3、找出哪些页面被搜索引擎忽略了
4、识别恶意蜘蛛

恶意蜘蛛行为特征

恶意蜘蛛对网站的负面影响有时是十分显著的,所以我们需要通过数据分析来找出它们,并且屏蔽他们的访问或抓取行为。

通常恶意蜘蛛通过抓取网站信息来获得用户的隐私信息,或者获取网站中受保护的或私有的信息,通过将出售这些用户信息获利;或者恶意蜘蛛通过不断地爬取给网站造成不必要的负担,降低网站的访问性能,从而影响其他正常用户的访问。恶意蜘蛛的行为特征主要有如下几种:

1、忽略robot.txt的说明;
2、访问robot.txt中被禁止抓取的页面;
3、快速地索引整个网站从而降低真正用户的性能;
4、通过动态页面紧跟你不想索引的链接。

识别恶意蜘蛛的方法

既然恶意蜘蛛的行为对网站有害,那么我们如何有效地去识别哪些是恶意蜘蛛呢?下面有三种常用的方法:

一、通过Agent字段,建立网络蜘蛛白名单
因为一般像google、baidu等搜索引擎的蜘蛛都会在Agent信息中标明自己的身份,我们可以将这些蜘蛛建立白名单,允许其对网站的访问和抓取。

二、检查发出请求的IP和域名
与Agent识别类似,通过IP或者域名进行识别也是比较有效的一个方法,因为一些常见的蜘蛛的IP地址区间及其域名都是相对固定的,网上也有相关的列表提供参考。

三、统计所有查看过robot.txt的会话及用户。
一般只有蜘蛛或者某些想窥视信息的人才会访问robots.txt,通过统计网站的robots.txt被那些用户访问了,可以进一步确定是否有恶意蜘蛛的存在。

附:

最近发现一些仿冒Baiduspider抓取的情况,提供两种判断是否为Baiduspider的方法。

方法1——Linux环境下
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。

$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

方法2——windows环境下
开始->运行->tracert 123.456.78.90(即抓取您网站的IP地址)
或者开始->运行->nslookup 123.456.78.90
查看name信息,未标识为Baiduspider即为冒充。

如何识别恶意网络蜘蛛相关推荐

  1. 网络爬虫(网络蜘蛛,网络机器人)与Web安全

    网络爬虫概述 网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域 ...

  2. 关于网络蜘蛛以及搜索蜘蛛爬行

    当"蜘蛛"程序出现时,现代意义上的搜索引擎才初露端倪.它实际上是一种电脑"机器人"(Computer Robot),电脑"机器人"是指某个能 ...

  3. 搜索引擎(网络蜘蛛及搜索引擎基本原理)

    2006-05-25 网络蜘蛛及搜索引擎基本原理 TAG:搜索相关 搜索引擎的工作原理大致可以分为: 搜集信息:搜索引擎的信息搜集基本都是自动的.搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器 ...

  4. 中文搜索引擎技术揭密:网络蜘蛛

    [e800.com.cn 专稿]搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准.全.快.用专业术语讲是:查准率.查全率和搜索速度(即搜索耗时).其中最易达到的是搜索速度,因为对于 ...

  5. 搜索引擎/网络蜘蛛程序源代码

    国外开发的相关程序 1.Nutch 官方网站 http://www.nutch.org/ 中文站点 http://www.nutchchina.com/ 最新版本:Nutch 0.7.2 Releas ...

  6. 中文搜索引擎技术揭密:网络蜘蛛(四)

    来源:e800.com.cn 内容提取 搜索引擎建立网页索引,处理的对象是文本文件.对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html.图片.doc.pdf.多媒体.动态网页及其它格式等.这些文 ...

  7. 搜索引擎原理-网络蜘蛛和ROBOTS

    一.网络蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面( ...

  8. Blue Spider网络蜘蛛软件

    1.Blue Spider网络蜘蛛软件 2.软件简称: 3.版本号:v1.0 4.分类号:67500-9100 5.首次发表地点:西安 6.硬件环境:PC机(内存1G以上) 7.软件环境:Window ...

  9. 【转】搜索引擎/网络蜘蛛程序源代码

    国外开发的相关程序 1.Nutch 官方网站 http://www.nutch.org/ 中文站点 http://www.nutchchina.com/ 最新版本:Nutch 0.7.2 Releas ...

  10. 用C#2.0实现网络蜘蛛(WebSpider)

    摘要:本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛.使用这个程序,可以通过一个入口网址(如http: //www.comprg.com.cn)来扫描整个互联网的网址,并将这些扫描到的网址所指 ...

最新文章

  1. 使用 Artifactory 1分钟搭建 CocoaPod 私服
  2. asp.mvc 4项目发布文件目录结构_Spring Boot项目搭建与启动
  3. 使用idea本地运行mapreduce程序,控制台log4j日志没有打印出来,可以这样解决
  4. 数据结构题及c语言版答案周桂红版,数据结构习题与答案.pdf
  5. 4位格雷码的顺序编码_整理丨一文掌握编码器的工作原理!
  6. thinkphp 字段静态验证$_validate中错误提醒多语言化写成{%LANGUATE}的原因
  7. 尚硅谷 谷粒学院 毕业设计 在线教育 部署文档
  8. H5 游戏主流引擎和编程语言
  9. eJOI2019 简要题解
  10. 欧姆龙PLC的FINS协议解释(实测通过)
  11. MSN聊天记录显示方式
  12. html5简单画版,sketchpad-简单的HTML5 Canvas涂鸦画板插件
  13. Canon LBP 2900 Mac 10.11 驱动安装
  14. LINGO进行灵敏度分析为何总提醒92/237错误
  15. 写博客能月入10K?
  16. 初二因式分解奥数竞赛题_初中数学因式分解含答案竞赛题精选
  17. adb命令行打开Android settings
  18. python 离线翻译软件_Python使用tkinter制作在线翻译软件
  19. Robberies(01背包的概率问题)
  20. 2015《软件工程》主要知识点完整版 by 望远号

热门文章

  1. 计算与编程思维-Python实践【Python Crash Course】
  2. java运行nc后空白页,用友NC开发本地启动客户端时界面空白问题的解决
  3. 公司有加密需求,需要试用天锐绿盾,该如何操作?
  4. android版自动答录机,自动答录机app下载-自动答录机 安卓版v2.4.6.2-PC6安卓网
  5. 高德地图拾取经纬度 + 搜索 + 标记
  6. c语言循环语句实例解释,c语言循环语句(c语言循环语句实例)
  7. 个人 易混淆 高频 高级单词
  8. 64位驱动签名工具64Signer
  9. Spring 揭秘 12.1
  10. 下一代企业IT架构:云原生架构