来源:e800.com.cn


网络蜘蛛基本原理

网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。

由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。 对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

中文搜索引擎技术揭密:网络蜘蛛(二)相关推荐

  1. 中文搜索引擎技术揭密:网络蜘蛛

    [e800.com.cn 专稿]搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准.全.快.用专业术语讲是:查准率.查全率和搜索速度(即搜索耗时).其中最易达到的是搜索速度,因为对于 ...

  2. 中文搜索引擎技术揭密:网络蜘蛛(四)

    来源:e800.com.cn 内容提取 搜索引擎建立网页索引,处理的对象是文本文件.对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html.图片.doc.pdf.多媒体.动态网页及其它格式等.这些文 ...

  3. 中文搜索引擎技术揭密:排序技术(五)

    来源:e800.com.cn 排序技术的发展趋势 各种搜索引擎的技术改进和优化,都直接反应到搜索结果的排序上.许多搜索引擎都在进一步研究新的排序方法,来提升客户的满意度.专业人士认为,目前的搜索引擎排 ...

  4. 中文搜索引擎技术揭密:系统架构(五)

    来源:e800.com.cn 搜索引擎细化趋势 随着搜索引擎市场空间越来越大,搜索引擎也分得越来越细.互联网没有国界,百度总裁李彦宏所讲:搜索引擎市场是赢家通吃的市场.如果一个搜索引擎要想在搜索市场上 ...

  5. [转载]中文搜索引擎技术揭密:中文分词

    前言 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google.百度.yisou.中搜等大型搜索引擎一直人们讨论的话题.随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴 ...

  6. 中文搜索引擎技术揭密:系统架构(三)

    来源:e800.com.cn 搜索引擎的系统架构 这里主要针对全文检索搜索引擎的系统架构进行说明,下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎.搜索引擎的实现原理,可以看作四步:从互联网 ...

  7. 中文搜索引擎技术揭密:排序技术(三)

    来源:e800.com.cn 其他方法 HillTop算法: HillTop同样是一项搜索引擎结果排序的专利,是Google的一个工程师Bharat在2001年获得的专利.Google的排序规则经常在 ...

  8. 搜索引擎中的网络蜘蛛技术探析

    摘要:搜索引擎技术可以从海量的 网络 信息中获得我们想要的信息,随着网络信息资源的急剧增长其作用越来越显著.本文介绍了搜索引擎技术中的网路蜘蛛,分析了其对文件的处理方法,研究了其搜索与更新策略. 关键 ...

  9. 搜索引擎原理-网络蜘蛛和ROBOTS

    一.网络蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面( ...

最新文章

  1. Python使用matplotlib可视化分布点图、自定义设置分布点图的中位数数据点的颜色(Distributed Dot Plot)
  2. ExpressJs server中Router的设置
  3. 数据中心液冷技术发展分析
  4. nodec mysql_Node.js 连接 MySQL 并进行数据库操作 –node.js 开发指南
  5. 微型计算机系统包括( )几部分,微型计算机系统包括哪几个部分?
  6. Spring 3和Java EE 6 –不公平和不完整的比较
  7. php 情书,php趣味编程 - php输出笛卡尔情书的秘密
  8. 【批处理】通过bat文件执行python程序
  9. 谈谈入职新公司1月的体会
  10. TypeScript实战:下棋游戏
  11. Java使用BufferedImage修改图片内容
  12. android 表情的正则,Android 手势 正则匹配图片实例代码
  13. HTML5 web SQL 和indexedDB的使用
  14. NET Framework安装不成功解决办法
  15. Diff 算法的执行过程数据响应式模拟routerSnabbdom
  16. 8-1 职场价值塑造-摆脱低价值瓶颈,展示高价值收获新机会
  17. 全网最通俗易懂的「插屏广告」接入方法
  18. Shiro RememberMe 1.2.4 反序列化命令执行漏洞复现 kali docker
  19. android实现蓝牙耳机的连接及列表的管理
  20. Window 10将内置眼球追踪技术

热门文章

  1. single crop
  2. 股票交易系统接口设计
  3. QPlayer2-资源网各大程序背景音乐插件
  4. Java实现聊天软件之一,Java山寨“糗糗”分析
  5. 用C#语言编写记事本
  6. iPhone 13基带曝光,苹果拼了
  7. 工作中遇到的mouseout 与mouseleave的问题
  8. 一位英语老师写给老婆的情书
  9. 搞算法的凭啥比你工资高
  10. 常见的服务器存储技术有哪几种