用C#2.0实现网络蜘蛛(WebSpider)

摘要：本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序，可以通过一个入口网址(如http: //www.comprg.com.cn)来扫描整个互联网的网址，并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析工具对这些网络资源做进一步地分析，如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎。
关键词：C#2.0，Html，网络蜘蛛, 键树，正则表达式

一、引言

在最近几年，以Google为首的搜索引擎越来越引起人们的关注。由于在Google出现之前，很多提供搜索服务的公司都是使用人工从网络上搜集信息，并将这些信息分类汇总后作为搜索引擎的数据源。如yahoo公司一开始就是通过数千人不停地从网上搜集供查询的信息。这样做虽然信息的分类会很人性化，也比较准确，但是随着互联网信息爆炸式地增长，通过人工的方式来搜集信息已经不可能满足网民对信息的需求了。然而，这一切随着Google的出现而得到了彻底改变。Google一反常规的做法，通过程序7*24地从网上不停地获取网络资源，然后通过一些智能算法分析这些被下载到本地的网络资源，最后将这些分析后的数据进行索引后就形成了一套完整的基本上不需要人工干预的搜索引擎。使用这种模式的搜索引擎甚至可以在几天之内就可获取Internet中的所有信息，同时也节省了大量的资金和时间成本。而这种搜索引擎最重要的组成部分之一就是为搜索引擎提供数据源的网络蜘蛛。也就是说，实现网络蜘蛛是实现搜索引擎的第一步，也是最重要的一步。

二、网络蜘蛛的基本实现思想和实现步骤

网络蜘蛛的主要作用是从Internet上不停地下载网络资源。它的基本实现思想就是通过一个或多个入口网址来获取更多的URL，然后通过对这些URL所指向的网络资源下载并分析后，再获得这些网络资源中包含的URL，以此类推，直到再没有可下的URL为止。下面是用程序实现网络蜘蛛的具体步骤。

1. 指定一个（或多个）入口网址(如http://www.comprg.com.cn），并将这个网址加入到下载队列中（这时下载队列中只有一个或多个入口网址）。
    2. 负责下载网络资源的线程从下载队列中取得一个或多个URL，并将这些URL所指向的网络资源下载到本地（在下载之前，一般应该判断一下这个URL是否已经被下载过，如果被下载过，则忽略这个URL）。如果下载队列中没有URL，并且所有的下载线程都处于休眠状态，说明已经下载完了由入口网址所引出的所有网络资源。这时网络蜘蛛会提示下载完成，并停止下载。
    3. 分析这些下载到本地的未分析过的网络资源（一般为html代码），并获得其中的URL（如标签<a>中href属性的值）。
    4. 将第3步获得的URL加入到下载队列中。并重新执行第2步。

关于文章后面的内容，请读者访问http://www.comprg.com.cn/net/n0302.htm

用C#2.0实现网络蜘蛛(WebSpider)相关推荐

NetSpider 网络蜘蛛1.0 的简介
NetSpider 网络蜘蛛1.0 的简介支持多线程下载和自动断点续传.特别适合对网站上的图象文件进行自动下载,是图片搜集者的利器.详细的使用说明见: 网络蜘蛛是一个自动搜索HTML页面并下载指 ...
关于网络蜘蛛以及搜索蜘蛛爬行
当"蜘蛛"程序出现时,现代意义上的搜索引擎才初露端倪.它实际上是一种电脑"机器人"(Computer Robot),电脑"机器人"是指某个能 ...
转帖不会乱码的，powershell网络蜘蛛
抓取(爬取)网上信息的脚本程序,俗称网络蜘蛛. powershell中自带了这样的两个命令,[Invoke-WebRequest]和[Invoke-RestMethod],但这两个命令有时候会乱码. ...
搜索引擎（网络蜘蛛及搜索引擎基本原理）
2006-05-25 网络蜘蛛及搜索引擎基本原理 TAG:搜索相关搜索引擎的工作原理大致可以分为: 搜集信息:搜索引擎的信息搜集基本都是自动的.搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器 ...
建立网络链接编程C语言,用C语言编写一个网络蜘蛛来搜索网上出现的电子邮件地址...
可能大家经常要去互联网上搜索特定的内容,比如收集大量邮件地址,如果用google之类的搜索引擎是没法实现这种特定功能的,所以用C语言来写一个吧.它的功能就是不断去取得网络上的页面,然后分析出网页上出现 ...
中文搜索引擎技术揭密：网络蜘蛛
[e800.com.cn 专稿]搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准.全.快.用专业术语讲是:查准率.查全率和搜索速度(即搜索耗时).其中最易达到的是搜索速度,因为对于 ...
搜索引擎/网络蜘蛛程序源代码
国外开发的相关程序 1.Nutch 官方网站 http://www.nutch.org/ 中文站点 http://www.nutchchina.com/ 最新版本:Nutch 0.7.2 Releas ...
中文搜索引擎技术揭密：网络蜘蛛(二)
来源:e800.com.cn 网络蜘蛛基本原理网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻 ...
搜索引擎原理－网络蜘蛛和ROBOTS
一.网络蜘蛛基本原理网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面( ...

用C#2.0实现网络蜘蛛(WebSpider)

用C#2.0实现网络蜘蛛(WebSpider)相关推荐

最新文章

热门文章