网络蜘蛛Spider的逻辑Logic(一)
网络蜘蛛的定义
Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等
来源:网络爬虫程序
简而言之,网络蜘蛛就是根据一系列既定规则或自动识别获取互联网资源的程序。
简单的蜘蛛=规则+程序,规则是指其思维逻辑,程序是指获取识别资源的程序。
网络蜘蛛的规则
网络蜘蛛的规则可以是单一的,也可以是一系列的;可以是特定的,也可以是泛指的;可以是具体的,也可以是模糊的定义。不管是何种形式形态出现,其一般是提前设置好的。自动识别建立规则、自我学习的网络蜘蛛,就像“永动机”一样吸引人。在当下,还是不太可能的。试想一下,如果这种拥有“自我意识”的网络蜘蛛实现了,那也意味着“自主学习”的机器人雏形也真正实现了...
虽然“自我学习”还遥不可及,但是关于类似的研究实验却是一直在进行,比如机器学习、深度学习等等。通常学习一样东西,先从基本的入手。千里之行始于足下。那么网络蜘蛛的基本规则是怎么样的,它的思维逻辑是什么?
一般,网络蜘蛛先从既定地址通过互联网获取资源,然后根据规则分析资源,识别提取目标实体。所以蜘蛛Spider的思维逻辑为:
1)连接特定地址,获取互联网资源;
2)分析处理媒体资源;
3)识别符合规则的实体并保存;
4)获取其他关联地址,如果存在继续执行1),否则5);
5)保存退出。
从上面看出,网络蜘蛛的难点在于3)和4)中的规则:一是目标实体的规则,二是关联地址的规则。目标规则是网络蜘蛛的最终目的,蜘蛛根据目标规则从资源内容中识别出最终目标,完成基本任务。而地址规则是其网络连续性的基本。网络蜘蛛根据地址规则,从当前资源内容中提取单一或系列相关联的资源地址,选取有效地址,继续执行基本任务。当再也无法获取有效的关联地址,并且遍历当前所有有效资源源地址时,网络蜘蛛的生命周期也就结束。掌握这两个关键点,也就基本理解网络蜘蛛的内容。
网络蜘蛛Spider的逻辑Logic(一)相关推荐
- 网络蜘蛛Spider 工作原理
网络蜘蛛 Web spider (或称 Crawler)是一种能够跟踪网络上超链接结构,并不断进行网络资源发现与采集的程序.作为搜索引擎的资源采集部分,Web Spider的性能将直接影响到整个搜索 ...
- 开源网络蜘蛛(Spider)一览
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标. 第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目 Spi ...
- 搜索引擎(网络蜘蛛及搜索引擎基本原理)
2006-05-25 网络蜘蛛及搜索引擎基本原理 TAG:搜索相关 搜索引擎的工作原理大致可以分为: 搜集信息:搜索引擎的信息搜集基本都是自动的.搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器 ...
- Blue Spider网络蜘蛛软件
1.Blue Spider网络蜘蛛软件 2.软件简称: 3.版本号:v1.0 4.分类号:67500-9100 5.首次发表地点:西安 6.硬件环境:PC机(内存1G以上) 7.软件环境:Window ...
- 关于网络蜘蛛以及搜索蜘蛛爬行
当"蜘蛛"程序出现时,现代意义上的搜索引擎才初露端倪.它实际上是一种电脑"机器人"(Computer Robot),电脑"机器人"是指某个能 ...
- 重庆SEO优化:网站通过SEO优化会有哪些好处以及【SEO优化】 深度了解蜘蛛spider抓取原理-专业SEO技术教程
网站通过SEO优化会有哪些好处 SEO优化自产生以来,受到了众多网络推广人员的的欢迎.其实通过SEO进行优化是有很大的好处的.虽然不是很全面但是还是可以提供一定的帮助.接下来就为大家网络就 ...
- 网络爬虫(网络蜘蛛,网络机器人)与Web安全
网络爬虫概述 网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域 ...
- 搜索引擎中的网络蜘蛛技术探析
摘要:搜索引擎技术可以从海量的 网络 信息中获得我们想要的信息,随着网络信息资源的急剧增长其作用越来越显著.本文介绍了搜索引擎技术中的网路蜘蛛,分析了其对文件的处理方法,研究了其搜索与更新策略. 关键 ...
- 中文搜索引擎技术揭密:网络蜘蛛
[e800.com.cn 专稿]搜索引擎一直专注于提升用户的体验度,其用户体验度则反映在三个方面:准.全.快.用专业术语讲是:查准率.查全率和搜索速度(即搜索耗时).其中最易达到的是搜索速度,因为对于 ...
- 搜索引擎/网络蜘蛛程序源代码
国外开发的相关程序 1.Nutch 官方网站 http://www.nutch.org/ 中文站点 http://www.nutchchina.com/ 最新版本:Nutch 0.7.2 Releas ...
最新文章
- 国航移动门户让我出行无忧
- 〖Android〗代理与正常网络分开同步CyangenMod源码
- php 获取流文件大小,php获取文件大小详解
- mysql超过1W条查询不显示_mysql 被写入1W数据后无法select*from table,但是加入limit参数后可以查询...
- python实验八分支语句_python语句(分支,循环)
- Java案例:读取XML文档
- 如何在Linux上部署Jenkins
- 买了基金之后要天天盯着吗?
- es的分片数量和扩展性分析
- python3基础学习(XML文件解析)
- 结合CDIB类,对图像的打开、显示、保存
- 华为手机usb调试打开后自动关闭怎么办?华为手机 usb调试为什么自动关闭?usb调试老是自动关闭怎么回事?...
- 163vip邮箱登陆入口,怎么登录163邮箱?
- tasklist、taskkill、taskmgr
- 采集利器 - Web Scraper教学及示例
- 更换android开机动画须选择好正确的压缩格式
- Linux终端Terminal常用快捷键
- 继承(extends)
- uni-app封装自己常用的css样式-----自定义css的样式 (便于开发)-----原理简单
- 号卡推广管理系统源码 手机卡流量卡推广网站源码 带后台版本