什么是搜索引擎蜘蛛（spider）

什么是搜索引擎蜘蛛（spider）

搜索引擎蜘蛛（spider）：

可简称为蜘蛛，本意为搜索引擎机器人（robot），称为蜘蛛的原因是将互联网比喻成蜘蛛网，将机器人比喻成了在网上爬行的蜘蛛，是搜索引擎自动抓取网页的程序。

搜索引擎蜘蛛的作用：通过这些搜索引擎蜘蛛的爬行会自动将网页添加到搜索引擎的数据库当中，搜索引擎蜘蛛会自动判断网页的质量，根据既定的程序判断是否抓取。

搜索引擎蜘蛛的名称：以下为目前国内知名度比较高的搜索引擎的名字，还有很多的搜索引擎蜘蛛但是由于知名度不高，我就不一一列举了。

Google的蜘蛛： Googlebot 、

百度的蜘蛛：baiduspider 、

雅虎中国的蜘蛛：Yahoo! Slurp China 、

MSN的蜘蛛：Msnbot 、

有道的蜘蛛：YoudaoBot、

搜狗的蜘蛛：Sogou web spider

查看搜索引擎蜘蛛的来访记录，需要通过网站访问日志文件来查看，具体获取方法请咨询服务器提供商。

如果你想获得搜索引擎蜘蛛的亲赖，希望他天天爬行抓取网页的话，那就需要持续保持原创文章的更新，并且定期交换友情链接。

如果你不希望某个搜索引擎的蜘蛛来抓取你的网页，可以通过设置robots.txt来禁止抓取。

转载声明：本文转自 http://www.seojiaoshi.cn/mingci/spider.htm

================================================================================

以搜索引擎蜘蛛角度来分析蜘蛛抓取网页的过程

搜索引擎需要解决的技术问题总的分为【蜘蛛程序+分类建立索引+词库+排序算法因素+数据库索引和优化+数据库结构一.蜘蛛】。目前看来，蜘蛛可以用C或者PHP来实现。百度的蜘蛛多半是C做的，C同样可以支持多个数据库的连接接口，并且C的运行效率比PHP高，C也更能控制底层。C虽然这么好，我还是想用PHP做。

时间上必须更多的节约出来，不能再去学C。如果以后需要高效率要用C，再用C做。数据库可以不变，MYSQL可以和C连接。PHP有优点也有缺点，做蜘蛛，问题应该不大。最大的问题是有可能速度很慢。

一.抓取网页，有可能出现的问题是，抓取顺序，抓取如果不成功或超时等问题该如何纪录，下次又什么时候更新抓取。搜索引擎的数据库最开始是新的，没有任何网址的，需要大量加入网址。
这里可以用for循环语句，按照英文字母自动循环。当然，网站建设不只有英文，还有和数字，这些只能手工输入了。如果还是循环抓取，估计有很多都要落空。抓到的代码需要分析编码类型是utf-8还是gb2312.我的搜索引擎只想抓简体中文。
如果抓取超时，则记录，下次大概十天之后再抓取，如果连续超时三次，将T出数据库。
二.索引的建立是个很棘手的问题。

百度和谷歌可以用自己的服务器群建立分布式的服务器。我可没那么多服务器。所以我想换个方法。建立静态页面。之前我才知道，在百度和谷歌输入一个比较生僻的词，会花费0.2秒左右的时间，一般的常见词语只需要0.1秒。并且，第二次重复输入一个词所需要的查询时间要少得多。这个多半就是索引的影响。
假如索引是放内存里，读取速度将是非常OK的。我只有一台服务器，就算只放常见的5万个查询词语的索引进去，估计也有点累。一个页面至少有20K， 5万个页面就是20K*50=1G。这还只是5万个词的第一个页面。如果用户要翻页查询呢，内存肯定不够。假如只放第一页进内存，用户翻页查询，速度将无法解决。所以我准备全静态。把5万个词语的查询模拟一次，然后生成静态页面。所有词的第一页放内存，后面的页面放硬盘里。如果能把页面放内存，这个问题就已经解决了。
三.词库。

汉字千千万，常用的汉字也至少三千个。组成的词语常用的估计有2万。这个词库来怎么添加进去？用什么格式存放？CSV文件还是数据库还是文本文件？之前我想过把金山词霸的词库文件找到，想办法直接复制过来，此方法目前还没成功。
四.所有的影响排序的算法，应该是放一个表里。

然后分固定算法，就是网站本身的因素，还有变动算法，就是用户输入的词语或因为时间季节等不同而变化的因素。固定算法就放一个表里，对每个网站算出总分。变动算法的一部分是之前已经产生，一部分是用户输入之后才算出。
五.数据库的索引目前还没有很好的解决办法。
一个表达索引肯定不能太多，多了会影响速度。六.数据库的结构。这个很关键。估计要在网站前台界面出来之前就得先把数据库结构定下来。还要

为以后的升级留下接口，比如算法因素要增加，或者为了优化查询语句，要变动字段等等。初步结构是这样的。

转载声明：本文转自 http://www.seojiaoshi.cn/mingci/spider.htm

================================================================================

什么是搜索引擎蜘蛛（spider）相关推荐

WordPress搜索引擎蜘蛛统计分析插件：Spider Analyser
一般我们做个人站长的朋友,就很喜欢自己的站被蜘蛛爬,这样我们就需要去看我们的百度站长工具/360站长工具-.. 这里我想推荐一款插件:"Spider Analyser – WordPress ...
抓取一个连续的网页_搞懂各大搜索引擎蜘蛛的抓取规则，快速获得排名！
搜索引擎平台的抓取规则: 百度.360.搜狗等搜索引擎抓取规则对比! 蜘蛛抓取规则:深度优先和广度优先深度优先: 深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路. 深度 ...
搜索引擎蜘蛛给网站带来的危害，有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://jimmyli.blog.51cto.com/3190309/1183766 搜索 ...
WordPress纯PHP代码实现记录搜索引擎蜘蛛爬行记录
在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况.每次打开服务器端访问日志查看非常麻烦,特别是当日志文件比较大时更是不便.最好的办法就是在线直接打开看蜘蛛爬行记录.为此,我们可以免插件 ...
搜索引擎蜘蛛的基本原理及工作流程
搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot).搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到 ...
2019年最新出搜索引擎蜘蛛网页爬虫大全
2019年最新出搜索引擎蜘蛛网页爬虫大全分享,各大seo引擎搜索的蜘蛛会一次又一次访问爬取我们站点的文章内容,也会耗费一定的站点流量: 有时候就必须屏蔽一些蜘蛛浏览我们的站点,文章尾部会讲解决方案: ...
服务器处理蜘蛛抓取网页的过程,搜索引擎蜘蛛抓取页面过程图解
学习seo的人经常在网上看到一句话:搜索引擎蜘蛛跟浏览器差不多,都是抓取页面.那么到底哪些一样哪些不一样?Ethan就通过浏览器帮助大家理解搜索引擎蜘蛛怎样抓取页面. 首先看一张图,是用firebug ...
最积极的搜索引擎蜘蛛有哪些可以屏蔽掉
最积极的搜索引擎蜘蛛有哪些可以屏蔽掉大家都知道搜索引擎蜘蛛的数量越多越好,爬的页面也越多越好,不爬就不会在收录存在了.那么,最积极的搜索引擎蜘蛛有哪些呢?垃圾蜘蛛真的是爬遍全网,步极网提醒赶快屏蔽掉 ...
重庆SEO优化：网站通过SEO优化会有哪些好处以及【SEO优化】深度了解蜘蛛spider抓取原理-专业SEO技术教程
网站通过SEO优化会有哪些好处 SEO优化自产生以来,受到了众多网络推广人员的的欢迎.其实通过SEO进行优化是有很大的好处的.虽然不是很全面但是还是可以提供一定的帮助.接下来就为大家网络就 ...

什么是搜索引擎蜘蛛（spider）

以搜索引擎蜘蛛角度来分析蜘蛛抓取网页的过程

什么是搜索引擎蜘蛛（spider）相关推荐

最新文章

热门文章