什么是搜索引擎蜘蛛(spider)

搜索引擎蜘蛛(spider):

可简称为蜘蛛,本意为搜索引擎机器人(robot),称为蜘蛛的原因是将互联网比喻成蜘蛛网,将机器人比喻成了在网上爬行的蜘蛛,是搜索引擎自动抓取网页的程序。

搜索引擎蜘蛛的作用:通过这些搜索引擎蜘蛛的爬行会自动将网页添加到搜索引擎的数据库当中,搜索引擎蜘蛛会自动判断网页的质量,根据既定的程序判断是否抓取。

搜索引擎蜘蛛的名称:以下为目前国内知名度比较高的搜索引擎的名字,还有很多的搜索引擎蜘蛛但是由于知名度不高,我就不一一列举了。

Google的蜘蛛: Googlebot 、

百度的蜘蛛:baiduspider 、

雅虎中国的蜘蛛:Yahoo! Slurp China 、

MSN的蜘蛛:Msnbot 、

有道的蜘蛛:YoudaoBot、

搜狗的蜘蛛:Sogou web spider

查看搜索引擎蜘蛛的来访记录,需要通过网站访问日志文件来查看,具体获取方法请咨询服务器提供商。

如果你想获得搜索引擎蜘蛛的亲赖,希望他天天爬行抓取网页的话,那就需要持续保持原创文章的更新,并且定期交换友情链接。

如果你不希望某个搜索引擎的蜘蛛来抓取你的网页,可以通过设置robots.txt来禁止抓取。

转载声明:本文转自 http://www.seojiaoshi.cn/mingci/spider.htm

================================================================================

以搜索引擎蜘蛛角度来分析蜘蛛抓取网页的过程

搜索引擎需要解决的技术问题总的分为【蜘蛛程序+分类建立索引+词库+排序算法因素+数据库索引和优化+数据库结构一.蜘蛛】。目前看来,蜘蛛可以用C或者PHP来实现。百度的蜘蛛多半是C做的,C同样 可以支持多个数据库的连接接口,并且C的运行效率比PHP高,C也更能控制底层。C虽然这么好,我还是想用PHP做。

时间上必须更多的节约出来,不 能再去学C。如果以后需要高效率要用C,再用C做。数据库可以不变,MYSQL可以和C连接。PHP有优点也有缺点,做蜘蛛,问题应该不大。最大的问题 是有可能速度很慢。
一.抓取网页,有可能出现的问题是,抓取顺序,抓取如果不成功或超时等问题该如何纪录,下次又什么时候更新抓取。搜索引擎的 数据库最开始是新的,没有任何网址的,需要大量加入网址。
这里可以用for循环语句,按照英文字母自动循环。当然,网站建设不只有英文,还有和数字,这些只能手工输入了。如果还是循环抓取,估计有很多都要落空。抓到的代码需要分析编码类型是utf-8还是gb2312.我的搜索引擎只想抓简体中文。
如果抓取超时,则记录,下次大概十天之后再抓取,如果连续超时三次,将T出数据库。
二.索引的建立是个很棘手的问题。
百度和谷歌可以用自 己的服务器群建立分布式的服务器。我可没那么多服务器。所以我想换个方法。建立静态页面。之前我才知道,在百度和谷歌输入一个比较生僻的词 ,会花费0.2秒左右的时间,一般的常见词语只需要0.1秒。并且,第二次重复输入一个词所需要的查询时间要少得多。这个多半就是索引的影响。
假如索引是放内存里,读取速度将是非常OK的。我只有一台服务器,就算只放常见的5万个查询词语的索引进去,估计也有点累。一个页面至少有20K, 5万个页面就是20K*50=1G。这还只是5万个词的第一个页面。如果用户要翻页查询呢,内存肯定不够。假如只放第一页进内存,用户翻页查询,速度 将无法解决。所以我准备全静态。把5万个词语的查询模拟一次,然后生成静态页面。所有词的第一页放内存,后面的页面放硬盘里。如果能把页面 放内存,这个问题就已经解决了。
三.词库。
汉字千千万,常用的汉字也至少三千个。组成的词语常用的估计有2万。这个词库来怎么添加进去?用什 么格式存放?CSV文件还是数据库还是文本文件?之前我想过把金山词霸的词库文件找到,想办法直接复制过来,此方法目前还没成功。
四.所有的影响排序的算法,应该是放一个表里。
然后分固定算法,就是网站本身的因素,还有变动算法,就是用户输入的词语或因为时间季节等不同而变化的因 素。固定算法就放一个表里,对每个网站算出总分。变动算法的一部分是之前已经产生,一部分是用户输入之后才算出。
五.数据库的索引目前还没 有很好的解决办法。
一个表达索引肯定不能太多,多了会影响速度。六.数据库的结构。这个很关键。估计要在网站前台界面出来之前就得先把数据 库结构定下来。还要

为以后的升级留下接口,比如算法因素要增加,或者为了优化查询语句,要变动字段等等。初步结构是这样的。

转载声明:本文转自 http://www.seojiaoshi.cn/mingci/spider.htm

================================================================================

什么是搜索引擎蜘蛛(spider)相关推荐

  1. WordPress搜索引擎蜘蛛统计分析插件:Spider Analyser

    一般我们做个人站长的朋友,就很喜欢自己的站被蜘蛛爬,这样我们就需要去看我们的百度站长工具/360站长工具-.. 这里我想推荐一款插件:"Spider Analyser – WordPress ...

  2. 抓取一个连续的网页_搞懂各大搜索引擎蜘蛛的抓取规则,快速获得排名!

    搜索引擎平台的抓取规则: 百度.360.搜狗等搜索引擎抓取规则对比! 蜘蛛抓取规则:深度优先和广度优先 深度优先: 深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路. 深度 ...

  3. 搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施(最准确搜索引擎蜘蛛名称)...

    原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://jimmyli.blog.51cto.com/3190309/1183766 搜索 ...

  4. WordPress纯PHP代码实现记录搜索引擎蜘蛛爬行记录

    在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取情况.每次打开服务器端访问日志查看非常麻烦,特别是当日志文件比较大时更是不便.最好的办法就是在线直接打开看蜘蛛爬行记录.为此,我们可以免插件 ...

  5. 搜索引擎蜘蛛的基本原理及工作流程

    搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot).搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到 ...

  6. 2019年最新出搜索引擎蜘蛛网页爬虫大全

    2019年最新出搜索引擎蜘蛛网页爬虫大全分享,各大seo引擎搜索的蜘蛛会一次又一次访问爬取我们站点的文章内容,也会耗费一定的站点流量: 有时候就必须屏蔽一些蜘蛛浏览我们的站点,文章尾部会讲解决方案: ...

  7. 服务器处理蜘蛛抓取网页的过程,搜索引擎蜘蛛抓取页面过程图解

    学习seo的人经常在网上看到一句话:搜索引擎蜘蛛跟浏览器差不多,都是抓取页面.那么到底哪些一样哪些不一样?Ethan就通过浏览器帮助大家理解搜索引擎蜘蛛怎样抓取页面. 首先看一张图,是用firebug ...

  8. 最积极的搜索引擎蜘蛛有哪些可以屏蔽掉

    最积极的搜索引擎蜘蛛有哪些可以屏蔽掉 大家都知道搜索引擎蜘蛛的数量越多越好,爬的页面也越多越好,不爬就不会在收录存在了.那么,最积极的搜索引擎蜘蛛有哪些呢?垃圾蜘蛛真的是爬遍全网,步极网提醒赶快屏蔽掉 ...

  9. 重庆SEO优化:网站通过SEO优化会有哪些好处以及【SEO优化】 深度了解蜘蛛spider抓取原理-专业SEO技术教程

    网站通过SEO优化会有哪些好处       SEO优化自产生以来,受到了众多网络推广人员的的欢迎.其实通过SEO进行优化是有很大的好处的.虽然不是很全面但是还是可以提供一定的帮助.接下来就为大家网络就 ...

最新文章

  1. 方向对了?MIT新研究:GPT-3和人类大脑处理语言的方式惊人相似
  2. 理解和配置 Linux 下的 OOM Killer
  3. Linux下crontab命令添加Kettle作业定时任务
  4. python都能干什么-python都能做什么
  5. 奥比中光大白(3D结构光)摄像头测试发现对着灯光过曝问题
  6. 16个不错的 git 别名
  7. access开发精要(12)-文本 和 备注 数据类型格式(1)
  8. button按钮onclick触发不了_单按钮启停:测试模拟脉冲发生器的动作
  9. 学习 vuex 源码整体架构,打造属于自己的状态管理库
  10. brew 安装 mysql5.7_Mac——brew替换源地址安装配置mysql@5.7版本
  11. Ajax基础--创建XMLHttpRequest对象
  12. python %s用法
  13. ArcGIS Pro 学习路径
  14. 奈奎斯特与香农定理_奈奎斯特定理和香农定理解析
  15. 实用干货 !这才是职场最全实用建议
  16. Numpy学习1:dtype、ndim、astype和shape
  17. 拿到软考证书到底会有哪些作用?
  18. 【Python】数据存储
  19. IP、网关、端口、网段、子网掩码概念区别
  20. 计算机微格教学心得体会,微格教学心得体会6篇.doc

热门文章

  1. 如何让笔记本电脑更省电
  2. 面试秘籍 | 测试工程师的简历该怎么写?(带样例)
  3. 解决Windows10系统ping外网不通的问题
  4. win10计算机网络设置在哪,Win10系统电脑中的网络状态在哪里查看
  5. MySQL连接错误实例
  6. 你的小程序可以接广告赚钱了
  7. Centos7安装网易云播放器
  8. 单工 半双工 全双工的区别
  9. nginx sendfile什么作用
  10. pytorch安装教程 GPU版本