搜索引擎的工作过程大体可以分成三个阶段:

  (1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面HTML代码,存到数据库。

  (2)预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。

  (3)排名:用户输入查询词(关键词)后,排名程序调用索引数据,计算相关性,然后按一定格式生成搜索结果页面。

搜索引擎的工作原理

  爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。搜索引擎用来抓取页面的程序被称为蜘蛛(spider)

  一个合格的SEOer,要想让自己的更多页面被收录,就要想法设法吸引蜘蛛来抓取。

蜘蛛抓取页面有几方面因素:

  (1)网站和页面的权重,质量高、时间长的网站一般被认为权重比较高,爬行深度也会比较高,被收录的页面也会更多。

  (2)页面的更新频率,蜘蛛每次爬行都会把页面数据储存起来,如果第二次,第三次的抓取和第一次的一样,说明没有更新,久而久之,蜘蛛也就没有必要经常抓取你的页面啦。如果内容经常更新,蜘蛛就会频繁访问页面,来抓取新的页面。

  (3)导入链接,不管是内部链接还是外部链接,要想被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛就不会知道页面的存在。

  (4)与首页的点击距离,一般网站上权重最高的是首页,大部分外部链接都会指向首页,那么蜘蛛访问最频繁的页面就是首页,离首页点击距离越近,页面权重越高,被爬行的机会越大。

吸引百度蜘蛛

如何吸引蜘蛛来抓取我们的页面?

  坚持有频率的更新网站内容,最好是高质量的原创内容。

  主动向搜索引擎提供我们的新页面,让蜘蛛更快的发现,如百度的链接提交、抓取诊断等。

  搭建外部链接,可以和相关的网站做友情链接交换,可以去别的平台发布高质量的文章指向自己的页面,内容要相关。

  制作网站地图,每个网站都应该有一个sitemap,网站所有的页面都在sitemap中,方便蜘蛛抓取。

eplices如何导入外部代码_搜索引擎的蜘蛛是如何爬的相关推荐

  1. eplices如何导入外部代码_#华为云·寻找黑马程序员#【代码重构之路】如何优雅的关闭外部资源...

    1.背景 在Java编程中,如果打开了外部资源(文件.数据库连接.网络连接等),我们必须在这些外部资源使用完毕后,手动关闭它们.因为外部资源不由JVM管理,无法享用JVM的垃圾回收机制,如果我们不在编 ...

  2. 如何导入外部代码_如何使用PyQt内联和绘图-Matplotlib与IPython / Jupyter

    有许多不同的Python数据可视化库.但是,在所有库中,Matplotlib很容易成为最受欢迎和使用最广泛的库.使用Matplotlib,您可以创建简单和复杂的可视化文件. Jupyter笔记本是共享 ...

  3. eplices如何导入外部代码_java环境配置的理解

    学过java的同学肯定对环境的配置的一点都陌生,但是时间久了,也许很多人也忘记怎么配置了.不过百度一下就立马解决.丝毫不影响你的工作,我也是学习过java的,参加工作也不久,经验告诉我,一个东西你不仅 ...

  4. 蜘蛛能抓取thinkphp的html页面,搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛来抓取页面...

    搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛来抓取页面 搜索引擎的工作过程大体可以分成三个阶段: (1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面HTML代码,存到数据库. (2)预处理: ...

  5. python导入外部包_您会喜欢的10个外部Python软件包

    python导入外部包 by Adam Goldschmidt 亚当·戈德施密特(Adam Goldschmidt) 您会喜欢的10个外部Python软件包 (10 External Python p ...

  6. bm25算法Java代码_搜索引擎相关度算法 -BM25 JAVA实现

    bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法. 它的出现主要是解决TF-IDF算法中 TF的影响可无限增大的不足,本质上 BM25是基于TF-IDF并做了改 ...

  7. python可以爬取58同城代码_【Python爬虫】:爬取58同城二手房的全部房地产标题...

    北街家园七区 双阳台大两居 看楼有锁匙 相邻卖场,小区业主真诚售卖,房屋十分整洁,刚性需求 (新上!急卖)百环家园高层住宅观景平台大两居 次序分离出来 双入户花园 海淀区幸福里~北清路旁边~ 智能化精 ...

  8. 如何导入外部Git仓库到中国源代码托管平台(Git@OSC)

    针对最近有很多网友提问,如何导入外部代码仓库(Github.bitbucket.Google Code等等)到Git@OSC ,给出如下解决方案: 方案1: 从原始地址clone一份bare仓库 gi ...

  9. 外部仓库_一键同步!CODING 现已支持导入 GitHub 仓库

    为方便用户从 GitHub 快速迁移到 CODING 并开始使用,CODING 现已支持导入 GitHub 仓库.免去繁琐步骤,只需简单两步操作即可完成导入,让仓库静默同步,无缝衔接,平滑过渡:同时还 ...

最新文章

  1. string.Format 方法拼入{}
  2. js动态添加,删除option及add的使用方法
  3. Java多线程之集合类(线程安全和不安全)
  4. 设计算法时要确保分类讨论的完备性
  5. 获取png格式的MNIST数据集
  6. layui select日期_layui给下拉框、按钮状态、时间赋初始值的方法,按钮的状态
  7. g++编译c++11 thread报错问题 及c++多线程操作
  8. LibreOffice去重复数据
  9. 004-controller的使用
  10. genymotion 前端调试
  11. 分布式模块化 Java 开发平台 Castle-Platform
  12. ionic安装拍照选照片插件
  13. 拓端tecdat|游记数据感知旅游目的地形象
  14. 编译OpenJDK:invalid configuration Files: machine Files not recognized
  15. unity VideoPlayer播放完成事件
  16. 如何禁止树莓派屏幕休眠
  17. 这一次的互联网寒冬,又会有多少人倒下?
  18. 理光Ricoh Aficio MP C7501SP 一体机驱动
  19. [HTML]如何实现轮播图效果
  20. 基于HTML的旋转立方体的实现

热门文章

  1. 自学python能干些什么副业-揭秘!女程序员为啥更赚钱?这4个大招,用Python做副业躺赚...
  2. 用python画漂亮图-大部分人都不知道-Python竟能画这么漂亮的花,帅呆了
  3. python画曲线图-Python数据可视化之Matplotlib(折线图)
  4. 零基础学python实战-苦苦发愁学习Python?让你享受 7天 掌握Python的感觉
  5. python是什么类型的语言-python到底是什么类型的语言
  6. python官网的软件-python
  7. python是什么意思-Python中%是什么意思?python中百分号如何使用?
  8. 指纹、面部、语音识别技术,破解真的很简单!| 知乎
  9. woocommerce产品选项描述修改_简历修改服务:中文修改、英文修改、中英互译、简历定制,名师一对一指导修改!...
  10. HTTP协议详细介绍~超详细