初始搜索引擎的原理:第一步就是需要了解“搜索引擎的基本步骤”。

搜索引擎的基本步骤(大概架构)如下。可以分成虚线左右两个部分:一部分是搜索引擎抓取:主动抓取网页进行一系列处理后建立索引,等待用户搜索;另一部分是用户搜索查询:分析用户搜索意图,展现用户所需要的搜索结果。

SEO新手学习:搜索引擎的基本步骤

搜索引擎抓取:

搜索引擎主动抓取网页,并进行内容处理、索引部分的流程机制一般如下:

1、派出Spider,按照一定策略把网页抓回到搜索引擎服务器;

2、对抓回的网页进行链接抽离、内容处理,消除噪声、提取该页主题文本内容等;

3、对网页的文本内容进行中文分词、去除停止词等;

4、对网页内容进行分词后判断该页面内容与已索引网页是否有重复,剔除重复页,对剩余网页进行倒排索引,然后等待用户的检索。

用户搜索查询:

当用户进行查询后,搜索引擎工作的流程机制一般如下:

1、先对用户所查询的关键词进行分词处理,并根据用户的地理位置和历史检索特征进行用户需求分析,以便使用地域性搜索结果和个性化搜索结果展示用户最需要的内容;

2、查找缓存中是否有该关键词的查询结果,如果有,为了最快地呈现查询结果,搜索引擎会根据当下用户的各种信息判断其真正的需求,对缓存中的结果进行微调或直接呈现给用户;

3、如果用户所查询的关键词再缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将关键词和对应的搜索结果加入到缓存中;

4、网页排名是根据用户的搜索词和搜索需求,对索引库中的网页进行相关性、重要性(链接权重分析)和用户体验的高低进行分析所得出的。用户在搜索结果中的点击和重复搜索行为,也可以告诉搜索引擎,用户对搜索结果页的使用体验,这块是最近作弊最多的部分,所以这部分会随着搜索引擎的反作弊算法干预,有时甚至可能会进行人工干预;

按照上述搜索引擎的基本步骤,在整个搜索引擎工作流程中大概会涉及Spider、内容处理、分词、去重、索引、内容相关性、链接分析、判断页面用户体验、反作弊、人工干预、缓存机制、用户需求分析等模块。

接下来,我们也可以直接针对各个模块进行相对应的学习:

注:本文来源“南宁SEO博客”http://www.nnzseo.com/,转载需注明原文出处,感谢各位对Z.SEO的关注与支持,谢谢大家。

按照一定策略把网页抓回到搜索引擎服务器的,SEO新手学习:搜索引擎的基本步骤...相关推荐

  1. 搜索引擎蜘蛛 ajax,SEO中的搜索引擎蜘蛛技术探析

    搜索引擎技术抓取网络中海量信息,随着信息增长该技术作用变得越来越凸出,作为SEO技术人员,虽没必要像ZAC对搜索引擎优化技术了解的很透彻,但是分析了解搜索引擎的蜘蛛其对文件的处理方法,研究其搜索与更新 ...

  2. html抓取文章,网页抓取工具:一个简单的文章采集示例

    通过采集网页抓取工具火车采集器官网的faq为例来说明采集器采集的原理和过程. 本例以 http://faq.locoy.com/qc-12.html 演示地址,以火车采集器V9为工具进行示例说明. ( ...

  3. 【SEO】从搜索引擎工作过程来分析如何进行搜索引擎优化

    文章目录 初识SEO SEO是什么 为什么要做SEO Paid VS Organic 搜索引擎如何工作的 概览 爬取 索引 排名 如何进行SEO 概览 Tech SEO Onsite SEO Offs ...

  4. [转]半只香烟解读搜索引擎优化(SEO)知识完全手册(一)

    转:http://hi.baidu.com/bcair/blog/item/c2f2e2435e8a171072f05d48.html <搜索引擎优化(SEO)知识完全手册>前言 第一部分 ...

  5. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  6. 系统检测到您正在使用网页抓取工具_【安全】58反抓取简介

    0x00 介绍 网络爬虫,常又被称呼为Spider,网络机器人,主要模拟网络交互协议,长时间,大规模的获取目标数据. 普通爬虫会从网站的一个链接开始,不断收集网页资源,同时不断延伸抓取新获取的URL以 ...

  7. 关于网页抓取的10个误区(最新)

    Amel Majanovic在Unsplash上的照片 1.  网页爬取是非法的 许多人对网页抓取有错误的印象.这是因为有些人不尊重互联网上的出色作品,而是通过窃取内容来使用它.Web爬虫本身并不是非 ...

  8. python爬网站数据实例-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  9. vs用Python爬数据?(一)网页抓取

    你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. (由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开.如有需要,请 ...

最新文章

  1. springMvc时间格式化
  2. Java 自定义线程池
  3. 得力人脸识别考勤机密码设置_百度大脑人脸识别公有云日均调用量过亿 成为业内第一...
  4. java jni 参数_Java 与 JNI 互传数据的那些事
  5. (搬运工)macbook安装kali
  6. leetcode算法题--删除与获得点数★
  7. 信息安全与硬盘数据销毁
  8. 企业网络运行中,您是否遇到如下问题?——Vecloud
  9. ref 参数与 out 参数
  10. 2019 序列号_抖音发布2019年度报告;苹果序列号;熊猫互娱进入破产程序
  11. 关闭钩子(ShutdownHook)
  12. 一步步把 SAP UI5 应用部署到 SAP BTP Kyma 运行环境中去
  13. java集成lucene_将Lucene搜索集成到应用程序中
  14. 30销售是让用户开心的购买和消费
  15. Phonics 自然拼读法 y,x,ch,sh,(voiced)th/ð/ ,(unvoiced) th/θ/ Teacher:Lamb
  16. linux基础知识总结(四)
  17. C# Chart控件
  18. 左耳朵耗子的时间管理法则
  19. Fatal error: Out of memory (allocated 2252140544) (tried to allocate 67108864 bytes)
  20. 太湖之光超级计算机诞生了,科技观察:神威·太湖之光超级计算机

热门文章

  1. 【简明表】MATLAB + 矩阵运算
  2. MATLAB有关数字信号处理的一些方法
  3. javascript取随机数_Js怎么产生随机数?
  4. 操作系统原理:进程与线程、进程生命周期、线程的类型
  5. 启明云端应用分享|基于乐鑫 ESP-WIFI-MESH 的智能自助洗衣房
  6. python中cv2库_Python cv2库(人脸检测)
  7. SQL Server Indexes
  8. 针对于高频低频图像的理解
  9. dos命令在vba中应用
  10. Setting property 'source' to 'org.eclipse.jst.jee.server:hczm' did not find a matching property