定义:

网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

简介:

网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

爬虫整体流程:

①先由urllib的request打开Url得到网页html文档

②浏览器打开网页源代码分析元素节点

③通过Beautiful Soup或则正则表达式提取想要的数据

④存储数据到本地磁盘或数据库(抓取,分析,存储)

详细步骤

第一步:抓取网页

搜索引擎网络爬虫的基本工作流程如下:

首先选取一部分的种子URL,将这些URL放入待抓取URL队列;

取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。

分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环

第二步:数据存储

搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

提取文字

中文分词

消除噪音(比如版权声明文字、导航条、广告等……)

索引处理

链接关系计算

特殊文件处理

最后将数据存储起来以备使用。

51自学网python爬虫_小白必看的Python爬虫流程相关推荐

  1. anaconda如何卸载库_小白必看!Anaconda安装全攻略

    本文作者:戴    雯文字编辑:方    言技术总编:张馨月 爬虫俱乐部云端课程来袭! 爬虫俱乐部将于2020年8月25日至28日在线上举行Stata数据分析法律与制度专题训练营,主要是为了让学员掌握 ...

  2. 21天精通python电子版_小白21天精通Python是如何做到的?

    第二种:看网站入门教程,很多人推荐的廖雪峰Python教程 第三种:视频教程,推荐慕课网.其他还有网易云课堂,学堂在线(这个里边大学课程比较多) 学写一些基本的Python程序,上述<简明 Py ...

  3. python棋盘格_干货必看 | Python的turtle库之经典棋盘格

    国际棋盘格是一个由9横9纵的线组成的格子正方形,用Python的turtle库进行绘制的时候,先做9横9纵的线,再填上灰色小正方形,这就可以完成一个棋盘格了,下面是具体的操作步骤. (一)整体代码 1 ...

  4. python删除文件夹无法访问_零基础小白必看:python基本操作-文件、目录及路径

    使用python的os模块,简单方便完成对文件夹.文件及路径的管理与访问操作. 1 前言 在最近开发中,经常需要对文件进行读取.遍历.修改等操作,想要快速.简单的完成这些操作,我选择用 python ...

  5. python目录及文件_零基础小白必看:python基本操作-文件、目录及路径

    1 前言 在最近开发中,经常需要对文件进行读取.遍历.修改等操作,想要快速.简单的完成这些操作,我选择用 python .通过 python 的标准内置 os 模块,只需要几行代码,即可完成想要的操作 ...

  6. gtest测试框架使用详解_【python】新手小白必看,教你如何使用全功能Python测试框架 - python秋枫...

    大家好,我是在升职加薪道路上越奋斗头发越少的阿茅. 今天来跟想入门还徘徊在门外的小白们聊一聊 1.安装和简单使用 2.配置文件 3.断言 一. 第1步 (安装和简单使用) pytest是一个非常成熟的 ...

  7. python爬虫流程-小白必看的Python爬虫流程

    定义: 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 简介: 网络蜘蛛是一个很形象的名字.如果把互联网比喻成一个蜘蛛网,那么Spider ...

  8. 51自学网java壁虎_我要自学网JAVA基础4-26日历补充壁虎老师的完整代码

    import java.util.*; public class RiLi2 { public static void main(String[] args) { Scanner sc=new Sca ...

  9. python到底可以做什么-编程小白必看!Python到底能做什么?

    Python编程语言的入门门槛低,它的可读性强,代码简单易懂,尽管同样是使用C语言编写,但它又摒弃了C语言中复杂的指针,极大程度的简化Python的语法.对于初学者而言,学习Python不仅仅入门容易 ...

最新文章

  1. 手把手教线性回归分析(附R语言实例)
  2. Spring Security源码分析十三:Spring Security 基于表达式的权限控制
  3. U3D 飞机大战(MVC模式)解析--面向对象编程思想
  4. BZOJ3996 [TJOI2015]线性代数 【最小割】
  5. 【Android 逆向】Android 进程注入工具开发 ( 远程进程注入动态库文件操作 | 注入动态库 加载 业务动态库 | 业务动态库启动 | pthread_create 线程开发 )
  6. jdk紧急漏洞,XMLDecoder反序列化攻击
  7. 打造LINUX系统安全(早期学习笔记)
  8. Linux常用的(个人用)
  9. android 监听手机电量变化
  10. 正则表达式给html添加属性,正则表达式替换html元素属性的方法
  11. 02024_自定义异常的练习
  12. Python基本操作(四) 循环与判断
  13. YUV420查表法高效、无失真的转换为RGB32格式
  14. Web开发技术——JQuery8(添加元素和删除元素)
  15. 2019PMP考试专题资料大全
  16. matlab中二阶偏导数,MATLAB中带有两个变量的函数的一阶和二阶偏导数
  17. 斗牛/牛牛经典算法java版
  18. 【通信原理】实验七、基于Matlab的均匀量化和非均匀量化
  19. vue3+Typescript---Composition API(常用部分)学习笔记(二)
  20. JPK Data Processing AFM数据处理

热门文章

  1. Windows中的Hook机制
  2. elementui 表单自动校验
  3. lotus 删除一个在运行的P1扇区
  4. 转载(爆笑)国产电视剧的电脑高手
  5. CSS 实现高度自适应铺满整屏的实现
  6. Use GraceNote SDK in iOS(二)获取音乐的完整信息
  7. 0001-查询在自己电脑上连接过的wife信息及密码
  8. 【小组会整理】ICLR2016Particular object retrieval with integral max-pooling of CNN activations
  9. HDU - 1717 小数化分数2
  10. 查看mysql运行的用户组_第六天、用户、组、权限、grep