目录

1、网络爬虫概述

2、爬虫基本流程

3、爬虫基础知识


1、网络爬虫概述

爬虫就是请求网站并提取数据的自动化程序

网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

2、爬虫基本流程

例:

  • ①先由urllib的request打开Url得到网页html文档
  • ②浏览器打开网页源代码分析元素节点
  • ③通过Beautiful Soup或则正则表达式提取想要的数据
  • ④存储数据到本地磁盘或数据库(抓取,分析,存储)

3、爬虫基础知识

基础库

  • scrapy

  • requests

  • beautifulsoup

网页分类

  • 静态网页

  • 动态网页

  • webservice(restapi)

爬虫作用

  • 搜索引擎(百度、Google、垂直领域搜索引擎)

  • 推荐引擎(今日头条)

  • 机器学习的数据样本

  • 数据分析(如金融领域数据分析)、舆情分析

正则表达式

Mysql和Navicat的安装和使用

网站的树结构及其深度优先遍历和广度优先遍历

爬虫去重策略

Python3网络爬虫——爬虫基本原理相关推荐

  1. Python3——网络小说爬虫

    爬虫步骤回顾: 根据前两篇文章,我们理解了爬虫的各个过程,简单回顾下: 爬虫第一步:根据URL获取网页的HTML信息: Python3中可以通过urllib.request或者requests进行网页 ...

  2. 《Python3网络爬虫开发实战(第二版)》上市了!!!!

    " 阅读本文大概需要 5 分钟. " 告诉大家一个好消息:我的好朋友崔庆才老师的<Python3网络爬虫开发实战(第二版)>现在正式上市了!!!! 没错,就是这本: 就 ...

  3. 《Python3网络爬虫开发实战(第二版)》内容介绍

    这是「进击的Coder」的第 505 篇分享 作者:崔庆才 大家好,本节首先来预告下即将出版的<Python3网络爬虫开发实战(第二版)>的主要内容. 由于我已经把书的总体的内容介绍写在了 ...

  4. python3网络爬虫开发实战学习笔记(二)------python3 XPATH爬 猫眼电影排名

    我最近在看崔庆才老师的<python3 网络爬虫开发实战>觉得挺不错的,上面还有一个 用正则表达式爬取猫眼电影的电影排行榜 我练了一下,感觉不会很难,后来学到了xpath,就想用xpath ...

  5. 《Python3网络爬虫开发实战》第二波抽奖赠书活动来了!

    嗨~ 给大家重磅推荐一本书!上市两月就已经重印 4 次的 Python 爬虫书!它就是由静觅博客博主崔庆才所作的<Python3网络爬虫开发实战>!!!同时文末还有抽奖赠书活动,不容错过! ...

  6. 《Python3网络爬虫开发实战》抽奖赠书活动

    这本书之前在公众号推荐过,这次庆才找到我想再帮忙宣传一下,如果你的爬虫还是徘徊在入门与放弃路上,这本书能给你一条指引. 上市两月就已经重印 4 次的 Python 爬虫书!它就是由静觅博客博主崔庆才所 ...

  7. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

  8. python3爬虫实例-自己动手,丰衣足食!Python3网络爬虫实战案例

    本教程是崔大大的爬虫实战教程的笔记:网易云课堂 Python3+Pip环境配置 用到的IDE是PyCharm,Windows下到官网下载就行(Professional版本):http://www.je ...

  9. 【Python3网络爬虫开发实战】3-基本库的使用 1.2-处理异常

    前一节我们了解了请求的发送过程,但是在网络不好的情况下,如果出现了异常,该怎么办呢?这时如果不处理这些异常,程序很可能因报错而终止运行,所以异常处理还是十分有必要的. urllib的error模块定义 ...

  10. Python3网络爬虫快速入门实战解析(一小时入门 Python 3 网络爬虫)

    Python3网络爬虫快速入门实战解析(一小时入门 Python 3 网络爬虫) https://blog.csdn.net/u012662731/article/details/78537432 出 ...

最新文章

  1. Matlab与线性代数 -- 逆矩阵
  2. Java 8中处理集合的优雅姿势——Stream
  3. C++成员变量和成员函数分开存储
  4. 计算机硬盘满了怎么解决,使用SSD硬盘空间清理 C盘爆满怎么办
  5. oracle索引自增函数,oracle生成动态前缀且自增号码的函数分享
  6. 如何进行有效的沟通----日常沟通及会议
  7. 可视化流程设计器 Activiti Designer
  8. SQL Server外连接、内连接、交叉连接
  9. 对研发团队稳定性的思考
  10. mysql热块争用_Oracle 索引热块引起的latch争用实例分析(转)
  11. oracle时间类型
  12. python之路day4_【Python之路Day4】基础篇
  13. PHP判断手机号码是否正确
  14. matlab程序求解工程,面向计算科学与工程的Matlab编程源码
  15. 代码主题darcula_仿IntelliJ Darcula的Swing主题FlatLaf使用方法
  16. 极米newz6x和newz8x区别 极米newz6x和newz8x哪款好 哪个性价比高
  17. [前端面试题][‘1‘,‘2‘,‘3‘].map(parseInt)
  18. C/C++ 下标运算符subscript、后缀表达式、正负下标
  19. 苹果加快创新步伐 美国制造一去不复返
  20. 文献阅读笔记LUCC

热门文章

  1. 【HikariCP】HikariCP连接时间设置和连接数设置
  2. Python圆通快递单号查询官方接口-快递鸟
  3. 常见电子元器件的极性识别方法
  4. sublime text 3鼠标闪烁由竖线变为横线怎么处理?
  5. 网页动态背景:随鼠标线条变动
  6. String的内置方法、字符号拼接、创建字典、制作购物车、元组
  7. python爬取58同城二手房信息
  8. mysql导入access2016_将 Access 2.0 和 Access 95 数据库导入到当前版本
  9. 使用WinDbg分析Dump文件(蓝屏示例)
  10. selenium+python处理JS弹窗