本教程是崔大大的爬虫实战教程的笔记:网易云课堂

Python3+Pip环境配置

用到的IDE是PyCharm,Windows下到官网下载就行(Professional版本):http://www.jetbrains.com/pycharm/download/

Pycharm需要花钱,建议花钱买正版。

Mac我就不写了,因为我没有Mac

MongoDB环境配置

Linux以Ubuntu为例:sudo apt-get install mongodb

Redis环境配置

MySQL环境配置

爬虫的基本原理

什么是爬虫?

爬虫就是请求网站并提取数据的自动化程序

爬虫的基本流程

1.发起请求

2.解析请求

3.获取相应内容

4.保存数据

什么是Request和Response?

比如我们在浏览器中输入一个网址

浏览器就会发送消息给该网址所在的服务器,这个过程就叫做HTTP Request

服务器收到浏览器发送的消息后,能够根据浏览器发送消息的内容,做相应处理,然后把消息回传给浏览器。这个过程叫做HTTP Response

浏览器收到服务器的Response信息后,会对信息进行相应的处理,然后展示。

Request中包含什么?

1.请求方式:

主要有GET、POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等。

2.请求URL

3.请求头如User-Agent、Host、Cookies等

4.请求体

Responst中包含什么?

1.响应状态

有多种响应状态如200代表成功,301代表跳转,404代表找不到页面,502代表服务器错误

2.响应头

如内容类型,内容长度,服务器消息,设置Cookie等等

3.响应体

主要的部分,包含了请求资源的内容,如网页HTML、图片二进制数据等。

能抓取怎样的数据?

1.网页文本:如HTML文档,Json格式文本等

2.图片:获取的是二进制文件,另存为图片格式

3.视频:同为二进制文件,保持为视频格式即可

4.其他:只有能请求,都能获取

解析方式

1.直接处理

2.Json解析

3.正则表达式

4.BeautifulSoup

5.PyQuery

6.Xpath

7.其他

怎样解决JavaScript渲染的问题

1.分析Ajax请求

2.Selenium/WebDriver

3.Splash

4.PyV8、Fhost.py

怎样保存数据

1.文本:纯文本、Json、Xml等

2.关系型数据库:如MySQL、Oracle、SQL Server等具有结构化表结构形式的存储

3.非关系型数据库:如MongoDB、Redis等Key-Value形式存储

4.二进制文件:如图片、视频、音频等等直接保存成特定格式即可

Urllib库基本使用

Requests库的基本使用

正则表达式与re模块

BeautifulSoup库详解

PyQuery详解

Selenium详解

Requests+正则表达式爬取猫眼电影

python3爬虫实例-自己动手,丰衣足食!Python3网络爬虫实战案例相关推荐

  1. Python爬虫工程师 3个月成为网络爬虫工程师

    攻城狮整理网易云课堂<Python爬虫工程师 3个月成为网络爬虫工程师> 1.平均薪资高 入行爬虫工程师薪资可达15w 高级爬虫工程师薪资可达30w 2.入行门槛低 从事爬虫工程师职位最多 ...

  2. 网易微专业python爬虫工程师一期多久_微专业-Python爬虫工程师 – 3个月成为网络爬虫工程师...

    [2020最新]Python爬虫工程师 – 3个月成为网络爬虫工程师 课程简介 1.平均薪资高 入行爬虫工程师薪资可达15w高级爬虫工程师薪资可达30w

  3. 【爬虫】手把手教你写网络爬虫(2)

    介绍 大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛.糙.快,方便初学者上手,建立信心.对于有一定基础的读者,请不要着急,以后我们会学习主流的 ...

  4. Python3 网络爬虫(一):初识网络爬虫之夜探老王家(2020年最新版)

    一.前言 3年前,我在 csdn 写过 Python3 网络爬虫系列教程,经过三年的积累,累计阅读量近 90W. 同时,我也在 Github 开源了所有 Python3 网络爬虫代码,累积获得 10. ...

  5. python爬虫安装软件_为编写网络爬虫程序安装Python3.5

    1. 下载Python3.5.1安装包 1.1 进入python官网,点击menu->downloads,网址:Download Python 1.2 根据系统选择32位还是64位,这里下载的可 ...

  6. python3.7快速入门_PYTHON 3.7网络爬虫快速入门

    Python 3.7正在成为目前流行的编程语言,而网络爬虫又是Python网络应用中的重要技术,二者的碰撞产生了巨大的火花.本书在这个背景下编写而成,详细介绍Python 3.7网络爬虫技术. 本书分 ...

  7. Python网络爬虫实例1:股票数据定向爬虫

    Python网络爬虫实例:股票数据定向爬虫 一.功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 二.候选数据网站选择 候选网站 ...

  8. python爬虫程序的流程图_Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)...

    ###1. 项目背景 在Python即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到 ...

  9. python 爬虫解决登录验证问题_python网络爬虫的简单实践——解决无验证模拟登陆问题...

    正文开始以前先唠叨几句,一直以来都是自己在网络各大论坛上向大佬们学习东西,如今因为疫情困在家里写毕设,闲余之时也瞎捣鼓了一下,于是想在这里写一点东西,算是自己学习的一个笔记,再一个就是发现网上的教程质 ...

  10. python网络爬虫权威指南 百度云-Python网络爬虫权威指南 PDF 第2版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小5.54 MB,瑞安·米切尔编写,目前豆瓣.亚马逊. ...

最新文章

  1. openfeign 负载均衡_再谈openfeign,聊聊它的源代码
  2. mysql动静分离_haproxy的web服务负载均衡、动静分离、 MySQL服务负载均衡、状态监控...
  3. tomcat内存溢出
  4. 编写第一个Spring程序——IOC实现
  5. java读取mysql配置文件_Linux运维:MySQL读写分离解决方案
  6. PCM(脉冲编码调制)、iLBC编解码、opus(声音编码格式)、VP8视频压缩格式、H.264数字视频压缩格式
  7. 19. 用 GTK+ 进行GNOME 编程,用 Qt进行KDE 编程
  8. jQuery - 添加元素
  9. AMS1117降压电路
  10. java7 pc6_GitHub - ShingmoYeung/oss-sdk-java at ec7c09757dcbcb2b934f46b12ab71f3e14d2df72
  11. 【智能手环APP for Android 】01 百度地图展示行动轨迹
  12. 画一只会动的皮卡丘(上)
  13. 微信小程序 — tag标签设置选中效果和未选样式
  14. 软件工程北大慕课答案
  15. Swoole入门指南:PHP7安装Swoole详细教程(一) 1
  16. 华中科技大学计算机学院刘明,彭芳瑜-华中科技大学机械科学与工程学院
  17. 激活函数(1)Sigmoid激活函数
  18. 【狮子数学】chapter6-05-阿贝尔定理(第99讲)
  19. 计算机英语短句,有意义的英文短句
  20. Vivado IP Status显示为“Using cached IP results“,变更回“synth_design Complete“方法

热门文章

  1. Windows Server 2016 禁止自动更新后重启
  2. case实现shell菜单功能
  3. 【记录】 安装qflow on ubuntu 16.04
  4. 排序算法(还需补充)
  5. Type difference of character literals in C and C++
  6. kubernetes性能测试实践
  7. Jenkins 无法捕获构建脚本错误问题
  8. 【USACO Mar08】 奶牛跑步 A-star k短路
  9. java第10次作业 计科1501 张鹏
  10. T-SQL 控制流语句