Python3爬虫系列:理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star
爬虫系列:
(1) 理论
- Python3爬虫系列01 (理论) - I/O Models 阻塞 非阻塞 同步 异步
- Python3爬虫系列02 (理论) - Python并发编程
- Python3爬虫系列06 (理论) - 可迭代对象、迭代器、生成器
- Python3爬虫系列07 (理论) - 协程
- Python3爬虫系列08 (理论) - 使用asyncio模块实现并发
(2) 实验
- Python3爬虫系列03 (实验) - 同步阻塞下载
- Python3爬虫系列04 (实验) - 多进程并发下载
- Python3爬虫系列05 (实验) - 多线程并发下载
- Python3爬虫系列09 (实验) - 使用asyncio+aiohttp并发下载
(3) 实战
- Python3爬虫系列10 (实战) - 爬取妹子图 第一弹
- Python3爬虫系列11 (实战) - 爬取妹子图 第二弹
1. 准备环境
1.1 安装CentOS
建议使用VMware安装一台CentOS-7.3虚拟机,请参考:http://www.madmalls.com/blog/post/customize-centos-7-3-autoinstall-iso/
1.2 安装Python3
请参考:http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/#3-python3
1.3 安装MongoDB
请参考:http://www.madmalls.com/blog/post/deploy-flask-gunicorn-nginx-supervisor-on-centos7/#4-mongodb ,如果是Windows请参考:http://www.madmalls.com/blog/post/win10-install-mongodb/
尝试使用
motor
实现MongoDB异步操作,好像效率更差一些,所以放弃使用该模块。目前数据库操作是同步阻塞型,使用pymongo
模块
1.4 安装Git
[root@CentOS ~]# yum -y install git
代码已上传到 https://github.com/wangy8961/python3-concurrency-pics-02 ,克隆代码:
[root@CentOS ~]# git clone https://github.com/wangy8961/python3-concurrency-pics-02.git
[root@CentOS ~]# cd python3-concurrency-pics-02/
1.5 准备虚拟环境
如果你的操作系统是Linux
:
[root@CentOS python3-concurrency-pics-02]# python3 -m venv venv3
[root@CentOS python3-concurrency-pics-02]# source venv3/bin/activate
Windows
激活虚拟环境的命令是:venv3\Scripts\activate
1.6 安装依赖包
如果你的操作系统是Linux
:
(venv3) [root@CentOS python3-concurrency-pics-02]# pip install -r requirements-linux.txt
如果你的操作系统是Windows
(不会使用uvloop
):
(venv3) C:\Users\wangy> pip install -r requirements-win32.txt
2. 分析过程
2.1 获取图集信息
使用requests
模块或aiohttp
模块来获取入口页面 http://www.mzitu.com/all/ 的HTML响应,然后通过BeautifulSoup4
和lxml
来解析HTML文档。每个图集
按年份/月份被放在<div class='all'></div>
下面的每个<a href="图集URL">图集标题<a>
中。需要注意的是,早期图片需要访问 http://www.mzitu.com/old/ ,递归调用获取图集的函数即可
将获取的4000多个图集信息保存到MongoDB数据库的albums
集合中
访问 http://www.mzitu.com/all/ 和 http://www.mzitu.com/old/ ,共
2次
请求
2.2 获取包含图片的页面信息
每个图集下面的图片数量不相同,我们需要依次访问图集URL,通过分页导航栏
获取该图集下最大的图片数和它的发布时间,并在本地磁盘上创建按日期分类的目录,方便以后浏览图片
假设图集URL为 http://www.mzitu.com/56918 ,发现该图集下有47张图片,而且包含图片的页面URL也是有规律的,比如包含第1张图片的页面URL为 http://www.mzitu.com/56918/1
将每个图集下面的包含图片的页面信息保存到MongoDB数据库的image_pages
集合中
依次访问图集URL,共
4500多次
请求
2.3 获取图片的真实URL
我们通过访问每个包含图片的页面,获取每张图片的真实URL,并保存到MongoDB数据库的images
集合中
依次访问包含图片的页面URL,共
13万多次
请求*
2.4 下载图片
从MongoDB数据库的images
集合中获取所有图片的真实URL,依次下载并保存到本地
依次访问图片的真实URL,共
13万多次
请求
3. 使用
3.1 测试
由于图片有13万多张,所以测试的时候,你可以指定只下载100个图集来对比同步下载
、多线程下载
和异步下载
的效率区别,修改以下三个脚本中的TEST_NUM = 100
建议每次测试完,都删除相关目录:
(venv3) [root@CentOS python3-concurrency-pics-02]# rm -rf downloads/ logs/ __pycache__/
删除数据库记录:
(venv3) [root@CentOS python3-concurrency-pics-02]# mongo
MongoDB shell version v3.6.6
connecting to: mongodb://127.0.0.1:27017
...
> show dbs
admin 0.000GB
config 0.000GB
local 0.000GB
mzitu 0.036GB
> use mzitu
switched to db mzitu
> db.dropDatabase()
{ "dropped" : "mzitu", "ok" : 1 }
> show dbs
admin 0.000GB
config 0.000GB
local 0.000GB
>
(1) 依序下载
(venv3) [root@CentOS python3-concurrency-pics-02]# python sequential.py
(2) 多线程下载
(venv3) [root@CentOS python3-concurrency-pics-02]# python threadpool.py
(3) 异步下载
(venv3) [root@CentOS python3-concurrency-pics-02]# python asynchronous.py
3.2 后台运行爬虫脚本
全站下载虽然只有13万多张图片,但章节分析过,总请求数差不多有30万次,所以耗时比较久,为防止不小心关闭Shell客户端而导致SSH断开,将使用screen
来将脚本运行为后台任务:
[root@CentOS ~]# yum -y install screen
[root@CentOS ~]# screen -dmS spider
[root@CentOS ~]# screen -r spider
[root@CentOS ~]# cd /root/python3-concurrency-pics-02
[root@CentOS python3-concurrency-pics-02]# source venv3/bin/activate
(venv3) [root@CentOS python3-concurrency-pics-02]# python asynchronous.py
脚本运行的过程中,按Ctrl + A + D
即可将任务切换到后台运行,此时再关闭Shell客户端也没影响了。等待大约2小时后:
[root@CentOS ~]# screen -r spider
即可查看下载的结果,如果有失败的请求,很正常,再次执行脚本即可
(venv3) [root@CentOS python3-concurrency-pics-02]# ls -lR downloads/ | grep '^-' | wc -l
138217
(venv3) [root@CentOS python3-concurrency-pics-02]# du -sh downloads/
16G downloads/
3.3 定时任务自动每日更新
[root@CentOS ~]# crontab -e
执行上述命令后,将打开vim编辑器,新增如下两行内容:# 爬取 www.mzitu.com 美女图片
30 23 * * * /usr/bin/python3 /root/python3-concurrency-pics-02/asynchronous.py
将在每天晚上23:30分自动执行爬虫脚本,查看cron
定时任务是否执行:
[root@CentOS ~]# tail -f /var/log/cron
Aug 27 23:30:01 CentOS CROND[6256]: (root) CMD (/usr/bin/python3 /root/python3-concurrency-pics-02/asynchronous.py)
Aug 27 23:30:01 CentOS CROND[6257]: (root) CMD (/usr/lib64/sa/sa1 1 1)
更多cron
知识请参考:http://www.madmalls.com/blog/post/how-to-schedule-tasks-in-linux-with-at-and-cron/
转载于:https://www.cnblogs.com/wangy8961/p/9552422.html
Python3爬虫系列:理论+实验+爬取妹子图实战相关推荐
- Python爬虫入门教程:爬取妹子图网站 - 独行大佬
妹子图网站---- 安装requests打开终端:使用命令pip3 install requests等待安装完毕即可使用接下来在终端中键入如下命令?123# mkdir demo # cd demo# ...
- Python爬虫-02 request模块爬取妹子图网站
简介 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3)#注意:requests库发送请求将网页内容下载 ...
- python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
- python爬取虎扑评论_python爬虫系列Selenium定向爬取虎扑篮球图片详解
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
- python爬虫爬妹子图_【爬虫】直接上干货-爬取妹子图整站图片
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 #coding=utf-8 import os import requests from lxml import etree import time cl ...
- python爬取妹子图片1_【爬虫】直接上干货-爬取妹子图整站图片
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 #coding=utf-8 import os import requests from lxml import etree import time cl ...
- 【Python】从爬虫开始吧——爬取妹子图整站
首先得解决环境和工具的问题 Python基础教程 Python3基础教程 大家也可以去慕课网看视频学习哦,关于选择Python2还是Python3的问题,上手的话还是直接选择3吧. 关于爬虫 爬虫就是 ...
- Python3爬虫-01-简单网页爬取
''' 宇宙黑客王磊磊 Python3爬虫 简单网页的获取第一个简单的示例 爬去Hades 官网首页 '''import sys import urllib.request print(sys.get ...
- Python3爬虫-04-模拟登录爬取企信宝200页数据
''' 批量抓取企信宝页面(前200页吧) ''' #导入需要的库 import urllib.request,socket,re,sys,os import ssl import fileinput ...
- python爬虫之正则表达式(爬取妹子网图片)
目录 正则表达式 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串.将匹配的子串替换或者从某个串中取出符合某个条件的子 ...
最新文章
- 如何居中“位置:绝对”元素
- goldengate的实施过程
- python gis库_使用开放的python库自动化GIS和遥感工作流
- Bash脚本教程之条件判断
- [翻译] ZLHistogramAudioPlot
- linux数组fortran,Fortran77-90-95入门(十)--数组
- PS批量处理_将图片批量转为jpg
- n分频器 verilog_verilog 语言实现任意分频
- P0-CS架构软件-BS架构软件-万维网-万维网联盟-进制-计算机存储-编解码
- 【程序员必备】七夕表白攻略:教你用代码轻松打动她的内心!
- JS 案例 树形菜单
- 告诉你Windows PE 是什么东东?详细介绍一下winpe
- HashMap常见面试题汇总:建议初步了解源码后再细品
- 关键信息基础设施确定指南_干货分享 | 关键信息基础设施运营单位如何做好业务安全测试...
- 5736. Single-Threaded CPU
- 将音频转化为MP3格式(lame库)
- 微信小程序|使用小程序制作一个马赛克处理工具
- Android初学------系统设置之设置输入法
- 企业上市IPO的必要条件
- 如何将EXCEL文件转换为KML
热门文章
- python 多线程测试_【Python】多线程网站死链检测工具
- 算法系列——遗传算法matlab编程详解
- 高维数据可视化之t-SNE算法
- 龙管家计费系统服务器连接失败,龙管家网吧计费系统服务端安装步骤
- java进出口食品安全信息管理系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
- 10000亿的暴利:数字化营销今生与未来
- 分类变量logistic回归分析--1
- Android获取mp3音频文件总播放时长大小
- C语言学习复盘整理笔记(六)
- linux上mysql命令无效_linux下mysql命令没用