爬虫爬取糗事百科图片数据

如图，爬取所有图片，不包含文字

通过抓包工具可知每一张图片所在div的class=“thumb”，利用正则表达式

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

下面是爬取当前页图片代码

import requests
import re
import os# 需求：爬取糗事百科中图片版块下所有糗图图片
if __name__ == '__main__':# 创建一个文件夹保存所有图片if not os.path.exists('./qiutuLibs'):os.mkdir('./qiutuLibs')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 ''Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400 '}url = 'https://www.qiushibaike.com/imgrank/'# 使用通用爬虫对url对应的一整张页面进行爬取page_text = requests.get(url=url, headers=headers).text# 使用聚焦爬虫对页面所有糗图进行解析ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex, page_text, re.S)for src in img_src_list:# 拼接出一个完整的图片urlsrc = 'https:' + src# 请求到了图片的二进制数据img_data = requests.get(url=src, headers=headers).content# 生成图片名称img_name = src.split('/')[-1]# 图片存储路径imgPath = './qiutuLibs/' + img_namewith open(imgPath, 'wb') as fp:fp.write(img_data)print(img_name, '下载成功！！！')

如果要分页爬取数据，就需要建立一个url模板，单击糗事百科的第二页第三页，观察url地址

于是我们建立的url模板可为

url = 'https://www.qiushibaike.com/imgrank/page/%d/'

全部代码如下

import requests
import re
import os# 需求：爬取糗事百科中图片版块下所有糗图图片
if __name__ == '__main__':# 创建一个文件夹保存所有图片if not os.path.exists('./qiutuLibs'):os.mkdir('./qiutuLibs')headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 ''Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400 '}# 设置一个url通用模板url = 'https://www.qiushibaike.com/imgrank/page/%d/'for pageNum in range(1, 3):new_url = format(url % pageNum)# 使用通用爬虫对new_url对应的一整张页面进行爬取page_text = requests.get(url=new_url, headers=headers).text# 使用聚焦爬虫对页面所有糗图进行解析ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'img_src_list = re.findall(ex, page_text, re.S)for src in img_src_list:# 拼接出一个完整的图片urlsrc = 'https:' + src# 请求到了图片的二进制数据img_data = requests.get(url=src, headers=headers).content# 生成图片名称img_name = src.split('/')[-1]# 图片存储路径imgPath = './qiutuLibs/' + img_namewith open(imgPath, 'wb') as fp:fp.write(img_data)print(img_name, '下载成功！！！')

爬虫爬取糗事百科图片数据相关推荐

python爬虫爬取糗事百科
最近研究python爬虫,按照网上资料实现了python爬虫爬取糗事百科,做个笔记. 分享几个学习python爬虫资料: 廖雪峰python教程主要讲解python的基础编程知识 python开发简 ...
爬取糗事百科图片（正则案例）
首先前面来到糗事百科中的热图页面.然后右键检查打开浏览器的抓包工具,如下图所示: 通过对请求headers与响应response与element的分析,我们可以了解到图片链接就在该地址栏的网址下的di ...
网络爬虫---爬取糗事百科段子实战
Python网络爬虫 1.知识要求掌握python基础语法熟悉urllib模块知识熟悉get方法会使用浏览器伪装技术如果您对相关知识遗忘了,可以点上面的相关知识链接,熟悉一下. 2.爬取糗事 ...
爬虫爬取糗事百科段子
目录糗事百科段子爬取爬虫功能介绍所需软件网页解析找到所需信息所在代码段获取信息编程思路分析获取当前所有段子对提取的内容进行优化数据合并查看点赞数最多的内容总结最后附代码糗 ...
python爬虫经典段子_Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url 2.先抓取HTML页面 importurllibimpo ...
爬取糗事百科段子 + 数据可视化
文章目录一.前言二.selenium爬取段子信息三.绘制词云图四.散点图一.前言糗事百科的段子栏目声称:幽默笑话大全__爆笑笑话__笑破你的肚子的搞笑段子,我们用 Python 来看看糗事 ...
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
爬虫:爬取糗事百科数据
import requests from lxml import etree from fake_useragent import UserAgentclass Qiu:def __init__(se ...

爬虫爬取糗事百科图片数据

爬虫爬取糗事百科图片数据相关推荐

最新文章

热门文章