爬取网页地址

https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202108220858130102121920511F8DC562%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22}
或在https://www.toutiao.com/的搜索框输入街拍美女点击搜索，点击下图红色圈出的那里，进入爬取网页

爬取链接

进入到爬取网页后右键点击检查，打开network，打开XHR过滤器，因为这是爬取Ajax数据，通过下拉网页会刷新出新的图片，同时也会有新的Ajax请求发出，在preview可以找到爬取的内容

爬取链接

在Headers中可以看到爬取的url，通过与下面那个Ajax请求的url对比，可以看出page_num相差1

爬取代码

# 导入python库和请求头信息
import requests
from urllib.parse import urlencode
import os
from multiprocessing.pool import Poolos.mkdir('美女')
headers = {'Cookie': '_S_DPR=1.25; _S_IPAD=0; MONITOR_WEB_ID=6998732191069242893; _S_WIN_WH=1536_754; ttwid=1%7CoFxjodGO-vtY_O_K8G9x4pwu4gz1ICVhReOIH8j_rNI%7C1629523025%7C8a1555a0c15f383da52d213ef8966aba0fd175bb1e07f6d269e4be9aa0c09083','Host': 'so.toutiao.com','Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202108211225210101501390121ED0A112%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22}','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
headers1 = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}

通过此图可知url的各个参数，其中page_num是一个可变参数

def get_page(page_num):
# 构造参数字典params = {'keyword': '街拍美女','pd': 'atlas','dvpf': 'pc','aid': '4916','page_num': page_num,'search_json': '{"from_search_id":"202108211225210101501390121ED0A112","origin_keyword":"街拍美女","image_keyword":"街拍美女"}','rawJSON': '1','search_id': '202108211225520102122020840E88BAED'}# base_url是完整url的前一部分# base_url = 'https://so.toutiao.com/search?'url = 'https://so.toutiao.com/search?' + urlencode(params) # 组合urltry:res = requests.get(url,headers=headers)if res.status_code == 200:return res.json()except requests.ConnectionError:return None

def dowmload(json):if json.get('rawData'):items = json.get('rawData').get('data')for i in range(len(items)):item = items[i]id = item.get('id') # 获取图片idurl = item.get('img_url') # 获取图片下载地址print(url)filename = '美女/{}.jpg'.format(id)try:res = requests.get(url,headers=headers1)if res.status_code == 200:if not os.path.exists(filename):with open(filename,'wb') as fp:fp.write(res.content) # 下载图片else:print('Already Downloaded',filename)except requests.ConnectionError:print('Failed to Save Image')

def main(page_num):json = get_page(page_num)dowmload(json)

START = 1 # 起始页
END = 23 # 结束页
if __name__ == '__main__':# 利用多进程的进程池，调用map（）方法实现多进程下载pool = Pool()groups = ([x * 20 for x in range(START,END + 1)])pool.map(main,groups)pool.join()

此篇文章爬取的是Ajax数据
同系列文章

python都被我用来爬美女图片了相关推荐

Python爬虫实战批量下载高清美女图片，男生最爱的案例吧！
彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...
【Python | 杂代码】从0爬妹子图片教程,难道我也下海了？
往期精彩: 100多g Python 学习资源分享: 以前的爬虫文章: 下期分享预告:100多G精选Java学习资源(本周六) 前言: 正规妹纸图片网站.58同城房源信息.微信公众号文章, 分三期推送 ...
用 Java 爬美女图片，这个厉害了！
目的爬取搜狗图片上千张美女图片并下载到本地准备工作爬取地址:https://pic.sogou.com/pics?query=%E7%BE%8E%E5%A5%B3 分析打开上面的地址,按F12 ...
python爬虫爬美女图片：“小甲鱼056节轮一只爬虫的自我修养4：OOXX” 最终更新2021.6.27日，更新后可用！！！
目录 2020.10.25日更新代码: 2020.11.10日更新代码 2021.6.27日更新,更新后可用 2020.10.25日更新需要改动有两个方面: 第一方面,网址编码有变化,如http ...
python利用多线程批量下载高清美女图片(350秒下载近3600张1.2个G的照片,地址可变)
目录第一章.前言 1.1.实现的效果: 1.2.需要用到的库: 第二章.代码分块讲解 2.1.对象的定义和初始化 2.2.方法1和2获取所有图集链接 2.2.1. 对应网站结构 2.2.2 .相应代 ...
学爬虫的动力是啥？那肯定就是爬美女图片了。6千多图片看到爽。
scrapy框架介绍 scrapy是由Python语言开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据. scrapy框架的传送门: https://sc ...
python爬虫抓取头条街拍美女图片
开发环境:windows 7 开发工具:pycharm python版本:python 3.7 用到的库:os,urllib,requests,hashlib 关键步骤: 通过浏览器分析找到请求接口 ...
python爬虫进阶：异步请求几秒钟爬光网站的全部美女图片
aiohttp模块参考aiohttp库简单教程 - 简书什么是aiohttp aiohttp是一个为Python提供异步HTTP 客户端/服务端编程,基于asyncio的异步库.asyncio可以 ...
Python爬取mn52网站美女图片以及图片防盗链的解决方法
防盗链原理 http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么二来对于资源文件,可以跟踪到包含显示他的网页地址是什么因此所有防盗链方法都是基于这个Referer字段 ...
使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip instal ...

python都被我用来爬美女图片了

目录--多进程爬取美女图片

爬取网页地址

爬取链接

爬取链接

爬取代码

python都被我用来爬美女图片了相关推荐

最新文章

热门文章