废话不多说直接看主题

目录--多进程爬取美女图片

  • 爬取网页地址
    • 爬取链接
    • 爬取链接
    • 爬取代码

爬取网页地址

https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202108220858130102121920511F8DC562%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22}
或在https://www.toutiao.com/的搜索框输入街拍美女点击搜索,点击下图红色圈出的那里,进入爬取网页

爬取链接

进入到爬取网页后右键点击检查,打开network,打开XHR过滤器,因为这是爬取Ajax数据,通过下拉网页会刷新出新的图片,同时也会有新的Ajax请求发出,在preview可以找到爬取的内容

爬取链接

在Headers中可以看到爬取的url,通过与下面那个Ajax请求的url对比,可以看出page_num相差1

爬取代码

# 导入python库和请求头信息
import requests
from urllib.parse import urlencode
import os
from multiprocessing.pool import Poolos.mkdir('美女')
headers = {'Cookie': '_S_DPR=1.25; _S_IPAD=0; MONITOR_WEB_ID=6998732191069242893; _S_WIN_WH=1536_754; ttwid=1%7CoFxjodGO-vtY_O_K8G9x4pwu4gz1ICVhReOIH8j_rNI%7C1629523025%7C8a1555a0c15f383da52d213ef8966aba0fd175bb1e07f6d269e4be9aa0c09083','Host': 'so.toutiao.com','Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202108211225210101501390121ED0A112%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3%22}','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
headers1 = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}

通过此图可知url的各个参数,其中page_num是一个可变参数

def get_page(page_num):
# 构造参数字典params = {'keyword': '街拍美女','pd': 'atlas','dvpf': 'pc','aid': '4916','page_num': page_num,'search_json': '{"from_search_id":"202108211225210101501390121ED0A112","origin_keyword":"街拍美女","image_keyword":"街拍美女"}','rawJSON': '1','search_id': '202108211225520102122020840E88BAED'}# base_url是完整url的前一部分# base_url = 'https://so.toutiao.com/search?'url = 'https://so.toutiao.com/search?' + urlencode(params) # 组合urltry:res = requests.get(url,headers=headers)if res.status_code == 200:return res.json()except requests.ConnectionError:return None
def dowmload(json):if json.get('rawData'):items = json.get('rawData').get('data')for i in range(len(items)):item = items[i]id = item.get('id') # 获取图片idurl = item.get('img_url') # 获取图片下载地址print(url)filename = '美女/{}.jpg'.format(id)try:res = requests.get(url,headers=headers1)if res.status_code == 200:if not os.path.exists(filename):with open(filename,'wb') as fp:fp.write(res.content) # 下载图片else:print('Already Downloaded',filename)except requests.ConnectionError:print('Failed to Save Image')
def main(page_num):json = get_page(page_num)dowmload(json)
START = 1 # 起始页
END = 23 # 结束页
if __name__ == '__main__':# 利用多进程的进程池,调用map()方法实现多进程下载pool = Pool()groups = ([x * 20 for x in range(START,END + 1)])pool.map(main,groups)pool.join()

此篇文章爬取的是Ajax数据
同系列文章

python都被我用来爬美女图片了相关推荐

  1. Python爬虫实战批量下载高清美女图片,男生最爱的案例吧!

    彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...

  2. 【Python | 杂代码】从0爬妹子图片教程,难道我也下海了?

    往期精彩: 100多g Python 学习资源分享: 以前的爬虫文章: 下期分享预告:100多G精选Java学习资源(本周六) 前言: 正规妹纸图片网站.58同城房源信息.微信公众号文章, 分三期推送 ...

  3. 用 Java 爬美女图片,这个厉害了!

    目的 爬取搜狗图片上千张美女图片并下载到本地 准备工作 爬取地址:https://pic.sogou.com/pics?query=%E7%BE%8E%E5%A5%B3 分析 打开上面的地址,按F12 ...

  4. python爬虫爬美女图片:“小甲鱼056节轮一只爬虫的自我修养4:OOXX” 最终更新2021.6.27日,更新后可用!!!

    目录 2020.10.25日更新 代码: 2020.11.10日更新 代码 2021.6.27日更新,更新后可用 2020.10.25日更新 需要改动有两个方面: 第一方面,网址编码有变化,如http ...

  5. python利用多线程批量下载高清美女图片(350秒下载近3600张1.2个G的照片,地址可变)

    目录 第一章.前言 1.1.实现的效果: 1.2.需要用到的库: 第二章.代码分块讲解 2.1.对象的定义和初始化 2.2.方法1和2获取所有图集链接 2.2.1. 对应网站结构 2.2.2 .相应代 ...

  6. 学爬虫的动力是啥?那肯定就是爬美女图片了。6千多图片看到爽。

    scrapy框架介绍 scrapy是由Python语言开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据. scrapy框架的传送门: https://sc ...

  7. python爬虫抓取头条街拍美女图片

    开发环境:windows 7 开发工具:pycharm python版本:python 3.7 用到的库:os,urllib,requests,hashlib 关键步骤: 通过浏览器分析找到请求接口 ...

  8. python爬虫进阶:异步请求几秒钟爬光网站的全部美女图片

    aiohttp模块 参考aiohttp库简单教程 - 简书 什么是aiohttp aiohttp是一个为Python提供异步HTTP 客户端/服务端编程,基于asyncio的异步库.asyncio可以 ...

  9. Python爬取mn52网站美女图片以及图片防盗链的解决方法

    防盗链原理 http标准协议中有专门的字段记录referer 一来可以追溯上一个入站地址是什么 二来对于资源文件,可以跟踪到包含显示他的网页地址是什么 因此所有防盗链方法都是基于这个Referer字段 ...

  10. 使用Python爬虫爬取网络美女图片

    代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...

最新文章

  1. [转载] Maven类包冲突终极三大解决技巧 mvn dependency:tree
  2. [数据库]简单SQL语句总结
  3. Linux 笔记 - 第十八章 Linux 集群之(三)Keepalived+LVS 高可用负载均衡集群
  4. centos 上docker 运行出现/bin/sh: . not found
  5. esxi时区设置 +8_Go语言MySQL时区问题
  6. CAN'T TAKE MY EYES OF YOU
  7. 使用行动列表去创造简单且可扩展的游戏AI
  8. CAS服务下单点登录(服务端与客户端)
  9. the c programming language_C.I. 直接黄4(C.I. 24890)生产工艺。 CAS号 [3051114]
  10. ssm执行linux 指令,Linux逻辑卷快照及ssm的使用
  11. chrome插件系列一:Secure Shell(替代ssh客户端)
  12. 在html中直接使用%3c php%3e,HTB-靶机-Calamity
  13. 使用Windbg分析蓝屏原因
  14. 定点数乘法运算:Booth算法(补码一位乘法)C 实现
  15. 5.3 上兴远程控制
  16. Echarts绘制各种数据可视化图表案例(效果+代码)
  17. Android Kotlin之Flow数据流
  18. 解决w950播放RM视频的问题[转]
  19. Jetbot小车系列文章学习
  20. Golang环境变量设置(二)--GOMODULEGOPROXY

热门文章

  1. Pycharm通过ssh远程连接服务器
  2. C++使用librdkafka创建消费者和生产者
  3. 正版python软件多少钱-有奖|这 18 个好用的正版软件、热门的付费教程限时超低价了...
  4. [.NET] ConfuserEx脱壳工具打包
  5. 2021 年高教社杯全国大学生数学建模竞赛题目
  6. python数据分析基础阮敬源码_python数据分析基础 阮敬pdf|保靖制作项目投资实施细则...
  7. 从零开始一个cli脚手架并发布到NPM(上篇)
  8. 网络操作系统与分布式操作系统
  9. 谷歌和金山词霸合作 翻译行业垄断出现
  10. 转:如何破解超星打印页数限制