python爬取动态网页图片_python爬虫之爬取动态加载的图片

运行坏境

python3.x

选择目标——百度

当我们在使用右键查看网页源码时，出来的却是一大堆JavaScript代码，并没有图片的链接等信息

因为它是一个动态页面嘛。它的网页原始数据其实是没有这个图片的，通过运行JavaScript，把这个图片数据把它插入到网页的html标签里面

那这样造成的结果是，我们在开发者工具中虽然能看到这个html标签，但实际上，当我们在看网页的原始数据的时候，其实是没有这个标签的，它只在运行时加载和渲染

进行抓包就好了，我们点击Network–XHR，然后我们在往下滑动滚动条时，会一直出现一个名为：acjson?tn=resultjson&ipn=…的请求，点击它再点Preview，我们看到这是一条json数据，点开data，我们看到这里面有30条数据，每一条都对应着一张图片。

如下：

于是我们就清楚了，百度图片一开始只加载30张图片，当我们往下滑动滚动条时，页面会动态加载json数据，每条json数据里面包含了30条信息，信息里面又包含了图片的URL，JavaScript会将这些url解析并显示出来。这样，每次滚动到底就又多出30张图片。

那么，这些一直出现的json数据有什么规律呢？

我们点击Headers，然后对比这些json数据的头部信息。

通过对比，我们发现headers下的Query String Parameters中的字段大多保持不变，只有pn字段保持以30为步长递增

比较

总结

import requests

import os

def getManyPages(keyword,pages):

params=[]

for i in range(30,30*pages+30,30):

params.append({

'tn': 'resultjson_com',

'ipn': 'rj',

'ct': 201326592,

'is': '',

'fp': 'result',

'queryWord': keyword,

'cl': 2,

'lm': -1,

'ie': 'utf-8',

'oe': 'utf-8',

'adpicid': '',

'st': -1,

'z': '',

'ic': 0,

'word': keyword,

's': '',

'se': '',

'tab': '',

'width': '',

'height': '',

'face': 0,

'istype': 2,

'qc': '',

'nc': 1,

'fr': '',

'pn': i,

'rn': 30,

'gsm': '1e',

'1488942260214': ''

})

url = 'https://image.baidu.com/search/acjson'

urls = []

for i in params:

urls.append(requests.get(url,params=i).json().get('data'))

return urls

def getImg(dataList, localPath):

if not os.path.exists(localPath): # 新建文件夹

os.mkdir(localPath)

x = 0

for list in dataList:

for i in list:

if i.get('thumbURL') != None:

print('正在下载：%s' % i.get('thumbURL'))

ir = requests.get(i.get('thumbURL'))

open(localPath + '%d.jpg' % x, 'wb').write(ir.content)

x += 1

else:

print('图片链接不存在')

if __name__ == '__main__':

dataList = getManyPages('风景',10) # 参数1:关键字，参数2:要下载的页数

getImg(dataList,'*********') # 参数2:指定保存的路径

python爬取动态网页图片_python爬虫之爬取动态加载的图片_百度相关推荐

python爬虫知乎图片_python爬虫（爬取知乎答案图片）
python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...
用python爬取今日头条上的图片_Python爬虫：抓取今日头条图集
今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析从 ...
python爬取网页停止_Python爬虫之爬取静态网页
所谓网络爬虫,通俗的讲,就是通过向我们需要的URL发出http请求,获取该URL对应的http报文主体内容,之后提取该报文主体中我们所需要的信息.所以,想要学习python爬虫,需要具备一些http的 ...
python爬取网店数据_Python爬虫实现抓取京东店铺信息及下载图片功能示例
本文实例讲述了Python爬虫实现抓取京东店铺信息及下载图片功能.分享给大家供大家参考,具体如下: 这个是抓取信息的 from bs4 import BeautifulSoup import requ ...
python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
python爬取腾讯新闻_python爬虫实战――爬取腾讯新闻！
无论我们通过浏览器打开网站.访问网页,还是通过脚本对URL网址进行访问,本质上都是对HTTP服务器的请求,浏览器上所呈现的.控制台所显示的都是HTTP服务器对我们请求的响应. 以打开腾讯新闻官网为例, ...
python爬图片_python爬虫（爬取图片）
python爬虫爬图片爬虫爬校花网校花的图片第一步载入爬虫模块#载入爬虫模块 import re #载入爬虫模块 import requests #载入爬虫模块第二步获得校花网的地址,获得其 ...
python爬取多页数据_python爬虫实现爬取同一个网站的多页数据代码实例
本篇文章小编给大家分享一下python爬虫实现爬取同一个网站的多页数据代码实例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 一.爬虫的目的从网上获 ...
python爬取链家新房_Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...

python爬取动态网页图片_python爬虫之爬取动态加载的图片_百度

python爬取动态网页图片_python爬虫之爬取动态加载的图片_百度相关推荐

最新文章

热门文章