Python爬虫爬取Ajax加载的百度图库

Ajax 是一种用于创建快速动态网页的技术, 是一种在无需重新加载整个网页的情况下，能够更新部分网页的技术。

Ajax用一句话来说就是不需要刷整个新页面即可从服务器取得数据（局部刷新）

今天通过在百度图片中输入汽车，然后爬取搜索到的图片，并保存到本地目录来认识Ajax。

1. 分析百度图片网站

找到真正的请求地址url

在百度图片上输入**“汽车”**后，右键检查，选择Network中的XHR，然后将网页向下拉，观察发现地址栏的网址并没有发生变化，而图片在增加。在抓包工具的显示下可以看到有相应的ajax请求增加，点击其中一个文件可以看到详细的信息，请求返回的数据格式是json格式。

比如第一个的请求网址为：https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=汽车&cl=2&lm=&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&word=汽车&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&pn=90&rn=30&gsm=5a&1545483113251=

第二个的网址：https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=汽车&cl=2&lm=&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&word=汽车&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&pn=120&rn=30&gsm=78&1545483113861=

通过对比两个网址可以发现只有pn和gsm的值发生了改变。pn代表的是页数，rn代表每页显示的图片数量。gsm是pn 的 16位显示。

至于最后面的13位数字，因为默认情况下python的时间戳是以秒为单位输出的float ，这里通过把秒转换毫秒，然后四舍五入的方法获得13位的时间戳：这里在设置请求的url可以不用写进去。

import  time
print(int(round(time.time() * 1000)))
# 输出结果为当前13位的时间戳

queryWord，word为我们输入的关键字“汽车”通过urllib.parse.quote(关键字)加密后的组合。

所以可以拼接处真正的请求地址url：

# offset为页数
params = {'pn': offset,'rn': 30,'gsm': str(hex(offset))}
url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E8%A1%97%E6%8B%8D&cl=&lm=&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&word=%E8%A1%97%E6%8B%8D&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&expermode=&selected_tags='+ urlencode(params)

找到我们要爬取的图片信息

点击抓包工具中的preview>data，点开其中任意一个字典“1”找到我们要的图片链接

发现一张图片有4种URL：fromURL,middleURL,thumbURL,objURL,前三种有反爬措施，因此采用 objURL，objURL是加密后的样子，加密的原理是每个字符或者字符串都有一个对应的字符或者字符串，在加密过程中将原始的字符串替换即可。解密的详细讲解代码可在我的GitHub中查看，这里不再赘述。

详细测试解密函数（decry）代码-地址：https://github.com/silas9187/Python_Web_crawler/blob/master/basic spider/BaiDu/百度图片链接解码测试.py

2.编写代码

主要分为三个部分：①获取真正的请求url然后爬取信息，②然后获取图片新信息，③保存图片到本地文件夹

getPage函数获取真正的请求url然后爬取信息

def getPage(offset):'''爬取信息'''# 定义参数params = {'pn': offset,'rn': 30,'gsm': str(hex(offset))}# 初始化url地址headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E6%B1%BD%E8%BD%A6&cl=2&lm=&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=&hd=&latest=&copyright=&word=%E6%B1%BD%E8%BD%A6&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=&'+ urlencode(params)try:res = requests.get(url, headers=headers)if res.status_code == 200:return res.json()except:return None

然后getImage函数获取图片新信息

图片的标题用循环的数字m替代

def getImage(json):'''获取图片信息'''# print(type(json))  # json 为字典（dict）数据data = json.get('data')m = 1if data:for item in data:try:if item.get("objURL"):image = decry(item.get("objURL")) # decry为解码图片链接的函数title = str(m) # 这里将m设置为每张图片的名字yield {'image': image,'title': title,}m += 1except error.URLError as e:print(e.reason)  # 输出错误信息

saveImage函数存储图片信息到本地文件

先在本地同目录下建立一个“mypic”文件夹用来存放图片

def saveImage(item):'''储存图片信息'''#处理图片的存储路径path = os.path.join("./mypic/", item.get('title'))if not os.path.exists(path):os.makedirs(path)#图片路径的处理local_image_url = item.get("image")# 判断是否有objURL,没有则说明图片是一个网站链接if local_image_url:save_pic = path+"/"+local_image_url.split("/").pop(2)+".jpg"#存储图片urlretrieve(local_image_url, save_pic)

4.最后设置主函数调用，主程序传入offset参数的值

def main(offset):'''主函数'''json = getPage(offset)# print(content)for item in getImage(json):print(item)saveImage(item)if __name__ == "__main__":for i in range(1, 3):main(offset=i*30)# time.sleep(1)

3.运行代码

图片下载成功！！！！

完整代码地址：https://github.com/silas9187/Python_Web_crawler/blob/master/basic spider/BaiDu/BaiDu.py （有用的话，GitHub点个赞，谢谢）

这里我在请求地址里限制关键字为汽车，也可以自己输入关键字，将它编码后（加密关键字用urllib.parse.quote()）作为参数拼接到地址中。

如果觉得对你有帮助的话，请给文章点个赞，谢谢支持！