入门百度图片爬取-----火影忍者壁纸爬取

准备工作

我们这里用的是Uc浏览器，用百度搜索 ’火影忍者壁纸‘
这里我们的网址是http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%BB%F0%D3%B0%C8%CC%D5%DF%B1%DA%D6%BD&fr=ala&ala=1&pos=0&alatpl=wallpaper&oriquery=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85%E5%A3%81%E7%BA%B8
这里我们往下拉的时候是会有很多的图片
可以将网址中的index替换为flip。这样的话我们就把网页换成了这样

替换后的网址

http://image.baidu.com/search/flip?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%BB%F0%D3%B0%C8%CC%D5%DF%B1%DA%D6%BD&fr=ala&ala=1&pos=0&alatpl=wallpaper&oriquery=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85%E5%A3%81%E7%BA%B8分成这样一页一页的作用往后就知道啦 = =

爬取一张图片看看效果：

import os
import requests
url = "http://resource.58game.com/uploads/content/20170117/587d7c026f70e.jpg"
r = requests.get(url)     #  对于这个url我们先不要着急怎么出来
filename = "./output/1.jpg"    #   这个文件夹会产生在根目录下，爬取了一张图片
if not os.path.exists("output"):  os.makedirs("output")
with open(filename,'wb')as f:f.write(r.content)            #  图片写入

那么刚刚这个url怎么得到的呢？
我们打开这个替换后的网址Ctrl+U 查看网页源代码，搜索 ‘.jpg’
发现：相同的网址前边是不一样，那么哪个才是我们需要的呢？
这里我们可以选择其中一个看看能不能下载下来上边例子选择的是 “objURL” 这个下的网址经过刚才验证正确
那么我们怎么找到所有的"objURL"呢？
我们可以用bs4,xpath,re等等这里我们用re来选取

一页的图片url我么已经拿到手了
怎么搞到好几页的呢?我们依次打开第2，3，4页看看有没有什么规律
第一页：http://image.baidu.com/search/flip?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%BB%F0%D3%B0%C8%CC%D5%DF%B1%DA%D6%BD&fr=ala&ala=1&pos=0&alatpl=wallpaper&oriquery=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85%E5%A3%81%E7%BA%B8
第二页：http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85%E5%A3%81%E7%BA%B8&pn=20&gsm=&ct=&ic=0&lm=-1&width=0&height=0
第三页：http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85%E5%A3%81%E7%BA%B8&pn=40&gsm=&ct=&ic=0&lm=-1&width=0&height=0
第四页：http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85%E5%A3%81%E7%BA%B8&pn=60&gsm=&ct=&ic=0&lm=-1&width=0&height=0
通过对比我们发现第二页pn=20，第三页pn=40. 好了规律我们也拿到了
很多时候会爬取失败我们可以看看他的头文件将其偷偷换掉，让他以为我们是一个浏览器。

这里用"middleURL"中的网址

import re
import os
import requests
import uuid
def fetchImage():
local_dir = check_local_dir()for i in range(1,3):url = "http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E7%81%AB%E5%BD%B1%E5%BF%8D%E8%80%85%E5%A3%81%E7%BA%B8&pn={}&gsm=&ct=&ic=0&lm=-1&width=0&height=0".format(20*i)kv = {"user-agent": "Mizilla/5.0"}r = requests.get(url, headers=kv)rt = r.textresult = re.findall('"middleURL":"(.*?)",', rt)for remote_image_url in result:file_patterm = remote_image_url[-3:]print(remote_image_url)filename = local_dir + '\{}.{}'.format(uuid.uuid4(), file_patterm)image_local(remote_image_url, filename
def check_local_dir():BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))aim_path = os.path.join(BASE_DIR, 'OutputTupian')if not os.path.exists(aim_path):os.makedirs(aim_path)return aim_pathdef image_local(url,filename):try:request_header = {  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',"referer":"https://image.baidu.com"}image = requests.get(url,headers=request_header)with open(filename, 'wb') as f:f.write(image.content)f.close()print('url 为 {} 的图片下载完成'.format(filename))return Trueexcept Exception as e:print(e)return Falsereturn Trueif __name__ == '__main__':fetchImage()

完成了有点小问题代码是一行一行复制的
谢谢浏览~~